第4章 非结构化数据的处理

上传人:资****亨 文档编号:133873635 上传时间:2020-05-31 格式:PPT 页数:31 大小:281.50KB
返回 下载 相关 举报
第4章 非结构化数据的处理_第1页
第1页 / 共31页
第4章 非结构化数据的处理_第2页
第2页 / 共31页
第4章 非结构化数据的处理_第3页
第3页 / 共31页
第4章 非结构化数据的处理_第4页
第4页 / 共31页
第4章 非结构化数据的处理_第5页
第5页 / 共31页
点击查看更多>>
资源描述

《第4章 非结构化数据的处理》由会员分享,可在线阅读,更多相关《第4章 非结构化数据的处理(31页珍藏版)》请在金锄头文库上搜索。

1、 做中国领先的科研资源提供商 第四章非结构化数据的处理 大数据处理 配套课件 总课时 4小时 实验 3小时 提纲 非结构化数据处理概述自然语言处理技术概述自然语言处理的基本技术 什么是非结构化数据 相对于结构化数据 即行数据 存储在数据库里 可以用二维表结构来逻辑表达实现的数据 而言 不方便用数据库二维逻辑表来表现的数据即称为非结构化数据 包括所有格式的办公文档 文本 图片 XML HTML 各类报表 图像和音频 视频信息等等 绝大部分数据是非结构化数据 世界上85 的数据都是非结构化数据 这些数据每年都按指数增长60 非结构化数据处理的技术 非结构化数据处理的主要技术是自然语言处理技术 用来

2、对非结构化数据进行各种层次的理解 自然语言处理技术 我要去清华大学 从西直门怎么走 学院路堵不堵 为什么我上个月已退了GPRS 这个月还扣我钱 服务 路线查询起点 西直门终点 清华大学 服务 路况查询地点 学院路 服务 客服投诉业务 GPRS诉求 错误扣费 提纲 非结构化数据处理概述自然语言处理技术概述自然语言处理的基本技术 自然语言的概念 什么是自然语言语言是人类交际的工具 是人类思维的载体人造语言 编程语言 包括C BASIC等世界语自然语言 形式 口语 书面语 手语语种 汉语 英语 日语 法语 语言学是研究语言规律的科学 网络语言 昨晚 我的JJ带着他的青蛙BF到我家来吃饭 在饭桌上 J

3、J的BF一个劲儿地对我妈妈PMP 说她年轻的时候一定是个漂亮MM 那酱紫真是好BT 7456 JJ 姐姐酱紫 这样子BF boyfriend青蛙 长相不好的男朋友PMP 拍马屁MM 妹妹BT 变态7456 气死我了 语言的构成 自然语言处理的层次 语音分析 从语音流中区分出一个一个声音单元 音素词法分析 从句子中切分出单词 找出词汇的各个词素 确定单词的词性 词义等 句法分析 对句子和短语的结构进行分析 找出词 短语等的相互关系及在句子中的作用等 语义分析 识别一句话所表达的实际意义 语用分析 研究语言所在的外界环境对语言使用所产生的影响 语义与语用 同一词语在不同的 语境 中具有不同 语义

4、例如 中国奥运史上十大女杰的精彩 转身 病毒计算机领域 计算机病毒医学领域 生物学病毒 自然语言处理的概念 自然语言处理 NaturalLanguageProcessing NLP 也称自然语言理解或计算语言学 主要研究如何让机器进行自然语言信息处理 即人类语言活动中 信息成分的发现 提取 存储 加工与传输 NLP是计算机科学 语言学 人工智能与数学等学科的交叉学科和边缘学科 计算语言学是从计算角度处理语言将人们对语言的结构规律的认识用精确的 形式化的 可计算的方式 计算模型 加以表示 自然语言理解的困难 自然语言具有多样性 不同语种 不同地域 不同人群 自然语言具有进化性自然语言的模糊性自然

5、语言的歧义性处理歧义问题是NLP的核心问题 自然语言处理过程就是各种歧义现象的消解过程 自然语言理解的困难 机器能够理解人的语言吗 很难 什么是理解 结构主义 机器的理解机制与人相同 白盒 问题 人类语言理解机理尚未清楚功能主义 机器的表现与人相同即可 黑盒 图灵测试如果通过自然语言的问答 一个人无法识别和他对话的是人还是机器 那么就应该承认机器具有智能 理解自然语言的准则 给计算机输入一段自然语言文本 如果计算机能问答 question answering 机器能正确地回答输入文本中的有关问题 文摘生成 summarizing 机器有能力产生输入文本的摘要 复述 paraphrase 机器用

6、不同的词语和语句复述输入文本 翻译 translation 机器把一种语言 源语言 翻译为另一种语言 目标语言 自然语言处理的研究目标 弱人工智能目标 建立一个足够精确的语言数学模型使计算机通过编程来完成自然语言的相关任务 如 听 读 写 说 释义 翻译 回答问题等 强人工智能目标 让用户能通过自然语言与计算机自由对话 自然语言处理的研究内容 应用系统 数字图书馆 电子商务 电子政务 远程教育 语言学习 基础研究 分词 词性标注 短语切分 句法分析 语义分析 篇章理解等 应用技术研究 自动问答 机器翻译 信息检索 文本挖掘 自动校对 信息抽取 资源建设 语料库资源建设语言学知识库建设 语言学家

7、 NLP研究者 软件企业 自然语言处理的应用 NLP应用前景据统计 日常工作中80 的信息来源于语言 处理文本的需求在不断增长文本是人类知识最大的存储源 并且文本的数量在不停地增长电子邮件 新闻 网页 科技论文 用户抱怨信NLP典型应用智能搜索引擎 自动问答 信息获取 语义网语音识别 文字识别 输入法机器翻译 自动文摘 跨语言检索文本分类 文本聚类 文本分析 结构 内容 情感 文本挖掘 主题跟踪 人物跟踪 企业跟踪 文本过滤 自然语言处理的应用趋势 智能接口功能 把现实世界中的信息送入电子世界主要成果拼音输入 手写输入 语音合成 语音输入 手机输入知识处理功能 对于已进入电子世界中的信息进行加

8、工处理获得知识知识经济的时代已经到来 知识就是力量 知识就是财富百度爱问 百度文库 新浪爱问 VC知识库 提纲 非结构化数据处理概述自然语言处理技术概述自然语言处理的基本技术 自然语言处理的基本技术 词法分析句法分析语义分析 词法分析概述 词法分析目的是从句子中切分出单词 找出词汇的各个词素 从中获得单词的语言学信息并确定单词的词性词性 名词 动词 形容词 介词等词的构成 动宾 动补 偏正 主谓如 开学 生病 加深 认清 原油 火热 头痛 人造自动分词 汉语处理的难题之一用程序从句子中切分出单词 词法分析的分词歧义 例 南京市长江大桥南京 市长 江大桥南京市 长江 大桥例 我们研究所有东西我们

9、 研究所 有 东西 交叉歧义 我们 研究 所有 东西把手放在桌上把 手 放在 桌上 组合歧义 把手 放在 桌上 句法分析概述 目的 分析句子结构 找出词 短语在句中的相互关系以及各自的作用 并用层次结构来加以表示 SNPVPVNPPPMissSmithputtwobooksonthisdiningtable 句法分析过程 一个句子是由各种不同的句子成分组成的 这些成分可以是单词 词组或从句 句子成分还可以按其作用分为主语 谓语 宾语 宾语补语 定语 状语 表语等 这种关系可用一棵树来表示 如对句子 Hewroteabook 可用图示的树形结构来表示 句法分析过程 一个句子又是由若干个词类构成的

10、 如名词 动词 代词 形容词等 若从句子的词类来考虑 一个句子也可用一棵树来表示 这种树称为句子的分析树 如图所示 语义分析概述 语义分析就是要识别一句话所表达的实际意义 即弄清楚 干什么了 谁干的 这个行为的原因和结果是什么 以及 这个行为发生的时间 地点及其所用的工具或方法 等 语义分析仅是在句法范围内根据词性信息来分析自然语言中句子的文法结构的 由于它没有考虑句子本身的含义 也就不能排除像Thepaperreceivedtheprofessor 这种在语法结构上正确 但实际意义上错误的句子 语义分析过程 JohngavethebooktoSally GAVEAgent JohnObjec

11、t thebookSource JohnGoal Sally Agent 施事 指行为的施动者 Object 受事 指行为作用的对象 Co Agent 共施事 指行为施动者的合作者 Instrument 工具 指施事者或共施事者实现行为中所使用的对象 Time 时间 指行为发生的时间 Source 来源 指行为作用对象移出的位置 Goal 目标 指行为作用对象到达的位置 Trajectory 轨迹 指从来源到目标所经过的路径 习题 非结构化数据和结构化数据有什么区别 什么是自然语言处理 词法分析 句法分析和语义分析的功能及区别 配套实验 非结构化数据的处理分词工具使用分词程序编写句法分析实验高效的文本处理工具

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号