自然语言处理与人工智能资料

上传人:f****u 文档编号:128307137 上传时间:2020-04-20 格式:PDF 页数:3 大小:1.81MB
返回 下载 相关 举报
自然语言处理与人工智能资料_第1页
第1页 / 共3页
自然语言处理与人工智能资料_第2页
第2页 / 共3页
自然语言处理与人工智能资料_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《自然语言处理与人工智能资料》由会员分享,可在线阅读,更多相关《自然语言处理与人工智能资料(3页珍藏版)》请在金锄头文库上搜索。

1、26 专题 第 11 卷 第 5 期 2015 年 5 月 1 也译作 华语房间 表现在外部的语言和大脑里的 概念到底是不是一一对应的 有人举例说 蒙古语中与 马 相关的词汇有几十种 爱斯基 摩人用于表示 雪 的词汇也 有几十种 而不生活在马和雪 的世界的人用于描绘 马 和 雪 的词汇就很少 是语言造 就了概念 还是概念造就了语 言 是全人类有共同的概念 还是有一种语言就塑造一套概 念 这确实是一个问题 那么 语言到底是怎么回事 这是研 究自然语言理解和自然语言处 理的人必须面对的问题 我们 说要善解人意 人意 在哪里 它藏在语言符号怪阵的背后 如图 1 所示 语言最表层可 能通过文字或语音的

2、方式表现 也可能通过电子输入的方式表 现 再向下有 词法 句法 和 语义 乃至 语用 这是 善解人意 是构筑 智能系统的必要条件 说起实现各种各样的智能 系统 大家都认为能 善解人意 应该是一个基本条件 而其实现 的一个重要桥梁就是语言 著 名的对人工智能系统的图灵测 试实际上就是要通过对话 也 就是通过语言来判断隐藏在那 个不可见的位置跟你对话的到 底是人还是机器 还有美国哲 学家约翰 希尔勒 John Searle 提出的一个思想实验 中 文屋子 Chinese room 1 一个 屋子里的人都不懂中文 只懂 英文 但可以执行特定的规则 把符号搬来搬去 最后的效果 是把英文翻译成中文 问题

3、是 到底谁懂中文 另外 从亚里士多德到布 尔 从莱布尼兹到维特根斯坦 实际上哲学在 20 世纪初有过一 次重要的 语言学转向 就是 从拍脑袋的思辨转变到针对文 本 语言学领域也有人在思考 自然语言处理与人工智能 关键词 自然语言处理 知识 大脑计划 白 硕 上海证券通信有限责任公司 文字语音电子输入 浅层 深层 深层 的作用链波 及 浅层 是解决 浅层疑难问题的最终 手段 浅层 见效快 门 槛低 可以摆脱语言 学家自己玩 合称 语法 词法 句法 语义 语用 深层 语言知识长 什么样 至今仍众说 纷纭 遑论学习了 浅层 语言知识的 深度 学习仍然改 变不了其 浅层 特性 音乐会说话 图1 人意

4、隐藏在符号怪阵的背后 27 第 11 卷 第 5 期 2015 年 5 月 语言学界标准的层次划分 图中 红色的虚线上方通常被认为是 浅层 涉及到一点点句法 句 法的大部分在下方 虚线之下的 部分被认为是 深层 浅层的 语言模型的研究见效很快 门槛 很低 计算机科学家和工程师基 本上可以自己进行研究 然而深 层的语言学知识 有一些地方可 能说不清楚 例如 上海电台有 一档节目叫 音乐会说话 不 论按照什么分词标准 很多的分 词系统都会把它分成 音乐会 说话 也就是说 音乐会 被 当作一个词的分法在这些系统中 是应该占优势的 但是这档节目 名称的意思实际上是 音乐 会 说话 只有用到了深层的句法

5、 和语义 甚至语用 才能确定这 是一个隐喻 才能发现正确的分 词方案是什么 现在人们对深度学习充满了 期待 但是必须说明 学习的度 的 深 和 浅 与学习对象 在语言层次上的 深 和 浅 是两个概念 如果语言模型停留 在浅层 就是把深度学习用到极 致 得到的结果也有局限 但是 在语言模型深层的机器学习研究 就复杂了 因为浅层的东西大家 都看得见 深层的很多东西是看 不见的 看不见就会造成各说各 话 没有统一的标准 所以 这 个方面的研究非常困难 有一种说法叫 基于规则的 系统是 傻子 基于统计的系 统是 疯子 基于规则的系统 在规则不能覆盖的地方表现极其 糟糕 基于统计的系统 因为很 多模型现

6、在只能做到浅层 深层 的不知道怎么做 所以有局限 如 图 2 所示 基于统计处理的深 层语言模型是有的 但深层模型 研究需要资源建设积累的支撑 如果没有资源建设 深层语言模 型研究无从谈起 统计又要有语 料的积累 这双重的积累是瓶颈 能够打通瓶颈往前走的人不多 但我认为这是正确的路 语言学领域的知识到底是什 么 如果不知道知识是什么 或 者理解得不透彻 就想学习 效 果会差得很远 深层的知识躲在 后面 或者说 你可以这样理解 他可以那样理解 似乎没有什么 硬标准能够把它们提取出来 但 是大家要解决的问题和难点是明 确的 一个是递归嵌套的深度 另一个是语言成分远距离相关的 宽度 相关成分相距越远

7、 递归 嵌套层数越深 浅层模型越难处 理 只要这两个难点有所突破 不管把语言模型设计成什么样 肯定都能在某种程度上反映深层 的语言学知识 我在自然语言处 理领域的研究兴趣主要集中在三 个方面 一是关注语言学的知识 到底是什么 二是利用递归神经 网络实现语言知识的自动获取 比如可以在系统中添加栈和计数 器 可以把规则编译成递归神经 网络等 这个领域值得特别关注 三是用自然语言作为知识表示 直接进行模式推理和检索 自然语言处理与 大脑 语言研究对人工智能有重要 意义 第一 语言是一个自然的 交互界面 善解人意 绕不开 这个界面 第二 语言的背后是 一套知识 怎么学习和表示它 与一般知识的学习和表示

8、是有共 性的 第三 语言是一个窗口 通过对人类语言的观察 可以侧 图2 基于规则的系统是 傻子 基于统计的系统是 疯子 28 专题 第 11 卷 第 5 期 2015 年 5 月 面了解人类大脑内部发生的推理 和表示 近年来 各种 大脑计划 开始兴起 大脑计划的外显能力 离不开自然语言的处理 但是我 们还是可以根据语言处理所用技 术的不同 把它们分为几类 见 图 3 按照这个分类 机器人写高 考作文属于第三个层面 最后一 个类型 分析理解型 最难 其 典型就是解应用题 如果真做好 了 说明掌握了语言深一层的东 西 图 3 列举的应用题是期权培 训教材里的考题 自然语言处理 通过什么方式入手处理

9、这道题 是很有讲究的 这里面涉及计算 和分析 还有价值取向 要赚 钱 这道题隐含了一个答题目标 就是如何做才是赚钱的 这是典 型的投资逻辑 在各种 大脑计划 中 一 般都是非常庞大的团队在进行研 发 他们会对各种数据 包括语 料 进行大规模的标注和训练 以这种方式对非限定领域的大数 据 大语料进行训练和开发 对 各种智能化技术进行综合集成 做出来的成果会很震撼 很酷 但小团队也有优势 可以比较轻 灵 在特定领域研发出出色的应 用 比如 出门问问 2 还有另 一种模式 就是 游侠 他们 不太可能大规模地开展业务 只 会做一些核心技术 特别是顶层 的建模 在一个自然语言处理系 统里 如何理解语言学

10、知识 决 定了把后续的学习手段加上之后 到底能够走多远 一个项目立项 之时 研发思路就已经确定 后 面难以突破先天局限 而恰恰是 游侠 模式 可以在这个方面 走得更远 迄今为止 自然语言处理的 核心问题还没有解决 突破的 钥 匙 掌握在语言学家或者通晓语 言学成果的人手里 关键的试金 石有两个 递归嵌套 远距相 关 如能实现对这两种关系的正 确分析 理解 就说明我们在对 语言的深层处理能力上有了标志 性的进步 我们认为以后会有很 多取得突破的机会 不仅大脑计 划有机会 游侠 模式也有机 会 基于统计的系统走不下去的 地方 基于规则的系统进行抄底 的机会也是存在的 白 硕 CCF会员 上海证券

11、通信有限责任公司 董事长 主要研究方 向为轻便高效证券 交易系统和证券行 业云服务等 sbai 2 出门问问 是一款基于语音识别 语义理解技术 面向移动搜索领域的智能手机应用 用户只须通过语音用 口语化的提问方式就可以搜索出有关吃穿住行的服务 自然语言处理是 各种 大脑 外 显能力的基石 死记硬算 型 brutal 寻章摘句 型 retrieval 老调新谈 型 paraphrase 分析理解型 analytic 各类自然语言处 理技术 层次 自然语言处理的 挑战在这里 某投资者持有10000股中国平安股票 如果该投资者希望为手中持股建立 保险策略组合 他应该如何操作 中国平安期权合约单位为1000 A 买入10张中国平安认购期权C 买入10张中国平安认沽期权 B 卖出10张中国平安认购期权D 卖出10张中国平安认沽期权 图3 自然语言处理与各种 大脑

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号