SIRI介绍-文档资料－金锄头文库

资源描述

《SIRI介绍-文档资料》由会员分享，可在线阅读，更多相关《SIRI介绍-文档资料（42页珍藏版）》请在金锄头文库上搜索。

1、SIRI,08010110 徐辰 08010124 黄健翔 08010133 何健,什么是SIRI?,语音控制软件？,会聊天的机器？,官方视频,SIRI的功能,设置闹钟,“ wake me up at 7:15am”,找咖啡厅,“looking away from the current location nearest caf”,路径导航,查找旅游路线 Google map 准确无误,播放音乐,用 Siri 随机播放音乐 LIST 某首音乐,发短信,不再需要边走路（开车）边看着手机发短信（不安全） “I will be late home”,理解语言,提醒日程 ten oclock, r

2、emind me to brush my teeth.,它令IPHONE 4S变成了一个智能机器人。,人工智能在SIRI中的体现,1.执行人所需要的操作。（打电话、发短信、调用应用程序） 2.理解并与人互动交流。 3.学习语音语调。 4.判断能力。（通过用户一些毫无语法的字词（例如DRUNK）判断用户的状态：醉酒。甚至给出解决方案：叫出租车）,Siri对话测试,Siri的整体架构,整体架构,Siri是一个功能繁复的综合AI框架，图1展示了其包含的数据、模型以及计算模块，为了在整体上更易于理解整个框架，可以将Siri里包含的众多数据、模型和计算模块划分为输入系统、活跃本体、执行系统、服务系统和

3、输出系统五个子系统。,其在解析用户输入时候遵循一定的执行顺序，以此来理解用户的真正意图并提供有用服务。 Siri的资源主要分为资源类和计算类两大类。其中属于资源类的包括：领域模型；词汇表数据库；短期记忆系统；长期记忆系统；领域本体数据库；对话流模型；服务模型；服务能力模型；外部服务；属于计算资源的包括：语音识别系统；语言模式识别器；语言解释器；对话流控制器；任务控制器；服务集成模块；语音生成系统；,Siri的输入系统支持多模态输入，即不仅仅支持众所周知的语音识别，也允许用户进行文本输入、GUI界面操作以及事件触发等。除了支持多模态输入外，Siri输入系统一方面

4、可以利用语言解释器对早期输入进行歧义消除，另外一方面还可以对用户输入进行有意识的引导，将用户输入尽量映射到Siri能够提供的服务上来。这样对于用户和Siri来说才可相得益彰，Siri 可体现其价值，用户可获得帮助。,“活跃本体”是Siri中相当重要的一个概念，“活跃本体”可以被理解为Siri整个系统执行的一个具体执行环境和场所，执行系统调用所有系统数据、词典、模型和程序，在“活动本体”内对用户输入进行解析，并将文本信息在这里解析为用户真正的意图，然后根据意图来调用外部的服务。,在程序执行时，“活跃本体”内放入的数据和模型包括：领域模型，用户个性化信息，语言模式、词汇表和领域实体数据库等。领域

5、模型包括某个垂直领域内的概念，实体，关系，属性和实例的内部表示，这其实就是Semantic Web这个研究领域常说的ontology。Siri包含很多垂直领域的领域模型。 “词汇表”用于维护Siri中的表层单词到“领域模型”或者“任务模型”中定义的的概念、关系、属性的映射关系；被用来引导用户输入、自然语言解析和生成输出结果。Siri在个性化方面做得也非常出色。在和用户沟通过程中，如果一台机器能够叫出你的名字，并且知晓你的个人爱好，用户体验无疑是非常优异的。,从具体技术手段上，Siri是通过在内部保持两个记忆系统：长期记忆系统和短期记忆系统来实现能够个性化的和用户交流的。长期记忆系统存储了用户的

6、名称、居住地址以及历史偏好信息，短期记忆系统则将最近一段时期内Siri和用户的对话记录及GUI点选记录等登记下来。利用这两个记忆系统，Siri可以在理解用户需求的时候帮助澄清用户的真正意图是什么。语言模式识别系统是对用户输入的表层，语法层，习惯用语和成语等进行模式匹配的模块。匹配模式的代码在Siri内部采用正则表达式或者状态机等方式实现；在Siri识别出指定的语言模式后，可以帮助判断用户输入所述的任务类型。,执行系统是Siri系统最有技术含量的部分，前文有述：“活动本体”是对根据用户的输入信息，将各种词典资源，模型资源实例化进行具体加工的场所，而真正的加工过程是由执行系统进行的。执行系统不仅

7、将用户原始的文本输入解析为内部的语义表示，而且要在用户和Siri交互过程中（多轮会话）决定下一句Siri应该说什么内容，可见其重要性。,执行系统具体又可以细分为三个主要部件：语言解释器、会话流控制器和任务控制器。它们之间分工有异同时又密切合作，一起发挥作用。语言解释器将用户输入字符串流解析为语义表示作为输出，而这个语义表示又会作为会话流控制器的输入，会话流控制器根据当前语句所表达的含义，协同任务控制器一起决定Siri下一步应该做什么或者说什么。语言解释器是Siri中最重要的自然语言处理工具，主要用来对文本形式的用户输入进行解析，将其映射为概念本体层级的信息表示，即理解语言真正的含义，除此外

8、，语言解释器也被用在输入系统中对用户输入提示或者输入补全进行分析，而且对语音识别结果后处理也有很大帮助。,对话流控制系统是在将用户的文本表示解析为内部用户意图之后发挥作用；即语言解释器将解析结果传递给对话流控制器，是语言解释器的后续处理步骤；而“任务控制器”则被“对话流控制器”调用，共同确定Siri下一步应该做什么或者说什么。“任务流控制器”的主要功能是界定完成一件任务或者解决某个问题由那些步骤构成,这些步骤之间是何种关系。,“任务流控制器”和“对话流控制器”很容易混淆，不容易区分其功能差异。一般来说，“对话流控制器”主要用来决定Siri接下来要说的内容或者要做的事件，主要是根据领域判断诱导用

9、户提供所需的参数；而“任务流控制器”更侧重于事务本身的定义，比如一个任务可以切分成若干子任务，是否有时序依赖关系。任务流控制在Siri中也起到举足轻重的地位，Siri的任务模型是由一些领域无关的通用任务模型和若干领域相关任务构成。通用任务是完成一件任务的抽象表述，与具体领域无关，因为其通用性，也可以应用在各个具体应用领域。,Siri本质上是服务导向的用户意图识别系统，无论是对话流控制也好，任务流控制也好，其根本目的还是为了能够将用户引导到Siri能够提供的某项具体服务，以此达到帮助用户完成某些任务或者解决一些问题的目的。目前Siri可以提供多种领域的服务，这里面涉及到服务管理的问题，即如何

10、进行管理才能使得系统可用性高，可维护性强等。具体而言，Siri中有三个子部分涉及到服务功能：服务模块，服务能力模型和多服务集成模块。其中，服务模块记录了可供Siri使用的各种服务的详细信息，服务能力模块则存储了哪些服务可以提供什么类型的服务等映射关系，服务系统中最重要的是服务集成模块，调用另外两个服务模块提供给用户最终服务内容。,因为往往完成用户某项需求要调用分布在各处的多项服务，每项服务能够提供部分信息，而且服务之间有些顺序需要遵守，所以如何调用所需的多种功能，调用顺序如何确定以及如何根据部分信息拼合成最终用户所需服务是其核心内容。Siri的输出系统会将最终提供的服务结果或者在会话过程的中

11、间内容展示给用户。其不仅支持语音、电邮、文本等多模态输出，还支持界面订制等个性化功能。从上述技术描述看，Siri是苹果公司新推出的一种新型人工智能框架，不仅在商业宣传上令人耳目一新，在其技术架构和具体实现上也颇具新意。尽管Siri最初是依附在iPhone平台，但是很显然，这种依附性并不强，可以预见，这套系统会不断扩展到更多种硬件类型的智能控制，比如车载控制系统，智能电视控制系统等等,中文SIRI（feel siri）,玩转Siri - 让Siri用中文发动汽车引擎，FeelSiri出品,中文Siri，路在何方呢？,第一，语音助手能够解决什么真正的用户需求？大多数人提到Siri，第一印象就是调

12、戏Siri，但如果一个产品只是用来“调戏”，那这个产品充其量只能算是玩具，而不是人们所必须使用的语音助手。所以，siri的定位应该是解决用户的真正需求和痛处。可惜，目前Siri的模仿者大多视这个需求而不见，而是关注如何才能更好的“调戏”用户。相信只有真正做到解决用户需求的产品，才能够获得用户长久的喜爱，希望国内的开发者能够注意这个问题。 Siri想要实用，就必须调用开放数据的平台，而中国却没有Wolfram Alpha这种引擎，所以中文Siri想要真正解决用户需求，只能一家一家去谈，比如找大众点评、百科等。这是创业公司做不来的，而大公司（百度、腾讯等）来做，可能又存在利益冲突。,第二，如何克

13、服后台海量数据学习技术门槛？虽然李开复老师说全球只有一个公司有这个技术，而我们也不知道这个公司具体是指哪一个。但据我了解，在语音识别方面，科大讯飞是做的不错的，讯飞语音输入法的识别率已经达到85%以上。而且他们的语音识别是基于云计算实现的，应该是具备数据学习能力的。除了语音识别，还有一个难题是语义理解，这也是中文Siri的核心难题。让机器真正理解人的语言，这是一件很困难的事。就目前来看，苹果在英文方面都没有很好解决，不然也不会有用户要告苹果虚假宣传了。但苹果可以依靠“调戏”用户获得大量语料，然后学习后提升可用度。可见，语义理解是一个需要不断优化的过程，每一个用户的参与都将对智能语义理解的

14、完善做出奉献。,第三，应用谁开发？ Siri的前提是要有语音识别功能，这个功能的门槛之高，已经让很多开发者望而却步。幸好，国内有科大讯飞的语音云开放平台，为普通开发者提供了语音识别和语音合成的功能，让中文Siri的开发有了基础，智能360和Airi等产品就是基于讯飞语音云平台实现的。作为普通开发者，使用语音云平台研发产品是很正常的。但如果真的想做成siri这种大众性应用，核心技术却掌握在别人手里，这是致命的问题。所以，真正能够做出中文siri应用的，应该还是科大讯飞这种掌握核心技术的公司。,第四，语音服务器的成本太大？语音服务器的成本问题对于创业公司来说，确实是个大问题。但事实情况是，需要承受这个压力的，可能只有科大讯飞和谷歌，因为一般公司目前连语音技术都没有。科大讯飞在2010年推出了开放的语音云平台，目前用户规模已经达到2500万。据说，3月22日，科大讯飞还将发布新一代的语音云，可见科大讯飞对于语音云开放平台的投入力度很大。作为一家上市公司，相信科大讯飞还是有实力克服用户扩张带来的服务器成本和带宽压力的。,恶搞SIRI,恶搞siri,

展开阅读全文

SIRI介绍-文档资料

最新文档