电子设备的文本输入系统及文本输入方法_2

资源描述

《电子设备的文本输入系统及文本输入方法_2》由会员分享，可在线阅读，更多相关《电子设备的文本输入系统及文本输入方法_2（5页珍藏版）》请在金锄头文库上搜索。

1、电子设备的文本输入系统及文本输入方法专利名称：电子设备的文本输入系统及文本输入方法技术领域：本发明涉及电子设备的文本输入系统及文本输入方法，特别是一种对供显示和用户选择的文本预测进行自适应重排序的系统和方法。重新排序文本预测，以便将更接近当前文本语境的文本预测置于列表顶部显示并供用户选择，由此辅助用户进行文本输入。背景技术：目前，存在着许多电子设备使用的文本输入技术，例如，台式电脑或笔记本电脑使用的标准键盘(QWERTY-style)文本输入，个人数字助理(PDA)使用的手写识别，移动电话设备使用9位数字键盘的字母符号输入，标准电脑设备及移动电脑设备使用的语音识别文本输入系统，以及触屏装置。在

2、移动电话技术领域中，已有多种文本输入技术。其中比较有名的文本输入技术包括特捷通讯公司(Tegic Communications)的“T9”,摩托罗拉(Motorola)的“iTap”，Nuance 通讯公司的 “XT9”、“eZiType” 和 “eZiText”，黑莓的 “SureType”，KeyPoint 科技公司(KeyPoint Technology)的“AdapTxt”和上海汉翔信息技术有限公司(CooTek)的“TouchPal”。这些技术大多是基于字符的文本输入技术，并利用了一些文本预测(或歧义消除)技术。在不同的已知模型中，支持一本具有合法词条的词典(或多本词典)，并且赋予

3、词典特定的输入序列。文本输入系统从该词典中选择一条(或一组)合法的词条，并将该词条作为潜在填充的候选词条呈现给用户。可由用户输入新的词条来扩充上述基础词典，这一扩充受限于设备的可用内存容量。在这些文本输入系统中，除了某些系统(诸如“eZiText”、“AdapTxt”、“TouchPal，)中根据即时的词汇语境，对潜在填充的候选词条进行排序，其余系统根据使用频率的统计，对潜在填充的候选词条进行排序。发明内容本发明对这种仅以使用时间或频率为依据进行文本预测排序的文本输入系统进行了显著的改进，并允许对会受到预测词条或短语属于当前文本语境(例如，由用户输入的当前文本序列)可能性影响的文本预测进行排序

4、。本发明提供的文本输入系统允许使用“非本地”语境(Nonlocal context)。由此，本发明提供了一种能够对其自身生产的文本预测进行更为准确排序的系统，用以减少用户的文本输入强度(因为，用户很少不得不靠翻动预测词条列表或输入额外字符来找出他们需要的词条)。本发明提供了一种利用矢量空间技术和随机索引来评估给定词条或短语属于当前文本语境的可能性的文本输入系统及方法。由此，该系统可基于词条/短语属于当前文本语境的可能性，为给定的预测词条/短语生成一修正过的概率值。该系统使用这一修正过的概率值重新排序和/或选择由文本预测引擎生成的文本预测。之后，显示生成的文本预测，以供用户选择并输入电子设备。利

5、用文本预测输入当前文本的可能性重新排序文本预测，可带来如下有益效果将与当前文本语境更为相关的文本预测置于列表顶部显示以供用户选择，由此辅助用户输入文本。这样非常有益的是可将呈献给用户的预测文本空间限制在该文本预测的子集上。由此，本发明所提供的系统能够根据用户输入的文本准确地预测出与用户意图最为接近的文本预测。参照下列附图，详细介绍本发明。图I为本发明系统的结构示意图；图2为图I示出的本发明系统结构中矢量空间相似度模块的细节示意图；图3为本发明方法的流程图。具体实施例方式本发明提供了一种基于语言模型的文本预测系统，用于文本预测成分的自适应重排序。该系统利用矢量空间技术，优选为随机索引，基于文本预

6、测属于用户输入的文本片段的可能性修正分配给文本预测的概率值。随机索引是一种用于生成表示矢量空间词条的语境矢量的矢量空间技术。为给定信息段中的每个语境(例如，在这种情况下为每个文档)分配一个唯一且随机生成的所谓索引矢量。随机索引是一种增量法，这意味着可使用语境矢量来进行相似度计算，即使是文本预测系统仅仅在体验若干语境之后。在本系统中，为每个文档分配一个唯一的索引矢量，而且每个词条具有一个与索引矢量相关的语境矢量。语境矢量包含出现该词条的所有文档的索引矢量。由于潜在的随机索引模型逐渐递增，故在用户创建新“文档”时本系统允许即时更新。尽管用于生成语境矢量以及将一组文档中的词条映射入矢量空间的技术优选

7、为随机索弓丨，但本发明并不仅限于使用随机索引。作为非限制性实例，对于矢量空间/分布相似模型而言，可使用潜在语义分析(Latent Semantic Analysis)、概率语义分析(Probabilistic Semantic Analysis)、或潜在狄利克雷分配模型(Latent DirichletAllocation model)。在随机索引中，词条被映射入矢量空间。在该空间内，各点间距离(以距离度量或逆相似性度量估算)表示为这些点所代表的词条间的某种关系。本系统根据一组训练该系统所基于的已存在的文档，使用随机索引评估两条任意词条出现在同一文档中的可能性。文档包括明显的、具有清楚定义的首

8、尾端点的文本段。作为非限制性实例，所述文档可以是电子邮件消息、新闻报道、博客条目(blog entry)、短信息(SMS message)、杂志文章或学术论文。可以预见，如果两个词条恰好出现在一组训练数据中的同一组文档中，则在矢量空间中这两个词条势必距离很近。相反，如果这两个词条出现在互不相交组别的文档中，则在矢量空间中这两个词条势必距离很远。在本发明中，所述系统使用随机索引将一组文档中的词条映射入矢量空间。该系统用于确定矢量空间中表示预测词条的矢量与表示用户输入电子设备的当前词条的矢量之间的接近程度。该系统基于矢量空间中所述矢量之间的接近程度，生成对应于各个预测词条的修正过的概率值。由此，本

9、系统生成预测词条与用户输入至设备的词条出现在同一用户输入文本段的可能性的评估。如上所述，本系统使用文本预测成分的修正过的概率对其根据用户输入文本生成的文本预测成分进行重新排序。因此，本系统可以(基于可能存在的本地语境、非本地语境以及当前词条信息)将可能性最高的文本预测置于供显示和用户选择的文本预测列表的顶部，由此辅助用户选择及文本输入。本系统可应用于多种电子设备中。作为非限制性实例，本系统可以用于移动电话的文本输入、个人数字助理的文本输入、或电脑的文本输入(例如，在可使用击键和滚轮机构选择相关文本预测的设备中使用，或者在使用触屏技术的设备中使用)。图I示出了本发明系统。下面，参照图I详细介绍本

10、系统的组成部分。首先，本系统包括用于生成文本(或类似元素)预测的预测器I。预测器是一种根据某类文本语境(例如，当前文档2)生成一组文本预测3的装置。每个文本预测3由诸如词条或短语(表示为s_i)的文本字符串和表示为p_i的概率值构成。由此，文本预测3的集合的表示形式可以为(s_l，p_l), (s_2, p_2)(s_n, p_n)，,其中,在该集合中存在个文本预测。如同本领域技术人员理解的那样，在文本预测系统中可以使用任意类型预测器和任意个预测器来生成文本预测3。优选地，预测器基于用户输入文本的语境生成文本预测，即预测器基于之前-l个词条的语境生成第个词条。此处的“语境”表示之前出现在文本序

11、列中的词条，以及该系统对于当前词条的所有认识(即，以特定字符或字符串开头，或者已表明为某一类主题)。根据特定语境，该系统使用概率评估预测出随即最可能出现的词条。既可以使用多语言模型，又可以使用单语言模型来生成文本预测。在英国专利申请号为0905457. 8、国际公开号为W02010/112841、名称为“电子设备的文本输入系统及文本输入方法”专利文献中，有使用预测器(单语言模型和多语言模型)生成文本预测的完整描述，在此，可参照该专利文献的全文。此外，在英国专利申请号为0917753. 6、国际申请号为PCT/GB2010/001898、名称为“电子设备的文本输入系统及文本输入方法”的专利文献中

12、，有使用自适应预测器(单语言模型和多语言模型)生成分类加权文本预测的完整描述，在此可参照该专利文献的全文。当前文档2由一系列表示当前文档的词条构成，例如，部分完成的电子邮件消息、新闻报道等。当前文档2提供输入至预测器I的文本语境，以使预测器I生成文本预测3。文本预测3可以是由预测器I生成的单词、短语或标点符号或类似字符。优选地，文本预测为语境化文本预测。这些文本预测可显示给用户，以供用户选择，并允许用户发展或完成句子/文档。本发明系统还包括文档限定文本源4。该文档限定文本源4是被组织成“文档”的文本数据集合。该“文档”为多个内容同属一类的文本段(例如，某一主题的文章或者发送给某人的电子邮件)。

13、利用该文档限定文本源4中包含的文本数据来训练上述预测器I。该系统还包括矢量空间相似度模块5。作为该系统的一个组成部分，矢量空间相似度模块5用于根据给定文本预测出现在当先文档中的可能性的评估，调整与预测器I输出的词条或短语预测相关的概率。结果得到了一个经(潜在)重新排序的预测集合6。矢量空间相似度模块5以当前文档2、文档限定文本源4以及文本预测为其输入，而以重新排序的预测集合6为其输出。根据本发明，当用户向电子设备中输入文本时，被输入的文本(B卩，当前文档2)经过至少一个预测器I和矢量空间相似度模块5。利用本领域已知的分词器(tokeniser)将用户输入文本划分成多个词条。预测器I使用分词化的

14、用户输入文本生成词条或短语(或类似成分)预测3。文本预测3被转至矢量空间相似度模块。该矢量空间相似度模块5使用来自于当前文档2和文档限定文本源4的分词化信息对文本预测3进行重新排序，并通过修正与生成的文本预测3相关的概率生成一组(潜在)重新排序的预测6。在下文中将详细介绍这一过程。图2不出了矢量空间相似度模块5的具体构成。该矢量空间相似度模块5用于根据每个预测词条出现在当前文档(假设为当前已输入的词条)中的可能性，修正与生成的预测词条相关的概率，并相应地对预测词条重新排序。该矢量空间相似度模块5包括随机索引词条矢量映射7、余弦相似度模块10和加权模块12。通过向目标矢量空间分配维度D，构建该随

15、机索引词条矢量映射7。可向目标矢量空间分配任意维度，但通常选择在100(3000之间的维度D。该随机索引词条矢量映射7用于为训练数据中的每个文档(也就是文档限定文本源4中的每个文档)生成D-维索引矢量。该随机索引词条矢量映射7为所有出现该词条的文档分配由索引矢量构成的语境矢量。索引矢量是稀少且随机地投射入矢量空间，并由随机索引词条矢量映射7通过在维度范围内随机分配较小数量(D)个1以及为其他维度分配一 O值，来生成所述索引矢量。举例来说，给定目标数量个非“O”词条，nD，随机索引词条矢量映射7通过在所有矢量单元上迭代而生成随机事件，其中矢量单元的总数等于维度D。对于任意给定的矢量单元，随机索引

16、词条矢量映射7根据如下概率，随机为矢量单元分配O、+1或-I值。对于概率1/2D，随机索引词条矢量映射分配+1值；对于概率1/2D，随机索引词条矢量映射分配-I值；对于概率 (D-N)/D，随机索引词条矢量映射分配O值。从随机索引词条矢量映射7中过滤出一些词条，因为这些词条被认定为只能增加“噪音”而非有用信息。一组过滤掉的词条取决于域/应用，但作为例子，词条“the”在大多数情况下会经常出现，如果不是所有文档都存在于基于英语的域中，则在判断预测词条是否会出现在当前文档中时，做出词条“the”很少被使用的判断。其中一个途径是过滤掉在整个训练数据集合(即，文档限定文本源4)中具有较高出现率的词条。过滤阀值取决于语言种类、训练数据量等。作为非限制性实例，对于英语来说，出现概率大于O. 01的词条会被过滤掉。另一实例是删除一些“忽略词”(stopwords)，例如主要目的是提供语法结构但没有太多实际语义的词条。可过滤掉的某些忽略词的实例如下“a”、“an”、“the”、“this”、“th0Se”、“then”、“0f

展开阅读全文

电子设备的文本输入系统及文本输入方法_2

最新文档