计算语言学术语500条

上传人:wt****50 文档编号:34934260 上传时间:2018-03-04 格式:DOCX 页数:40 大小:105.70KB
返回 下载 相关 举报
计算语言学术语500条_第1页
第1页 / 共40页
计算语言学术语500条_第2页
第2页 / 共40页
计算语言学术语500条_第3页
第3页 / 共40页
计算语言学术语500条_第4页
第4页 / 共40页
计算语言学术语500条_第5页
第5页 / 共40页
点击查看更多>>
资源描述

《计算语言学术语500条》由会员分享,可在线阅读,更多相关《计算语言学术语500条(40页珍藏版)》请在金锄头文库上搜索。

1、计算语言学术语500条 源语 词典 source language dictionary 机器翻译系统中描述源语言的语音、词法、句 法、语义或用法的机器词典,用于源语分析。 目标 语词 典 target language dictionary 机器翻译系统中描述目标语言的语音、词法、 句法、语义或用法的机器词典,用于目标语生 成。 多目 标语 词典 multi-target language dictionary 机器翻译系统中描述两个或更多目标语言的语 音、词法、句法、语义或用法的机器词典。用 于一对多的机器翻译系统。 词典 结构 dictionary configuration 机器词典中

2、词项以及词项具有的各种信息的组 织形式。 词典 信息 dictionary information 机器词典对每个词项的语音、词法、句法、语 义特征或用法的形式化描述。 词法 信息 morphological information 对词的结构属性或形态特征的描述。 句法 信息 syntactic information 对词组合成句子的规律的描述。 语义 信息 semantic information 对词汇意义、语言成分之间的逻辑意义、语法 意义的描述。 超文 本置 标语 言 hyperText markup language HTML 标准通用置标语言(SGML)的一种文件类型。 它对一

3、类特定的文件定义描述信息的方法,用 于互联网上电子文本的传输和共享。 超文本 标记语 言 词法 歧义 morphological ambiguity 由于形态学上的多重意义使得一个语言单位表 达一种以上的意义。 句法 歧义 syntactic ambiguity 在句子中同一个结构形式表达一种以上的结构 关系。 消歧 disambiguiation 证明一个歧义句有几种可供选择的结构解释, 或依靠语调、句法分析、上下文中的意义来消 除歧义的过程。 分析 器 analyzer 根据词法、句法、语义等信息对语句进行形态、 语法或语义分析的计算机程序。 句法 剖析 器 parser 按照语言规则分析

4、句子的句法结构的计算机程 序。 中间 语言 interlingua intermediate language 独立于任何特定自然语言的中介表达式,能够 统摄机器翻译所需的句法和语义信息,在机器 翻译系统中表示源语和目标语之间的联系。 中介语 词汇 驱动 lexicon-driven 一种分析语句的方法,根据机器词典提供的词 汇信息来控制操作流程。 文法 驱动 grammar- driven 一种分析语句的方法,根据语法规则控制操作 流程。 语法规 则驱动syntactic- rule-driven 逻辑 语义 logical semantics 语句中各成分所表达的概念之间或概念组合而 成的

5、事件之间的逻辑关系,例如:施事、受事、 因果等。 逻辑 语义 结构 logical semantic structure 表示一个语言单位内全部逻辑语义关系的抽象 表达式。 转换 词典 transfer dictionary 在采用转换法翻译策略的机器翻译系统中,描 述源语和目标语之间差异的机器词典。 词汇 转换 lexical transfer 在采用转换法翻译策略的机器翻译系统中,把 源语的词语置换为目标语的词语的过程。 结构 转换 structural transfer 在采用转换法翻译策略的机器翻译系统中,把 源语的句法结构置换为目标语的句法结构的过 程。 自然 语言 理解 natur

6、al language understanding 在研究自然语言的机制和实现过程的基础上, 用计算机分析口语或书面语,弄懂它们所表达 的意思。 预处 理 preprocessing 在进入自然语言信息系统的主要处理流程之前 对输入的信息进行整理的过程。 后处 理 postprocessing 对已经过自然语言信息系统的主要处理流程后 的信息进行再处理的过程。 二值 化 binarization 把一组数据按一定的规则映射为0或1的过程。 特征 抽取 feature extraction 根据输入的信息产生一个n维向量的过程,这 个n维向量反映出被识别模式的本质。 启发 式搜 索 heuris

7、tic search 一种优先求解方法,在问题的状态空间中对解 进行搜索时,利用一些启发信息用来引导搜索 过程,减少搜索空间,提高问题求解的效率。 隶属 度 membership 一个元素属于某一模糊集的大小程度。 统计 识别 方法 statistical recognition method 一种利用统计进行识别的方法。将识别对象看 作一个整体,其所有的特征是从这个整体上经 过大量的统计而得到的,然后按照一定准则所 确定的决策进行分类判定。 神经 元网 络识 别法 cell meshed recognition method 一种利用神经元网络进行识别的方法。神经元 网络是一种具有学习和自组

8、织能力的智能机构, 通过神经元网络来进行判定和识别。 贝叶 斯判 决规 Bayes decision rule 统计中的一个基本规则。用该规则进行分类时 要求各类别总体的概率分布是已知的,并且要 决策分类的类别是一定的,贝叶斯判决规则包 贝斯判 决规则则 括最小错误率贝叶斯判决规则和最小风险贝叶 斯判决规则等。 匹配 matching 测试两个数据项是否相等或查找一个与关键字 完全相同的数据项的过程和方法。 属性 文法 attribute grammar 一种形式文法。是以语法的巴科斯范式说明为 基础,在普通的上下文无关文法的基础上,对 每一个终结点或非终结点加上一些属性和一些 对这些属性进行

9、估值的语义规则所形成的文法。 其中的属性由有序对组成。 文法 推断 grammar inference 确定词在句子中的语法范畴和作用的过程。 计算 语音 学 computational phonetics 计算语言学的一个分支学科。是通过建立形式 化的数学模型利用计算机来处理语音的一门学 科。 隐式 马尔 可夫 模型 hidden Markov model 是描述连续符号序列的条件概率的一个统计模 型,是马尔可夫模型的扩展。该模型由两个随 机变量序列组成:一个是观测不到的马尔可夫 链,另一个是可以观测到的随机序列。 语音 信号 处理 processing of speech signal 语

10、音信号输入计算机后对其进行分析处理的过 程。语音通过话筒转换成电信号,再经放大或 转换变成数字信号,用模式分类方法分析和识 别这些信号。 神经 网络 neural net 神经系统的一种逻辑及数学模型,是一种具有 学习和自组织能力的智能机构。模仿生物神经 系统的神经元建立,试图模拟大脑处理信息、 学习和记忆的方式,主要用于模式识别、语音 识别和语音综合等领域。 识别 率 recognition rate 被正确识别的输入模式的数量占被识别的所有 输入模式的总数的百分比,是衡量模式识别系 统性能的重要指标。 语图 sound spectrogram 将一定长度的语音信号或其他声音信号的动态 频率

11、用图形的方式表现,既可以是时间频率 强度的三维显式,也可以是在某一时间断面 上的频率强度的二维显式。 人工 言语 artificial speech 言语合成所产生的输出。 合成 言语 synthesized speech synthethic speech 在言语合成中产生的人工言语。 类比 learning by 机器学习中的一种方法。用类比的方法获取新学习 analogy 的事实或技巧等知识是通过采取如下方式进行 的:将与所需的概念或技巧等知识非常相似的 现有的知识转换与扩展到新环境中。 分词 单位 unit of word segmentation 汉语信息处理使用的、具有确定的语义和

12、(或) 语法功能的基本单位。 概念 依存 理论 conceptual dependency theory 一种语言自动分析方法。它试图用有限数量的 基本概念(语义元)组成各种集合,表示语句 的意义,称为概念表达式,并具有推理的能力。 概念从 属理论 分词 规范 standard of word segmentation 规定分词原则和方法的一系列规则。 规则 合成 rule-based synthesis 规则合成是一种利用规则进行语音合成的方法。 在这种语音合成方式中,合成语音库中是较小 的语音单位(如音素或音节等)在声学上的合 成参数。合成时,输入一串代码来指定每一语 音单位的音色、音高、

13、音强和音长,合成系统 中有一套合成规则,对其合成参数进行必要的 修改和调节,然后由语音合成器合成出连续的 语句来。 语音 合成 器 speech synthesizer 在参数式分析合成和规则合成系统中,能将语 音合成参数转变为语音波形的软件或硬件,称 为“语音合成器”。 合成 单元 synthetic unit 事音合成系统所处理的最小语音基本单元,称 为“合成单位”,合成语音库就是所有合成单 元的集合。按由小到大的顺序,音素、双音素、 半音节(声母和韵母)、音节、词、短语和句 子都可用作合成单元。 分词 标记 mark of word segmentation 分词时可以利用的标记。书面语

14、的分词标记主 要有两种,一是自然的分词标记,如标点符号 等;另一种是非自然的分词标记,如没有构词 能力的单音节单纯词。 人机 界面 man-manchine interface 人(用户)与计算机系统之间进行通信的方式 与手段,尤指对那些具有支持软件的输入输出 设备的使用。 人机接 口 分词 精度 precision of word segmentation 自动分词的正确率,切分正确的数占应分词总 数的百分比。 最大 匹配 分词 方法 maximum match segmentation 一种分词方法,是基于字符串匹配原理的一种 机械匹配方法。每次从字串中取长度为最大词 长的子串与词表中的词

15、匹配,若成功则该子串 为词,然后继续匹配,否则子串长度逐次减1 进行匹配,直至成功为止。最小 匹配 分词 方法 minimum match segmentation 一种分词方法,是基于字符串匹配原理的一种 机械匹配方法。每次从字串中取长度为最小词 长的子串与词表中的词匹配,若成功则该子串 为词,然后继续匹配,否则子串长度逐次加1 进行匹配,直至切分完毕。 分词 标记 方法 mark method of word segmentation 利用分词标记进行分词的一种方法。 双向 最大 匹配 分词 方法 bidirectional maximum match segmentation 同时使用正

16、向最大匹配分词方法和逆向最大匹 配分词方法。分别从两个方向进行处理,如果 得到相同的结果,则这种切分正确,否则系统 报错,需要通过另外的措施处理。 逆向 分词 方法 reverse segmentation method 一种分词方法,与正向分词相反的方向取字符 串进行匹配。 机械 分词 方法 mechanical segmentation method 一种分词方法。主要基于字符串匹配的原理进 行,即以“足够”大的词表为依据,采用一定 的处理策略将汉语文本中的字串与词表中的词 逐一匹配,若成功,便认定该字串为词。 汉语 分词 系统 Chinese word segmentation system 用来把汉语句子自动切分为词的系统,特殊情 况下分词结果包括少数词组和语素。 汉语 信息 统计 Chinese information statistics 采用统计的方法研究汉语的信息,包括汉字或 词语的频率统计,以及汉语句型统计等。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号