面向术语知识库编纂的专用语料库设计

上传人:壹****1 文档编号:477256831 上传时间:2023-10-20 格式:DOCX 页数:7 大小:18.77KB
返回 下载 相关 举报
面向术语知识库编纂的专用语料库设计_第1页
第1页 / 共7页
面向术语知识库编纂的专用语料库设计_第2页
第2页 / 共7页
面向术语知识库编纂的专用语料库设计_第3页
第3页 / 共7页
面向术语知识库编纂的专用语料库设计_第4页
第4页 / 共7页
面向术语知识库编纂的专用语料库设计_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《面向术语知识库编纂的专用语料库设计》由会员分享,可在线阅读,更多相关《面向术语知识库编纂的专用语料库设计(7页珍藏版)》请在金锄头文库上搜索。

1、面向术语知识库编纂的专用语料库设计简要:摘 要:由于术语信息的多样化需求对术语数据来源提出了新要求,专用语料库在术语知识库编纂中发挥了愈益重要的作用。 文章以气象学科为例,通过与通用语料库比拟,从类型定位、语料摘 要:由于术语信息的多样化需求对术语数据来源提出了新要求,专用语料库在术语知识库编纂中发挥了愈益重要的作用。 文章以气象学科为例,通过与通用语料库比拟,从类型定位、语料规模、语料选择和语料加工四方面明确了如何设计面向术语知识库编纂的专用语料库。卢华国, 中国科技术语 发表时间:2022-09-16关键词:术语信息;术语数据;术语知识库;专用语料库引言为了提高语言内部或语言之间专业交际的

2、效率,术语学家借助术语标准化来消除专业语言中的歧义,其工作原那么构成了普通术语学的根本理念1 ,其实践成果主要表现为术语库。 自 20 世纪 90 年代开始,伴随着术语学研究的描写转向2-4 , 术语库的宏观和微观结构也发生了显著的变化,不再只是以标准为导向的单语或双语术语集,已经转变为兼具专门用途语言描写的术语知识库。 具体讲,收录的术语拓展至名词以外的其他词性;除了种-属和局部-整体等层级概念关系,功能、因果、处所等联想关系日益受到重视;术语的语言维度已然进入编纂者的视野,对句法、搭配以及近义、派生等聚合关系的描写在一定程度上模糊了术语与词语之间的界限。 西班牙格拉纳达大学以框架术语学为依

3、托,编纂了生态词库(EcoLexicon) 5 ,加拿大魁北克学派借鉴词汇语义学相关理论,编纂了环境词库(DiCoEnviro) 6 ,二者可以看作是描写范式下的术语知识库的代表。术语知识库多样化的信息类型对数据获取提出了新要求,对内省和文档阅读等传统数据获取方式提出了新挑战。 语料库大大突破了编者能够阅读的文档数量,弥补了编者在专业知识储藏和外语语感方面的缺乏,语料库工具的使用又能显著提高数据获取的效率。 因此,语料库在术语知识库编纂中发挥了不可或缺的作用。 然而,笔者发现鲜有研究系统梳理面向术语知识库编纂的语料库与一般用途的语料库在设计上的共性和差异。 一般认为, 目的性、代表性和可机读性

4、是语料库应该至少满足的三个要求,也是语料库设计中需要重点考虑的三个因素:目的性确定了语料库的类型特征,代表性制约着语料的规模和选择,可机读性那么对语料提出了具体的加工要求。 本文将以气象学科为例,从语料库设计的类型定位以及语料的规模、选择和处理四方面探讨如何设计面向气象术语知识库编纂的气象英语语料库。1 类型定位不同类型的语料库对语料的规模、选择和处理有着不同的要求。 因此,明确气象英语语料库的类型定位是语料库设计的前提。 语料库的分类可从多个角度切入:(1)单语语料库和多语语料库。 多语语料库根据研究的目的又可以进一步分为平行语料库和可比语料库。 在平行语料库中,两种语言的语料相互对应,即一

5、种语言是另外一种语言的译文。 在可比语料库中,两种语言的语料的收集虽然参照同一个抽样框架,但二者在内容上并不存在翻译对应关系。(2)通用语料库和专用语料库。 通用语料库广泛采集某种语言的口、笔语形式,取样时尽可能考虑口、笔语的主要社会变体、地域变体、行业变体等各种变异及语言使用的各种场合之间的平衡,力求最好地代表一种语言的全貌。 而专用语料库出于某种特定的研究目的,常常只收集某特定领域的语言使用样本。(3)共时语料库和历时语料库。 共时语料库由同一时代(主要是当代) 的语言使用样本构成, 历时语料库那么由不同时代的语言使用样本构成。(4)本族语语料库和学习者语料库,前者收集的语言使用样本全部源

6、自本族语者,后者的语料那么由非本族语学习者语言使用样本构成。(5)口语语料库和笔语语料库。 虽然,在日常生活中,口头交际是最主要的交流方式。 但是由于口语语料需要先转写成文本才能为语料库分析软件进行识别和处理,口语语料库的建设需要消耗更多的人力和物力, 因而纯粹的口语语料库非常少见7 4 8 69-74 。综上 所 述, 语 料 库 的 分 类 体 系 可 以 用 图 1 表示。在上述分类体系中,从同一视角对语料库的二元划分只是为了方便讨论,并不能排除两种划分之间的过渡类型。 例如,时间跨度只是一个相对的概念,历时语料库和共时语料库之间仅仅存在度的差异,无法截然分开。 尽管如此,该分类体系为理

7、解气象英语语料库的类型特征提供了一个参照的框架。 首先,气象英语语料库不关心整个语言的使用情况,仅专注于气象学科,显然应该归于专用语料库,这是气象英语语料库最根本的类型特点。 此外,气象英语语料库不以翻译或跨语比照为研究目标。 其次,气象英语语料库属单语语料库,仅涉及英语这一种语言,旨在记录和描写气象专业英语的语义/ 概念或句法特征,所收集的语料源自能够熟练使用英语进行专业交际的气象专家,主要指以英语为母语的气象专业人士,与效劳于中介语研究的学习者语料库有着明显的区别。 再次,气象交际主要是一种书面语交际,虽然也涉及课堂教学和学术讲座等口头形式,但是本质上属于正式的语体。 因此,气象英语语料库

8、可归为笔语语料库。 最后,气象英语语料库关注的是当代气象英语的使用情况, 并不特别关心气象英语的开展变化,因而本质上属于共时语料库。 通过在语料库的整个分类体系中对气象英语语料库进行定位,可以帮助语料库的设计者从宏观上把握其类型特征,为确定语料的规模大小、语料选择的具体标准、语料的加工处理奠定根底。2 语料规模语料的规模是指语料库所包含的形符( token) 总数(包含屡次出现且被重复计入的词),是设计者在语料库建设之初就需要考虑的一个重要方面。 20 世纪 6070 年代,语料的收集主要靠键盘输入和光学扫描,需要消耗大量的时间、人力和资金。受技术水平的限制,能够存储和处理的数据量也非常有限。

9、 而现在大局部文本都以电子形式存在,省去了人工输入之苦。 就硬件而言,普通的个人电脑已经能够满足语料库建设对海量数据的存储和处理要求。 因此,讨论“语料规模需要有多大 比探讨“语料规模能有多大更有实际意义。语料规模的大小首先取决于建库的目的。 语料库可用于研究语法,也可以用于考察词汇。 与词汇相比,语法结构数量少且复现率高,所以用于研究语法特征的语料规模较小。 例如,Biber 9 指出 1000 词的语料就能满足研究英语动词现在时和过去时的需要。 用于考察词汇特征的语料规模那么需要大很多10 。 由齐普夫定律11 可知,局部词汇 (如 and、the)在文本中出现的频率非常高,局部词汇的出现

10、频率却非常低。 只有增加语料的规模,才可能增加相对生僻的词汇在语料库中出现的频次。对词典编纂而言,只有当语料库包含的类符总量足够大时,基于语料库产生的词表才能满足词典对收词量的需要,为词典编者提供足够量的索引行作为描写词汇特征的数据根底。 Krishnamurthy 12 认为形符量到达 1 亿的语料库能够满足袖珍词典的编纂需要,但是还缺乏以用来描写词汇的类连接特征。 Atkins 和 Rundell 8 54 指出有时候一个词即使在语料库中出现 100 次也缺乏以保证描写词汇特征所需要确实定性( descriptive certainty)。 如果被描写的词是多义词,有着复杂的语法结构和丰富

11、的搭配型式,那么语料规模只有成倍增加才能满足编者描写多义词的需要。语料的规模还与涉及的领域( domain) 或主题 (topic)的多少和宽窄有关。 就通用语料库而言,为了取得平衡的效果,语料往往需要涵盖多个主题, 其规模也必然很大。 相比之下,“专用语料库往往较小,但是依然能够代表专业语言变体,因为涉及的专业领域越窄,代表该领域所需要的文本数量就越小 13 408 。 专用语料库在语料规模方面的这一特点与术语自身的特点是分不开的。 首先,与通用词汇比,术语具有专业特殊性( domain-specificity), 数量相对少,在专业文本中的分布密集程度高。 因此,规模较小的专用语料库也能够

12、满足术语研究对覆盖范围和复现率的要求。 其次,由于术语在搭配方面透明度高且规律性强,无需借助对大量语料的频次统计以滤掉那些高度依赖语境的非典型搭配 (例如,. . . went to the graveyard with weeping eyes and hairs 中的轭式搭配 weeping eyes and hairs)。最后,在术语中,单义术语占据多数,即使有多义术语,其 义 项 数 量 与 通 用 语 言 中 的 常 用 词 汇 ( 如 break)也不可同日而语。 因此,描写术语需要的索引行的数量在理论上比描写常用词汇要小。Bowker 和 Pearson 1445 指出“不应该想

13、当然地认为(专用语料库) 总是越大越好。 李德俊15 98 也提醒说,由于“规模悖论的存在,语料库的规模并不是越大越好,在语料库建设时,要特别注意“收益递减率(the law of diminishing returns)。 作为典型的专用语料库,气象英语语料库仅涉及气象专业文本,其语料规模无需到达通用语料库的级别。 参考同类面向术语知识库编纂的专用语料库的设计经验(如16),笔者认为气象英语语料库的语料规模至少到达百万级别,才能满足气象术语知识库术语知识描写对语料规模的要求。 此外,考虑到气象英语中新术语、新用法持续出现的特点,气象英语语料库应该呈现出一定的开放性,允许编者根据编纂的实际需要

14、定期补充新文本。 换言之,气象英语语料库的语料收集不是一次就能完成的,而是一个在百万级别根底上不断充实的动态过程。3 选择标准语料有规模大小之别,但代表性是其共同特点。 语料的代表性主要通过对文本的选择来实现。文本选择的标准可以分为内部标准和外部标准两类。 就通用语料库而言,语料选择的内部标准是指文本所共享的语言或文体特征。 Atkins 和 Rundell 8 54 介绍了基于内部标准的文本选择过程: (1)选择系列来源不同的文本;(2) 分析文本中反复出现的词汇或语法特征(如语态、人称、搭配); (3)基于这些特点尝试对文本进行分类;(4) 收集更多能够包含这些语言特征的文本,继续分析文本

15、的语言特征,改良其分类,收集更多文本,直至这些特征在语料库中更清晰地反映出来。 值得注意的是,依据内部标准从语料中获取的数据可能因循环论证而信度受损17 171 。 鉴于此, Sinclair 17提出按照文本的情景、功能等非语言( non-linguistic) 或语言外(extra-linguistic)特征选择语料,这样至少可以使语言特征在语料库建设的开始阶段不受文本选择的影响。 语料库的建设者在按照外部标准选择语料的同时,还可以根据从语料分析中获取的语言特征评估和改良语料的代表性18150 ,从而把外部标准和内部标准统一到文本的选择过程中。专用语料库也可以把语言特征作为选择专业文本的内部标准。 Halskov 19主张把易读性(readability)和专业知识密度作为衡量专业文本质量的重要指标。 他认为易读性是学术文本的重要特征, 与句子长度、词(包括复合词) 长度和被动语态的使用量呈反比关系,与通用词汇密度和人称代词的使用量呈正比关系。 专业知识密度是学术文本的另一个特征,与未登录词( out of vocabulary words, 指在自然语言处理中没有被词典收录的各类专有名词、缩略语、新增词汇等)和知识型式(主要包含词汇或语法标记语,能够帮助文

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 论文指导/设计

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号