语料库术语汇编

上传人:ni****g 文档编号:563605501 上传时间:2023-09-12 格式:DOCX 页数:5 大小:60.76KB
返回 下载 相关 举报
语料库术语汇编_第1页
第1页 / 共5页
语料库术语汇编_第2页
第2页 / 共5页
语料库术语汇编_第3页
第3页 / 共5页
语料库术语汇编_第4页
第4页 / 共5页
语料库术语汇编_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《语料库术语汇编》由会员分享,可在线阅读,更多相关《语料库术语汇编(5页珍藏版)》请在金锄头文库上搜索。

1、语料库术语汇编:Aboutness 所言之事Absolute frequency 绝对频数Alignment (of parallel texts) (平行或对应)语料的对齐 Alphanumeric 字母数字类的Annotate 标注(动词)Annotation 标注(名词)Annotation scheme 标注方案ANSI/American National Standards Institute 美国国家标准学会ASCII/American Standard Code for Information Exchange 美国信息交换标准码 Associate (of keywords)(

2、主题词的)联想词AWL/Academic word list 学术词表Balanced corpus 平衡语料库Base list 底表、基础词表Bigram 二元组、二元序列、二元结构Bi-hapax 两次词Bilingual corpus 双语语料库 CA/Contrastive Analysis 对比分析Case-sensitive 大小写敏感、区分大小写Chi-square ( x 2) test 卡方检验Chunk 词块 CIA/Contrastive Interlanguage Analysis 中介语对比分析CLAWS/Constituent Likelihood Automat

3、ic Word-tagging System CLAWS 词性赋码系统Collocational strength 搭配强度Collocational framework/frame 搭配框架 Comparable corpora 类比语料库、可比语料库 平行/对应语料库(parallel corpora)是由原文文本及其平行对应的译语文本构成的双语/多 语语料库,其对齐程度可有词级、句级、段级和篇级几种。平行语料库按翻译方向的不同有 单向平行语料库(uni-directional parallel corpora)、双向平行语料库(bi-directional parallel corpor

4、a)和多向平行语料库(multidirectional parallel corpora)等三种形式。对比/类比语料库(comparable corpora)是由不同语言的文本或同一种语言不同变体的 文本所构成的两个或两个以上的语料库。 类比语料库也可再细分出单语类比库和双语/多语 类比库。前者收集一种语言类似环境下的类似内容的文本,如Loviosa构建的ECC(Englis h Comparable Corpus, TEC 的姊妹项目)属于此种。而后者收集的是在内容、语域、交际 环境等方面相近的不同语言文本,多用于对比语言学。各种双语语料库之异同 语料库类型 有无翻译关系 文本间是否对齐对应

5、/平行语料库 有 是 翻译语料库 有 否 对比语料库 无 否ConcGram同现词列、框合结构Concordance (line)索引(行)Concordance plot (索引)词图Concordancer 索弓丨工具 Concordancing 索引生成、索引分析Context语境、上下文Context word 语境词Contingency table连列表、联列表、列连表、列联表 Co-occurrence/Co-occurring 共现Corpora 语料库(复数)Corpus Linguistics 语料库语言学Corpus 语料库Corpus-based 基于语料库的 Corp

6、us-driven 语料库驱动的Corpus-informed 语料库指导的、参考了语料库的 Co-select/Co-selection/Co-selectiveness 共选(机制)Co-text 共文DDL/Data Driven Learning 数据驱动学习 Diachronic corpus 历时语料库Discourse 话语、语篇 Discourse prosody 话语韵律 Documentation 备检文件、文检报告EAGLES/Expert Advisory Groups on Language Engineering Standards EAGLES 文本规格 embe

7、dded annotation 嵌入式标注Empirical Linguistics 实证语言学 Empiricism 经验主义Encoding 字符编码 Error-tagging 错误标注、错误赋码 Extended unit of meaning 扩展意义单位 File-based search/concordancing 批量检索 Formulaic sequence 程式化序列 Frequency频数、频率General (purpose) corpus 通用语料库Granularity 颗粒度Hapax legomenon/hapax 一次词 Header/Text head 文本

8、头、头标、头文件 HMM/Hidden Markov Model 隐马尔科夫模型Idiom Principle 习语原则 Index/Indexing (建)索引 In-line annotation 文内标注、行内标注Key keyword关键主题词Lemma list 词形还原对应表Lemmata 词目、原形词、词元(复数) Lemmatization 词形还原、词元化Lemmatizer 词形还原(词元化)工具Lexical bundle 词束Lexical density 词汇密度Lexical item 词项、词语项目Lexical priming词汇触发理论Lexical rich

9、ness 词汇丰富度Lexico-grammar/Lexical grammar 词汇语法Lexis 词语、词项LL/Log likelihood (ratio) 对数似然比、对数似然率Longitudinal/Developmental corpus 跟踪语料库、发展语料库、历时语料库 Machine-readable 机读的Markup 标记、置标MDA/Multi-dimensional approach 多维度分析法Metadata 元信息 Meta-metadata 元元信息MF/MD (Multi-feature/Multi-dimensional) approach 多特征/多维

10、度分析法 Mini-text 微型文本Misuse 误用Monitor corpus (动态)监察语料库Monolingual corpus 单语语料库Multilingual corpus 多语语料库 Multimodal corpus 多模态语料库MWU/Multiword unit 多词单位 MWE/Multiword expression 多词单位MI/Mutual information互信息、互现信息N-gram N元组、N元序列、N元结构、N元词、多词序列NLP/Natural Language Processing 自然语言处理Node节点(词)Normalization 标准

11、化Normalized frequency 标准化频率、标称频率、归一频率Observed corpus 观察语料库Ontology 知识本体、本体Open Choice Principle 开放选择原则Overuse 超用、过多使用、使用过度、过度使用Paradigmatic纵聚合(关系)的Parallel corpus平行语料库、对应语料库Parole linguistics 言语语言学Parsed corpus 句法标注的语料库Parser 句法分析器Parsing 句法分析Pattern/patterning 型式Pattern grammar 型式语法Pedagogic corpus

12、 教学语料库Phraseology 短语、短语学POSgram赋码序列、码串POS tagging/Part-of-Speech tagging词性赋码、词性标注、词性附码POS tagger词性赋码器、词性赋码工具Prefab 预制语块Probabilistic (基于)概率的、概率性的、盖然的Probability 概率Rationalism 理性主义Raw text/Raw corpus 生文本(语料)Reference corpus参照语料库Regex/RE/RegExp/Regular Expressions 正贝I表达式Register variation 语域变异Relative

13、 frequency 相对频率Representative/Representativeness 代表性(的)Rule-based 基于规贝的Sample n./v. 样本;取样、采样、抽样Sampling 取样、采样、抽样Search term 检索项Search word 检索词Segmentation 切分、分词Semantic preference 语义倾向Semantic prosody语义韵SGML/Standard Generalized Markup Language 标准通用标记语言Skipgram跨词序列、跨词结构Span跨距Special purpose corpus专用

14、语料库、专门用途语料库、专题语料库Specialized corpus 专用语料库Standardized TTR/Standardized type-token ratio 标准化类符/形符比、标准化类/形比、标准 化型次比Stand-off annotation 分离式标注Stop list 停用词表、过滤词表Stop word 停用词、过滤词Synchronic corpus 共时语料库Syntagmatic横组合(关系)的Tag标记、码、标注码Tagger赋码器、赋码工具、标注工具Tagging 赋码、标注、附码Tag sequence赋码序列、码串Tagset赋码集、码集Text文本

15、TEI/Text Encoding Initiative 文本编码计划The Lexical Approach 词汇中心教学法The Lexical Syllabus 词汇大纲Token形符、词次Token definition形符界定、单词界定 Tokenization 分词Tokenizer 分词工具Transcription 转写Translational corpus 翻译语料库Treebank 树库Trigram三元组、三元序列、三元结构T-score T 值Type类符、词型TTR/Type-token ratio类符/形符比、类/形比、型次比 Underuse 少用、使用不足Unicode 通用码Unit of meaning 意义单位WaC/Web as Corpus网络语料库Wildcard通配符Word definition 单词界定Word form 词形Word family 词族Word list 词表XML/EXtensible Markup Language 可扩展标记语言 Z-score Z 值

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号