文档详情

语料库常用统计方法

飞***
实名认证
店铺
DOC
5.68MB
约12页
文档ID:30529262
语料库常用统计方法_第1页
1/12

13.5 语料库常用统计方法第 3 章前几节对语料库应用中的几种主要技术做了介绍通过语料检索、词表和主题词表的生成,可以得到一定数量的句子、词汇或结构为能更好说明所得到的结果的真正意义,常常需要对它们加以统计学分析本章主要介绍语料分析中的一些常用统计方法3.5.1 语料库与统计方法介绍相关统计方法之前,首先需要了解为什么语料库应用中需要运用统计方法在 2.1节讲到文本采集时,我们知道文本或会话构成了最终的语料库样本这些样本是通过一定的抽样方法获得的研究中,我们需要描述这些样本的出现和分布情况此外,我们还经常需要观察不同语言项目之间在一定语境中共同出现(简称共现)的概率;以及观察某个(些)语言项目在不同文本之间出现多少的差异性这些需要借助统计学知识来加以描写和分析理论上说,几乎所有统计方法都可以用于语料库分析本章只择其中一些常用方法做一介绍我们更注重相关统计方法的实际应用,不过多探讨其统计学原理这一章我们主要介绍语料分析中的频数标准化(normalization) 、频数差异检验和搭配强度的计算方法3.5.2 频数标准化基本原理通常语料检索、词表生成结果中都会报告频数(frequency, freq 或 raw frequency) 。

那么某词(如 many)在某语料库中出现频数为 100 次说明什么呢?这个词在另一个语料库中出现频数为 105 次,是否可以说 many 在第二个语料库中更常用呢?显然,不能因为 105大于 100,就认定 many 在第二个语料库中更常用这里大家很容易想到,两个语料库的大小未必相同按照通常的思维,我们可以算出 many 在两个语料库中的出现百分比,这样就可比了这种情况下,我们是将 many 在两个语料库中的出现频数归到一个共同基数 100之上,即每 100 词中出现多少个 many这里通过百分比得到的频率即是一种标准化频率有些文献中标准化频率也称归一频率或标称频率,即基于一个统一基准得出的频率实例及操作频数标准化,首先需要用某个(些)检索项的实际观察频数(原始频数,raw frequency)除以总体频数(通常为文本或语料库的总词数) ,这样得到每一个单词里会出现该检索项多少次在频数标准化操作中,我们通常会在此基础上乘以 1 千(1 万、1 百万)得到平均每千(万、百万)词的出现频率即: 0总 体 频 数观 测 频 数标 准 化 频 率 ( 每 千 词 )(注:观测频数即检索词项实际出现的次数;总体频数即语料库的大小或总形符数。

)例如,more 在中国学生的作文里出现 251 次,在英语母语者语料中出现 475 次两个语料库的大小分别为 37,655 词次和 174,676 词次我们可以根据上面的公式很容易计算出251 和 475 对应的标准化频率另外,我们还可以利用 Excel 或 SPSS 等工具来计算标准化频率比如,可以将实际观察频数和语料库大小如图 3.5.1 输入相应的单元格,然后在 C12单元格里输入=(A1/B1)*1000 即可得到中国学生每千词使用 more 约为 6.67 次要得到母语者 more 使用的每千词频率,只需点击 C1 单元格,将光标移至单元格右下角直至光标变为黑+时,按住鼠标左键,顺势下拉至 C2 格即可得到母语者每千词使用 more 的次数约为2.72 次如有更多频数数据需要标准化处理,可依同样方法求得图 3.5.1 频数标准化3.5.3 频数差异检验上节,我们通过将频数归到一个共同的基数,从而可以对不同频数加以比较然而,在统计学中,常常需要对参与比较的数据之间的差异是否具有显著性加以综合检验在语料库数据分析中,最常用的是卡方检验(chi-square 或 χ2)和对数似然比(log-likelihood ratio,常简写为 LL) 。

两种检验方法的作用和实际操作类似,以下我们重点讲解卡方检验这两种检验方法也可以用作搭配强度计算基本原理与频数标准化不同,卡方检验除了考虑到某个检索项在两个不同语料库中的出现频数和语料库大小外,还考虑到检索项在语料库不出现的情况例如,在 1000 词的文本中 the出现 50 次,那么它不出现的情况就是余下的 950 次类似的频数数据,我们用到的是 2×2连列表(contingency table)方法的卡方检验在统计学上,综合该检索项在两个语料库中出现和不出现的情况,统计学家提出了该检索项理论上的预期频数,其算法是:表 3.5.1 2×2 连列表某检索项出现频数所有词出现频数 合计a +b语料库 A语料库 Bacbd c + d合计 a +c b + d a +b + c + d其中:a = 检索项 X 在语料库 A 中的实际频数b = 检索项 X 在语料库 A 中的不出现的频数c = 检索项 X 在语料库 B 中的实际频数d = 检索项 X 在语料库 B 中的不出现的频数N = a + b +c + d = 各项频数总和,即两个语料库累计大小 d cb a*列 频 数 之 和行 频 数 之 和预 期 频 数3而卡方检验的基本公式为: 预 期 频 数预 期 频 数 )( 观 测 频 数 22卡方检验的具体计算公式为:= EO22)( d) (c* bc)(a*d2N)(实例及操作研究问题:有两个语料库,一个为口语语料库,总词数为 1,714,443,另一个为书面语语料库,总词数 2,593,452。

其中填充停顿(filled pause)词 er 分别出现 9,589 次和 9,307次那么 9,589 和 9,307 是否存在显著性差异呢?这里可以采用卡方检验的方法(参见图 3.5.2) 在配套光盘中,找到名为 X2 的 Excel文件在打开的工作表中,按界面提示,分别输入 Corpus 1 的总字数 1,714,443 和 Corpus 2 的总字数 2,593,452然后,在主体数据表框中 Freq in Corpus 1 和 Freq in Corpus 2 分别输入 er 分别的次数 9,589 和 9,307这时,Chi-square 列会自动出现相应的卡方值,这里是949.5474卡方值(自由度为 1 时)如果大于临界值 3.83, 6.64 和 10.83,则表明该值在显著性水平 0.05, 0.01 和 0.001 的情况下是有意义的,即参与比较的两个数值(9,589 和9,307)具有显著性差异为便于辨识和解读卡方值,我们将所得的卡方值对应的显著性水平的 p 值也同时提供,并按所处的置信区间标定星号(*) ,在 0.05, 0.01 和 0.001 显著性水平下分别标为*、**和***。

表格最后一列的“+”表明 er 在 Corpus 1 中使用频数要多于其在 Corpus 2 中的频数,即我们常说的频数过多使用(overuse) ;反之, “-”号为使用不足(underuse) 回到我们的问题, er 一词在两个语料库中的使用频数具有显著性差异,且 er明显在第一个口语语料库较多使用,可理解为属于口语特征词为方便批量实施卡方检验,判别词项在两个语料库中出现频数的差异该卡方检验计算器支持一次完成多个卡方检验运算操作方法是,先输入 Corpus 1 的总字数和 Corpus 2的总字数,然后将某组词项在 Corpus 1 和 Corpus 2 中的出现频数分别拷贝到 Freq in Corpus 1 和 Freq in Corpus 2 列中,即可得到所有词项跨语料库差异的卡方值和显著性水平4图 3.5.2 卡方检验计算器界面配套光盘中同时附有对数似然比计算工具(Log-likelihood Ratio Calculator) ,文件名为LL.xls也是检验词项跨语料库差异显著性的常用方法其操作步骤与卡方检验计算器相同,数据的解读方法也一样在此不赘述3.5.4 搭配强度计算基本原理搭配分析的计算方法在实际应用中主要有两种处理方法:以 Mike Scott 的 WordSmith为代表的经典搭配计算法,以及以 Stefan Evert 提出的 BNCweb 的搭配计算方法。

两种方法的主要不同在于是否将跨距作为搭配的核心考查要素(WordSmith 计算 Z 值时用到跨距,BNCweb 的算法中多数都用到跨距) 计算搭配强度的主要算法包括:互信息(MI ,mutual information 和 MI3) 、Z 值( Z score) 、T 值(T score) 、Log-Log 值、卡方值(χ 2) 、对数似然比(Log-likelihood ) 、Dice 系数等这些方法各有优劣需要略加说明的是,卡方和对数似然比既可用作检验单个词项跨语料库频数差异的显著性也可作为检验两个词在同一个语料库中,一定跨距内的共现强度以下对不同搭配强度计算方法的适用性做一简介(这里以 BFSU Collocator 工具为例) 更多相关介绍可参阅本章结尾处提供的相关参考文献和网络上有关 collocation 的讨论以下是利用 BFSU Collocator 工具提取的 but 一词的搭配情况在下面的示例中,我们选用的是光盘中 NS_written\raw 文件夹下的 TEXT001.txt 【Settings 】中【Set Data Type】选的是【Raw】 点击【Collocate】选项卡后,跨距设为左 5 右 5。

点击【Run】即可得结果图 3.5.3 显示的结果是以搭配词的实际出现频数排序的双击搭配结果的每一行,界面窗口下方即会显示含节点词和搭配词的索引行本节所举实例使用的检索词(节点词)为but搭配强度值小于 0 的情况,在 BFSU Collocator 工具里都归为零5图 3.5.3 按搭配词频数高低排序的搭配结果从图 3.5.3 可以看出 BFSU Collocator 工具运行后可以一次同时得到 MI、MI3 、Z 值、T 值、Log-log 值和对数似然比如果我们需要得到按互信息值排序的搭配词时,只需点击MI(或 MI3 列的标题行即可,如果点击第一次所列结果为升序排列,再点击一次,则可获得降序排列的结果) 图 3.5.3 中的结果显示的是以第 3 列 f(c),即搭配词(collocates)的频数降序排列的,界面下方窗口显示的是含 but 和最高频搭配词 the 的索引行互信息(MI,mutual information 和 MI3)6图 3.5.4 按互信息值高低排序的搭配结果互信息值体现的是节点词和搭配词之间的互相吸引关系互信息值越大,说明两个词之间的搭配强度越高互信息值可能为正值或负值。

如互信息值为负,则表明两词之间出现互相排斥的现象,即两词不倾向于在一定语境内共现Hunston(2002:71)提出在实际操作中以互信息值 3 作为临界值,即互信息值大于 3 的搭配词视作强搭配词然而,从图3.5.4 中的结果可以看出,互信息值算法存在一个明显不足,即互信息容易将低频词(如出现 2 次的 cannon 和出现一次的数字词 255-page 等)视作强搭配为了降低低频词在经典互信息算法中的权重,有学者将低频词同节点词的共现频数做了立方处理,经过取对数后,最终的互信息值大大降低了这即是下面看到的互信息 3(MI3)值的算法MI37图 3.5.5 按互信息 3 值高低排序的搭配结果从图 3.5.5 中可以看到,高频词 the、of、a,以及标点符号(, ) 这些本身在语料库中的总体频数很高,同时也与节点词 but 共现频数非常高的词被提到前面这些词项被认定为强搭配词比经典互信息算法所得的搭配词似乎更符合 but 的语言使用实际Z 值8图 3.5.6 按 Z 值高低排序的搭配结果虽然同互信息算法和原理不一样,但 Z 值计算出的搭配词结果与经典。

下载提示
相似文档
正为您匹配相似的精品文档