文档详情

信息计量学_五_第五讲文献信息词频分布规律_齐普夫定律_邱均平

mg****85
实名认证
店铺
PDF
144.74KB
约5页
文档ID:44613353
信息计量学_五_第五讲文献信息词频分布规律_齐普夫定律_邱均平_第1页
1/5

○ 邱均平 ( 武汉大学传播与信息学院 湖北 430072)信息计量学 ( 五)第五讲 文献信息词频分布规律 — — —齐普夫定律1935年, 美国哈佛大学教授、 著名语言学家和情报学家乔治·金斯利·齐普夫 ( George Kingsye Zipf)首 先用大量的统计数据来验证前人有关词频分布规律的研究成果, 并进行了系统的研究, 使这一分布定律得 以正式形成和确立 为了纪念他的学术贡献, 后来以他的名字来命名这一定律 因此, 齐普夫是 “ 齐普夫 定律” 的主要创始人 齐普夫定律定量地揭示了文献中词汇出现频率的分布规律, 是文献信息计量学的基 本定律之一, 在图书情报领域具有重要意义1 齐普夫定律的理论基础 — — —最省力法则1948年 4 月, 当时 46 岁的齐普夫博士完成了他 的专著 《人类行为与最省力法则— — —人类生态学引论》 , 于 1949 年首次出版 该书 50 余万字, 语言精 炼、 层次清晰、 扣题紧凑, 引用大量的数据和事实,对 “ 最省力法则” ( The Principle of Least Effort)作了精 辟的论述 这部专著影响很大, 许多学者称之为 “ 巨著、 杰作” 。

他的这些学术研究和成就与情报学、 图 书馆学关系密切 可以说, 最省力法则较好地解释了齐普夫定律的内在成因和机制, 是齐氏定律的理论基 础在有关研究中, 齐普夫发现每一个人在日常生活 中都必定要在他所处的环境里进行一定程度的运动他把这种运动视为走某种道路 然而, 人们在自己的 环境里所走的道路并非就是他的全部活动 对于一个处于相对静止状态的人来说, 他要完成新陈代谢, 就 要有不断的物质和能量的运动, 并进行输入、 循环、输出等一系列的过程 这个物质和能量的运动也是在 一定的道路上进行的 我们可以认为, 人的全部机体都可以视为物质的聚合, 正以不同的速度在不同的道 路上穿过人的系统;而在整个宏观的宇宙世界中, 人的系统继而又以一个整体在他的外部环境里, 取不同 的道路, 以不同的速度运动着在这里, 齐普夫强调的是运动和道路的概念 他的目的是要说明每一个人的运动, 不管属哪种类型,都是在一定的道路上进行的, 而且都将受一个简单的 基本法则的制约, 千方百计地选择一条最省力的途径 在各种运动中, 人们也都有意无意地按照这个基 本法则行事 齐普夫把这样一个他认为存在的法则称为 “ 最省力法则” 。

当然,这个 “ 最省力” 是带有主 观含义的, 在客观上各人有各人认为的 “ 最省力”,它们并不是完全相同的 怎样理解齐普夫的 “最省力法则” 呢? 我们举个简单的例子 一个人要从 A 地到 B 地去, 可以走各 种不同的道路, 但总得选择一条道路 为此, 就得从经济上、 安全上、 时间上,并结合本人的主观条件 ( 如身体状况)及客观条件 ( 如所处的地区环境) 等种种因素考虑, 想方设法地选择一条最符合自己要求 的道路, 使得自己付出的 “ 力” 最小 做到了这一点, 就可以说他所消耗的力是最省的, 作出这种选择 的依据就是 “ 最省力法则” 它既是人们愿望的反映,也是行动者努力的结果 在各种人为选择中, 人们都 自觉或不自觉地共同遵循着这一基本的行为选择法则— — —最省力法则 按照齐普夫的说法, 当我们用语言表达思想时,我们就像受到两个方向相反的力的作用, 即所谓 “ 单 一化的力” 和 “ 多样化的力” 的作用 在谈话或写作时, 这两种力表现为一方面希望被对方理解, 另一方 面希望尽量简短 从这一观点来看, 说话者以只用一个词表达所有概念为最省力, 而听话者则以每个概念 都用一个词表达为最省力。

“ 单一化的力” 与 “多样化的力” 取得平衡, 使自然语言词汇的分布呈双曲 线 应当指出, 这里所说的力不同于物理学上的力 最省力法则” 出现后, 国外许多学者纷纷对此 进行研究, 并把它应用于包括图书情报工作在内的许多领域中 例如, 在 20 世纪 60 年代后期, 有位学者 运用这个法则研究了图书馆或情报中心在一个城市中的合理位置, 尽量使所有可能使用它的人平均付出最396·第23 卷 200年第 5期·小的力;还有人运用这个原则研究了书库中图书排列 的最佳方案, 打破传统的绝对按某种顺序排列的方法, 解决如何才能使馆员在索取读者所需要的书或图 书上架时, 平均付出的力最省 下面我们主要讨论与图书情报工作关系更为密切的齐普夫定律, 包括它的 形成基础、 基本内容、 理论发展和主要应用等2 齐普夫定律的形成和基本内容2. 1 齐氏定律的形成和确立在文献中, 不同词汇的使用和出现频率是有一定 规律的 为了发现和揭示这种规律, 许多学者进行过探索 这些有关词频分布规律的研究和成果, 为齐普 夫定律的形成奠定了必要的基础早在 1898年, 德国语言学家F. W. Kaeding 就编写 了世界上第一部频率词典 “ Häufigkeits Wörterbuch derDeutschen Sprache” (《德语频率词典》)。

Kaeding 编写 这部词典的样本容量为 110万个词的文句, 并统计了每一个词在总样本中的出现次数 20 世纪初,美国 教育 学 家 兼 心 理 学 家 E. L . Thorndike 先 后 编 写 了“ Teacher's Word Book of 20, 000 Words” (《教师二万 词词书》),“ Teacher's Word Book of 30, 000 Words”( 《教师三万词词书》), 对英语的词汇作了大量的频率 统计工作 目前, 世界上的频率词典已有许多品种,其中有普通频率词典, 也有专业性频率词典 频率词典实际上也就是一种词典 对词表中的每一个词都要给出它们在一定长度的文句中出现的频 率随着不同语言中有关词的频率资料的大量积累,人们便迫切希望能将这些资料从理论上加以概括 在 一部频率词典中, 词的出现频率与词的序号是两个最基本的数量指标 它们刻画了一个词在词表中的统计 性质, 因此, 人们着重研究了词表中这两个基本数量指标之间的相互关系, 以揭示词的频率分布规律 1)艾思杜的发现 1916 年,法国速记学家艾思杜 ( J. Estoup)发现了在较长文章中, 词的出现频率 分布的定量化形式。

他在从事速记文字体系的研究工作中, 观察到如下规律:假设有一篇包含 N 个词的 文献 ( N 应该充分地大), 按这些词在文献中出现的绝对频率 n递减的顺序排列起来, 并且按自然数顺序 从1 ( 绝对频率最大的词)到 L ( 绝对频率最小的词)编上序号, 造出这个文句的词表 艾思杜从中发现, 词的绝对频率与它相应的词的序号 r 的乘积大体上稳定于一个常数K , 即 nr·r=K 2)贡东的公式1928 年, 美国贝尔公司物理学家贡东 ( E. Condon) 在研究提高线路的通信能力的 工作 中 发现 了如 下 的规 律:他 根据 德 韦 ( Dewey)和阿叶斯 ( Ayres) 关于词的频率统计资料,以横坐标表示词的序号的对数 lgr,纵坐标表示词的 绝对频率的对数 lgn, 描绘了词频分布的图形 贡东发现, lgr 和 lgnr的分布关系接近于一条直线 AB, AB 与横坐标轴的夹角为 45° , 则得出下式:nr=Kr-1:然后再用所考察的文句的总长度 N 除以等式两边得:nr N=K Nr- 1;而 nr/N=fr, K / N 仍是常数, 且令 K/N=C, 则得 fr=Cr-1, 这就是贡东提出的定量化公式。

但是, 贡东指 出:C 是否为一个常数, 还需要更多的实验来检验可见, 贡东虽然提出了定量公式, 但他并没有完全确 证这一公式3)齐普夫的研究和齐氏定律的确立 齐普夫正 是在前人的基础上, 抓住前人还没有解决的问题大胆探索, 从而正式创立了词频分布定律 1935 年, 齐普 夫以大量统计数据对词频分布规律进行了系统研究他首先检验了贡东关系式的可靠性和 C 的性质 齐 普夫主要根据汉莱 ( M. Hanley)为裘易士 ( J. Joyce)的中篇小说 《尤利西斯》 一书所编的频率词典来进行 工作 由于该词典文句容量为 260 432 个词, 词典中收词 29 899 个, 这样 , 他就有可能在比贡东的规模大 得多的基础上来检验贡东的结果, 并着重研究了 C是否为一个常数 起初, 齐普夫按公式 Pr=Cr-1来估 计 C 的值 他指出, 在此公式中,当 r=1 时, Pr=Cr-1=C 可见, C 就是序号为 1 的那个词的概率根据试验, 齐普夫得出了 C=0. 1,因而认为 C 是一个常数 但是, 后来大量的事实说明, 大多数欧洲语言几 乎没有一种语言的序号为 1 的词的相对频率为 0. 1,一般小于 0. 1。

例如, 英语中序号为 1 的词是 the, 它 的 Pr=0. 0711 500, 也就是当词的频率较小的时候, 频率相同的词群的容量就大大增加了 可见, 上述公式都不能恰当描述低频率词的分布情况 实际上 , 前面的函数 图像并不完全是一条直线, 而是一条阶梯形的破碎折线 从此图形可以看出, 低频率的词, 序号相同的很 多;而高频率的词, 序号相同的词随着频率的增高而越来越少 可以说, 序号的雷同数是随着频率的减少 而增大的 这种事实用上述各公式都不能很好地描述, 可见, 齐普夫定律对于正确反映词频分布客观规 律来说,还存在一定的局限性 当然 , 这也并不奇 怪, 因为齐普夫仅仅使用了一般的统计方法, 对上述研究结果也没有用数学理论深入研究, 该定律是一个 纯粹的经验定律 同时, 齐普夫定律是以英语为基础的, 其后的研究也大都限于印欧语系 汉语与之差别 甚大, 很多问题需要进一步研究和探讨 针对这些局限性, 后来的研究者进行了深入探讨, 使齐普夫定律 获得了应有的发展3 齐普夫定律的理论发展在齐普夫之后, 不少学者对齐普夫定律进行了广 泛而深入的研究 概括地说, 其研究主要集中在两个方面:一是通过增加参数,对齐普夫公式进行修正, 使之在更普遍的意义上趋于更精确地描述文献中的词频分布规律;二是研究其经验定律和齐普夫分布的理 论基础, 以及从不同的角度广泛探讨其应用前景。

这些研究都有力地促进了齐普夫定律及其分布理论的全 面发展3. 1 朱斯的双参数公式 早在 1936 年, 就在齐普夫发表其研究成果后不久, 美国语言学家朱斯 ( M. Joos) 就对齐普夫的单参 数词频分布律提出了修正 朱斯指出, 齐普夫公式 Pr=Cr-1中, 不仅 C 是一个参数, 而且 r 的负指数 ( 以 γ表示)也是一个参数 这是因为,当词典收词多时, γ会增大, 即图像中的 α角会增大;当词典收词 少时, γ会减小, 即图像中的 α角会变小, 可见, γ并不永远等于 1, α角也并不都是 45 ° 也就是说, γ 不是一个常数而是一个参数 若令这个参数 γ=b,则有:Pr=Cr-b, 其中 b>0, C>0, 对于 r=1……n, 参数 b、 c 要使∑nr = 1Pr=1这就是朱斯的双参数词频分布律 在朱斯的公式中, 当 b=1 时, 公式变为 Pr=Cr-1 这正是齐普夫 的单参数词频分布律 因此, 齐普夫公式只不过是朱斯公式在 b=1 时的一种特殊情况 可见, 朱斯公式 是比齐普夫公式更为抽象、 更具有普遍性的公式, 是398·第23 卷 200年第 5期·对齐普夫公式的真正的实质性的修正。

3. 2 芒代耳布罗的三参数公式1952年, 美籍法国数学家芒代耳布罗 ( B.Man- delbrot)运用信息论原理和概率论方法来研究词的频率分布规律, 重新解释了齐普夫定律, 并修正了定律 的表达式 通过严格的数学推导, 他从理论上提出了词的三参数频率分布公式 其形式是:P。

下载提示
相似文档
正为您匹配相似的精品文档