信息计量学_五_第五讲文献信息词频分布规律_齐普夫定律_邱均平

上传人:mg****85 文档编号:44613353 上传时间:2018-06-14 格式:PDF 页数:5 大小:144.74KB
返回 下载 相关 举报
信息计量学_五_第五讲文献信息词频分布规律_齐普夫定律_邱均平_第1页
第1页 / 共5页
信息计量学_五_第五讲文献信息词频分布规律_齐普夫定律_邱均平_第2页
第2页 / 共5页
信息计量学_五_第五讲文献信息词频分布规律_齐普夫定律_邱均平_第3页
第3页 / 共5页
信息计量学_五_第五讲文献信息词频分布规律_齐普夫定律_邱均平_第4页
第4页 / 共5页
信息计量学_五_第五讲文献信息词频分布规律_齐普夫定律_邱均平_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《信息计量学_五_第五讲文献信息词频分布规律_齐普夫定律_邱均平》由会员分享,可在线阅读,更多相关《信息计量学_五_第五讲文献信息词频分布规律_齐普夫定律_邱均平(5页珍藏版)》请在金锄头文库上搜索。

1、 邱均平 ( 武汉大学传播与信息学院 湖北 430072)信息计量学 ( 五)第五讲 文献信息词频分布规律 齐普夫定律1935年, 美国哈佛大学教授、 著名语言学家和情报学家乔治金斯利齐普夫 ( George Kingsye Zipf)首 先用大量的统计数据来验证前人有关词频分布规律的研究成果, 并进行了系统的研究, 使这一分布定律得 以正式形成和确立。 为了纪念他的学术贡献, 后来以他的名字来命名这一定律。 因此, 齐普夫是 “ 齐普夫 定律” 的主要创始人。 齐普夫定律定量地揭示了文献中词汇出现频率的分布规律, 是文献信息计量学的基 本定律之一, 在图书情报领域具有重要意义。1 齐普夫定律

2、的理论基础 最省力法则1948年 4 月, 当时 46 岁的齐普夫博士完成了他 的专著 人类行为与最省力法则 人类生态学引论 , 于 1949 年首次出版。 该书 50 余万字, 语言精 炼、 层次清晰、 扣题紧凑, 引用大量的数据和事实,对 “ 最省力法则” ( The Principle of Least Effort)作了精 辟的论述。 这部专著影响很大, 许多学者称之为 “ 巨著、 杰作” 。 他的这些学术研究和成就与情报学、 图 书馆学关系密切。 可以说, 最省力法则较好地解释了齐普夫定律的内在成因和机制, 是齐氏定律的理论基 础。在有关研究中, 齐普夫发现每一个人在日常生活 中都必

3、定要在他所处的环境里进行一定程度的运动。他把这种运动视为走某种道路。 然而, 人们在自己的 环境里所走的道路并非就是他的全部活动。 对于一个处于相对静止状态的人来说, 他要完成新陈代谢, 就 要有不断的物质和能量的运动, 并进行输入、 循环、输出等一系列的过程。 这个物质和能量的运动也是在 一定的道路上进行的。 我们可以认为, 人的全部机体都可以视为物质的聚合, 正以不同的速度在不同的道 路上穿过人的系统;而在整个宏观的宇宙世界中, 人的系统继而又以一个整体在他的外部环境里, 取不同 的道路, 以不同的速度运动着。在这里, 齐普夫强调的是运动和道路的概念。 他的目的是要说明每一个人的运动, 不

4、管属哪种类型,都是在一定的道路上进行的, 而且都将受一个简单的 基本法则的制约, 千方百计地选择一条最省力的途径。 在各种运动中, 人们也都有意无意地按照这个基 本法则行事。 齐普夫把这样一个他认为存在的法则称为 “ 最省力法则” 。 当然,这个 “ 最省力” 是带有主 观含义的, 在客观上各人有各人认为的 “ 最省力”,它们并不是完全相同的。 怎样理解齐普夫的 “最省力法则” 呢? 我们举个简单的例子。 一个人要从 A 地到 B 地去, 可以走各 种不同的道路, 但总得选择一条道路。 为此, 就得从经济上、 安全上、 时间上,并结合本人的主观条件 ( 如身体状况)及客观条件 ( 如所处的地区

5、环境) 等种种因素考虑, 想方设法地选择一条最符合自己要求 的道路, 使得自己付出的 “ 力” 最小。 做到了这一点, 就可以说他所消耗的力是最省的, 作出这种选择 的依据就是 “ 最省力法则” 。 它既是人们愿望的反映,也是行动者努力的结果。 在各种人为选择中, 人们都 自觉或不自觉地共同遵循着这一基本的行为选择法则 最省力法则。 按照齐普夫的说法, 当我们用语言表达思想时,我们就像受到两个方向相反的力的作用, 即所谓 “ 单 一化的力” 和 “ 多样化的力” 的作用。 在谈话或写作时, 这两种力表现为一方面希望被对方理解, 另一方 面希望尽量简短。 从这一观点来看, 说话者以只用一个词表达

6、所有概念为最省力, 而听话者则以每个概念 都用一个词表达为最省力。 “ 单一化的力” 与 “多样化的力” 取得平衡, 使自然语言词汇的分布呈双曲 线。 应当指出, 这里所说的力不同于物理学上的力。“ 最省力法则” 出现后, 国外许多学者纷纷对此 进行研究, 并把它应用于包括图书情报工作在内的许多领域中。 例如, 在 20 世纪 60 年代后期, 有位学者 运用这个法则研究了图书馆或情报中心在一个城市中的合理位置, 尽量使所有可能使用它的人平均付出最396第23 卷 200年第 5期小的力;还有人运用这个原则研究了书库中图书排列 的最佳方案, 打破传统的绝对按某种顺序排列的方法, 解决如何才能使

7、馆员在索取读者所需要的书或图 书上架时, 平均付出的力最省。 下面我们主要讨论与图书情报工作关系更为密切的齐普夫定律, 包括它的 形成基础、 基本内容、 理论发展和主要应用等。2 齐普夫定律的形成和基本内容2. 1 齐氏定律的形成和确立在文献中, 不同词汇的使用和出现频率是有一定 规律的。 为了发现和揭示这种规律, 许多学者进行过探索。 这些有关词频分布规律的研究和成果, 为齐普 夫定律的形成奠定了必要的基础。早在 1898年, 德国语言学家F. W. Kaeding 就编写 了世界上第一部频率词典 “ Hufigkeits Wrterbuch derDeutschen Sprache” (德

8、语频率词典)。 Kaeding 编写 这部词典的样本容量为 110万个词的文句, 并统计了每一个词在总样本中的出现次数。 20 世纪初,美国 教育 学 家 兼 心 理 学 家 E. L . Thorndike 先 后 编 写 了“ Teachers Word Book of 20, 000 Words” (教师二万 词词书),“ Teachers Word Book of 30, 000 Words”( 教师三万词词书), 对英语的词汇作了大量的频率 统计工作。 目前, 世界上的频率词典已有许多品种,其中有普通频率词典, 也有专业性频率词典。 频率词典实际上也就是一种词典。 对词表中的每一个词

9、都要给出它们在一定长度的文句中出现的频 率。随着不同语言中有关词的频率资料的大量积累,人们便迫切希望能将这些资料从理论上加以概括。 在 一部频率词典中, 词的出现频率与词的序号是两个最基本的数量指标。 它们刻画了一个词在词表中的统计 性质, 因此, 人们着重研究了词表中这两个基本数量指标之间的相互关系, 以揭示词的频率分布规律。 1)艾思杜的发现。 1916 年,法国速记学家艾思杜 ( J. Estoup)发现了在较长文章中, 词的出现频率 分布的定量化形式。 他在从事速记文字体系的研究工作中, 观察到如下规律:假设有一篇包含 N 个词的 文献 ( N 应该充分地大), 按这些词在文献中出现的

10、绝对频率 n递减的顺序排列起来, 并且按自然数顺序 从1 ( 绝对频率最大的词)到 L ( 绝对频率最小的词)编上序号, 造出这个文句的词表。 艾思杜从中发现, 词的绝对频率与它相应的词的序号 r 的乘积大体上稳定于一个常数K , 即 nrr=K。 2)贡东的公式。1928 年, 美国贝尔电话公司物理学家贡东 ( E. Condon) 在研究提高电话线路的通信能力的 工作 中 发现 了如 下 的规 律:他 根据 德 韦 ( Dewey)和阿叶斯 ( Ayres) 关于词的频率统计资料,以横坐标表示词的序号的对数 lgr,纵坐标表示词的 绝对频率的对数 lgn, 描绘了词频分布的图形。 贡东发现

11、, lgr 和 lgnr的分布关系接近于一条直线 AB, AB 与横坐标轴的夹角为 45 , 则得出下式:nr=Kr-1:然后再用所考察的文句的总长度 N 除以等式两边得:nr N=K Nr- 1;而 nr/N=fr, K / N 仍是常数, 且令 K/N=C, 则得 fr=Cr-1, 这就是贡东提出的定量化公式。 但是, 贡东指 出:C 是否为一个常数, 还需要更多的实验来检验。可见, 贡东虽然提出了定量公式, 但他并没有完全确 证这一公式。3)齐普夫的研究和齐氏定律的确立。 齐普夫正 是在前人的基础上, 抓住前人还没有解决的问题大胆探索, 从而正式创立了词频分布定律。 1935 年, 齐普

12、 夫以大量统计数据对词频分布规律进行了系统研究。他首先检验了贡东关系式的可靠性和 C 的性质。 齐 普夫主要根据汉莱 ( M. Hanley)为裘易士 ( J. Joyce)的中篇小说 尤利西斯 一书所编的频率词典来进行 工作。 由于该词典文句容量为 260 432 个词, 词典中收词 29 899 个, 这样 , 他就有可能在比贡东的规模大 得多的基础上来检验贡东的结果, 并着重研究了 C是否为一个常数。 起初, 齐普夫按公式 Pr=Cr-1来估 计 C 的值。 他指出, 在此公式中,当 r=1 时, Pr=Cr-1=C。 可见, C 就是序号为 1 的那个词的概率。根据试验, 齐普夫得出了

13、 C=0. 1,因而认为 C 是一个常数。 但是, 后来大量的事实说明, 大多数欧洲语言几 乎没有一种语言的序号为 1 的词的相对频率为 0. 1,一般小于 0. 1。 例如, 英语中序号为 1 的词是 the, 它 的 Pr=0. 0711 500, 也就是当词的频率较小的时候, 频率相同的词群的容量就大大增加了。 可见, 上述公式都不能恰当描述低频率词的分布情况 。实际上 , 前面的函数 图像并不完全是一条直线, 而是一条阶梯形的破碎折线。 从此图形可以看出, 低频率的词, 序号相同的很 多;而高频率的词, 序号相同的词随着频率的增高而越来越少。 可以说, 序号的雷同数是随着频率的减少 而

14、增大的。 这种事实用上述各公式都不能很好地描述, 可见, 齐普夫定律对于正确反映词频分布客观规 律来说,还存在一定的局限性。 当然 , 这也并不奇 怪, 因为齐普夫仅仅使用了一般的统计方法, 对上述研究结果也没有用数学理论深入研究, 该定律是一个 纯粹的经验定律。 同时, 齐普夫定律是以英语为基础的, 其后的研究也大都限于印欧语系。 汉语与之差别 甚大, 很多问题需要进一步研究和探讨 。针对这些局限性, 后来的研究者进行了深入探讨, 使齐普夫定律 获得了应有的发展。3 齐普夫定律的理论发展在齐普夫之后, 不少学者对齐普夫定律进行了广 泛而深入的研究。 概括地说, 其研究主要集中在两个方面:一是

15、通过增加参数,对齐普夫公式进行修正, 使之在更普遍的意义上趋于更精确地描述文献中的词频分布规律;二是研究其经验定律和齐普夫分布的理 论基础, 以及从不同的角度广泛探讨其应用前景。 这些研究都有力地促进了齐普夫定律及其分布理论的全 面发展。3. 1 朱斯的双参数公式 早在 1936 年, 就在齐普夫发表其研究成果后不久, 美国语言学家朱斯 ( M. Joos) 就对齐普夫的单参 数词频分布律提出了修正。 朱斯指出, 齐普夫公式 Pr=Cr-1中, 不仅 C 是一个参数, 而且 r 的负指数 ( 以 表示)也是一个参数。 这是因为,当词典收词多时, 会增大, 即图像中的 角会增大;当词典收词 少时

16、, 会减小, 即图像中的 角会变小, 可见, 并不永远等于 1, 角也并不都是 45 。 也就是说, 不是一个常数而是一个参数 。 若令这个参数 =b,则有:Pr=Cr-b, 其中 b0, C0, 对于 r=1n, 参数 b、 c 要使nr = 1Pr=1这就是朱斯的双参数词频分布律。 在朱斯的公式中, 当 b=1 时, 公式变为 Pr=Cr-1。 这正是齐普夫 的单参数词频分布律。 因此, 齐普夫公式只不过是朱斯公式在 b=1 时的一种特殊情况。 可见, 朱斯公式 是比齐普夫公式更为抽象、 更具有普遍性的公式, 是398第23 卷 200年第 5期对齐普夫公式的真正的实质性的修正。 3. 2 芒代耳布罗的三参数公式1952年, 美籍法国数学家芒代耳布罗 ( B.Man- delbrot)运用信息论原理和概率论方法来研究词的频率分布规律, 重新解释了齐普夫定律, 并修正了定律 的表达式。 通过严格的数学推导, 他从理论上提出了词的三参数频率分布公式。 其形式是:P

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号