浅议概率统计在语言学上应用

上传人:桔**** 文档编号:430727189 上传时间:2023-06-21 格式:DOC 页数:18 大小:288KB
返回 下载 相关 举报
浅议概率统计在语言学上应用_第1页
第1页 / 共18页
浅议概率统计在语言学上应用_第2页
第2页 / 共18页
浅议概率统计在语言学上应用_第3页
第3页 / 共18页
浅议概率统计在语言学上应用_第4页
第4页 / 共18页
浅议概率统计在语言学上应用_第5页
第5页 / 共18页
点击查看更多>>
资源描述

《浅议概率统计在语言学上应用》由会员分享,可在线阅读,更多相关《浅议概率统计在语言学上应用(18页珍藏版)》请在金锄头文库上搜索。

1、石家庄经济学院本科生毕业论文摘 要数学作为一门应用性很强的学科,如何将理论与现实问题有效结合起来是一大难题。而语言学作为一门重要的社会科学,与自然科学的精确性存在很大区别。研究现实表明数学将可以在语言学等社会学科上得到极大应用。本文首先介绍数学、语言学和数理语言学之间的关系及其内在联系,然后再从概率论和统计学两个角度分别简述其在语言学上应用。概率论方面主要介绍语言文字的熵,讨论其信息量,并以汉字为例兼论常见语言的字母熵,从而窥探每个文字背后蕴含的信息量度。统计学方面主要通过统计方法介绍语言单位的出现频率,计算作家的语言风格,以及计算语言存在的绝对年代和亲属语言分化的年代,并简要介绍齐普夫定律。

2、关键词: 数理语言学;概率论;统计学;熵;齐普夫定律;马尔可夫链;语言年代学ABSTRACTApplied Mathematics, as an application of a strong discipline, has a major problem that how to combine the theory and practical problems effectively. Linguistics as an important social sciences, , has a big difference with natural sciences accuracy. The

3、reality shows that mathematics has been greatly used in linguistics and social sciences. This paper first introduces the relationship between their internal relations of mathematics, linguistics, and mathematical linguistics, and then from two angles of the probability theory and statistics, respect

4、ively, outlined its application in linguistics. Probability theory describes the entropy of the language to discuss their information content, and on the entropy of the letters of the common language of Chinese characters, for example, in order to spy on the measure of the information contained in e

5、ach text behind. In statistics we discuss on the frequency of occurrence of the linguistic unit by statistical methods, the computing language of the writers style, as well as computing language of absolute age and age of relatives of language differentiation, and then a brief introduction to Zipfs

6、Law.Key words: Mathematical Linguistics; Probability Theory; Statistics; Entropy; Zipfs Law; Markov Chain; Glottochronology目 录摘要目录1数学、语言学和数理语言学11.1数学在语言学上的渗透及其意义11.2数理语言学及其分支21.2.1统计语言学21.2.2 代数语言学 32概率及其在语言学中应用32.1熵、语言的熵32.2汉字的熵52.3汉字的极限熵63统计及其在语言学中应用83.1齐普夫定律83.2语言单位频率统计83.3计算风格学93.4 语言年代学10结论11致谢

7、12参考文献138浅议概率统计在语言学上应用1 数学、语言学和数理语言学数学和语言学可以说是最古老的两门学科,在人类文明长河中很难找到历史更悠久的学科。数学是研究形式、结构和数量之间关系的一门学科,它具有统一的符号系统,各国读者均可以方便地进行交流,读法虽然有所差异,但是其意义都是相同的。而语言是人类社会最重要的交际工具,是人类区别于其它动物的主要特征。不同的国家、不同的民族有着不同的语言符号系统。数千年来,数学和语言学之间似乎是风马牛不相及,很少有人想到把二者联系起来研究,找到他们的内在关系。在人类的文明史上,学者们经过相当漫长时间的探索,才终于认识到这一密切联系。1.1 数学在语言学上的渗

8、透及其意义进入20世纪,数学方法和理论不仅在物理、地理、天文等领域获得了惊人的进展,而且逐渐渗透到人文科学领域。先是在生物学,而后是在经济学和社会学方面,数学方法取得了一系列成功。很自然地,数学家们将目光投向了数学的未开垦地语言学。 学者们的远见卓识,使语言学的发展展现了新机。1847 年,俄国数学家布里亚柯夫斯基认为可以用概率论方法来进行语法、词源及语言历史比较的研究。1894 年,瑞士著名语言学家索绪尔指出,“在基本性质方面,语言中的量和量之间的关系可以用数学公式有规律地表达出来”。 1904年,波兰语言学家博杜恩德古尔特内认为,语言研究者不仅应该掌握初等数学,更应该高等数学。他坚信,语言

9、学将日益接近精密科学,语言学将根据数学的模式,更多地扩展量的概念,并将发展新的演绎思想的方法。这些光辉的思想影响了语言学的历史进程,成为下一代学者努力的方向,并将构思结合到实践研究中去。1881年,德国学者迪丁贝尔格用统计方法把柏拉图著作的执笔时期分为前期、中期和后期三个阶段。1887 年,美国学者门登荷尔对不同时期的英国文学作品尤其是莎士比亚的作品进行过统计分析,得出了令人满意的结论。1898 年,德国学者凯定编制了世界上第一部频度词典德语频度词典,用来改进速记的方法。1913 年,俄国数学家马尔可夫用概率论方法研究了欧根奥涅金中的俄语辅音和元音字母序列生成问题,并以此提出可马尔可夫随机过程

10、这一数学上的重要理论,后来成了数学的一个分支,对现代数学产生了深远的影响。1935 年,美国语文学家齐普夫发表了齐普夫定律,采用数学方法描述频度词典中单词的序号分布规律,这一规律后来在不同领域得到了广泛应用。1941 年,英国数学家尤勒发表了文学词语的统计分布一书,其中大规模应用了概率和统计方法来研究语言。以上事例可以大致窥探上个世纪学者们将数学应用于语言研究的情况,究其意义,我们可以看到数学的优势所在。l、数学表达语言学研究问题和内容的精确性。数学语言的特点是简明,精确,数学方法具有严密的系统性和逻辑性,用数学符号和公式来表达语言学研究内容将符合现代语言学的要求。2、数学方法可以对语言现象进

11、行定量和定性,使得分析定量定性分析相得益彰:定性分析以定量分析为依据,定量分析以定性分析为归宿,这样可以尽可能避免对某些语言现象所作出的结论的主观推测性和游移不确定性。3、数学方法丰富了语言学研究的方法和途径。以上事例可以看出,语言学的研究可以拓展思路,引入更多的边缘学科帮助,用一种新的视野观察语言学研究和发展。4、扩展语言学研究领域。在数学方法被引入前,语言学研究因为研究水平的限制以及研究方式的僵化停滞不前,而数学方法的引入,很大程度上开拓了语言学研究的领域并大大加速了这一学科的发展。1.2 数理语言学及其分支1.2.1 统计语言学数理语言学的一个分支,又称计量语言学,是应用数理统计、概率论

12、和信息论等方法来研究语言学现象的语言学科。就其研究领域来看,目前主要包括以下几个方面:1、统计语言单位的出现频率,如对词汇和音位、语素出现的频率进行统计研究。2、统计作家的用词用词频率频率、词长分布和句长分布,以了解作家运用语言的风格,用这种方法还可判定匿名文章的作者。3、计算语言存在的绝对年代以及亲属语言从共同原始语分化出来的年代,这方面的研究叫做语言年代学,又称为词源统计分析法。此外,还可对亲属语言的语法、语音体系进行统计、比较。4、采用信息论方法研究语言的熵和羡余度。语言的熵就是在交际过程中语言符号出现的不定度。不定度的大小与语言的熵的高低一致。当语言的接收者接收到语言符号之后,不定度被消除,熵等于零,因而在交际过程中,语言接收者所得到的信息量恰恰等于被消除的熵。语言的羡余度是指语言中超过传递最少需要量的信息量的比例,在一般情况下,人们为了保证对方能够理解,总是提供比实际需要多得多的信息量,因此,不论在书面语还是口语中,语言都有羡余度。5、探讨语言的一般统计规律。例如,在按频率递减顺序排列的频率词典中,词的序号越大,词的频率越小,序号与频率之间的关系可以用数学公式描述为一定的统计规律,这个统计规律叫做齐普夫定律,因其研究者之一、美国语文学家齐普夫而得名。 6、运用随机过程论来研究语言,把语言看成彼此联系的字母序列,前

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号