文档详情

汉字的大数据分析与可视化

I***
实名认证
店铺
DOCX
31.02KB
约7页
文档ID:249203810
汉字的大数据分析与可视化_第1页
1/7

    汉字的大数据分析与可视化    木合塔尔·沙地克 布合力齐姑丽·瓦斯力摘 要:学国语是每位中国人的神圣职责作为少数民族,学国语的难点莫过于是声调为了掀起学习国语的热潮、揭开汉字声调的神秘面纱,创新理念思路、创新方式方法对汉字进行大数据分析并可视化首先自动获取Unicode汉字字符集中的所有汉字及其拼音,其后进行基于声调、多音字、同音字等多角度的分析并其可视化分析发现,汉字中第四声调的最多;忽略声调有421种发音,前二十发音的汉字累计占比20%;加声调有1202种发音,前二十发音的汉字累计占比10%虽然汉字入门比较难进,但学会常用字后,无需死记硬背海量词汇关键词:多音字 同音字 声调 基本汉字:TP392 :A :1003-9082(2018)05-0-02引言中华文化历史悠久,内涵丰富能够代表中华文化的符号数量众多,其中最具有代表性的,一定非汉字莫属这不仅因为汉字是中华文化的载体,更是因为汉字本身就是中华文化不可或缺的组成部分1汉字是世界上最古老的文字之一,已有四千多年的历史汉字的数量并没有准确数字,大约将近十万个,日常所使用的汉字只有几千个Unicode 是全球文字统一编码它把世界上的各种文字的每一个字符指定唯一编码,实现跨语种、跨平台的应用。

基本汉字Unicode編码范围为4E00-9FA5,其中:大陆(S)提出的汉字17124个,台湾(T)提出的汉字17258个;S与T的并集,即中国(C)提出的汉字为20158个日本(J)提出的汉字为12157个,中国未提出的690个(Ja);韩国(K)提出的汉字为7477个,其中中国未提出的90个(Ka);Ja与Ka并集共744字2《国家中长期语言文字事业改革和发展规划纲要(2012-2020年)》提出了到2020年,普通话在全国范围内基本普及,汉字社会应用的规范化程度进一步提高,汉语拼音更好地发挥作用3十九大报告提出“文化是一个国家、一个民族的灵魂文化兴国运兴,文化强民族强没有高度的文化自信,没有文化的繁荣兴盛,就没有中华民族伟大复兴” 4本文为了推广和普及国家通用语言文字、提高国民语言文字应用能力、弘扬传播中华优秀文化、掀起学习国语的热潮、揭开汉字的神秘面纱,创新理念思路、创新方式方法,对Unicode基本汉字字符集中的20902个汉字进行了统计分析与可视化一、分析与可视化1.声调占比分析(含多音)在基本汉字字符集的常用发音(即一字一音)声调占比分析5基础上,对含多音情况进行声调占比分析,如表1所示:表中看到,在基本汉字字符集中,发音为第一声调的有7053个;第二声调的有7734个;第三声调的有4789个;第四声调的最多,即9830个;轻声或非汉字的有244个。

在此基础上,进行占比分析,如图1所示:图中看到,第一声调占比23.79%,第二声调占比26.08%,第三声调占比16.15%,第四声调占比33.15%,轻声或非汉字发音占比0.82%另外,发音总数有明显增大,即20902个汉字共有29650中发音,比常用发音多出了8748个音各声调的发音数也相应的增加,其中第四声的增幅最大,即增加了3167个,第三声增加1418个,第二声增加2098个,第一声增加1969个,轻声或非汉字发音增加96个2.多音字分析在基本汉字字符集20902个汉字中,多音字有6164个(有两个及以上发音),其中发音最多的前十汉字,如表2所示:表中看到,有些汉字的发音包括非汉语拼音,如“欸”、“誒”等3.同音字分析3.1不带声调情况在基本汉字字符集20902个汉字中,共有421种不带声调的发音(即忽略声调),其中前十同音字如表3所示(表中每种发音只取前十汉字):表中看到,读音为yi的汉字共有364个,前十同音字中每个发音对应的汉字数均超过2003.2带声调情况在基本汉字字符集20902个汉字中,共有1202种带声调的发音(不考虑多音字情况),其中前十同音字如表4所示(表中每种发音只取前十汉字):表中看到,读音为yì的汉字共有203个,比不带声调的yi减少了161个,前十带声调同音字中每个发音对应的汉字数均超过90。

4.同音字频率分布4.1不带声调情况对基本汉字字符集中20902个汉字的421种不带声调发音进行频率分布分析,如图2所示:图中看到,频率最高的前二十个发音的汉字数占整个汉字的20%;yi,ji,yu,xi,zhi,li,yan,fu等八个发音的汉字占整个汉字的10%4.2带声调情况对基本汉字字符集中20902个汉字的1202种带声调发音进行频率分布分析,如图3所示:图中看到,频率最高的前二十个带声调发音的汉字数占整个汉字的10%;yì,lì,xī,yù,zhì,bì,jī,jì,qí,fú等八个发音的汉字占整个汉字的6%5.拼音云5.1不带声调情况绘制基本汉字字符集中20902个汉字的421种不带声调发音的拼音云图,如图4所示:图中看到,yi,ji,yu,zhi,xi等包含最多同音词的不带声调发音以大字显示5.2带声调情况绘制基本汉字字符集中20902个汉字的1202种带声调发音的拼音云图,如图5所示:图中看到,yì,lì,xī,yù,zhì等包含最多同音词的带声调发音以大字显示结语汉字的大数据非常博渊深奥,探渊索珠不易之事本文只是对基本字符集中汉字的一知半解(因篇幅原因,除了声调占比分析外,其它部分没考虑一字多音情况)。

学习汉字学的意义远不止于了解汉字的这些特征,通过汉字的深入研究,可以获得更多的灵感,学到更多的研究汉字的方法6中国文化起源于汉字,汉字对中华文明的传播起到了不可或缺的作用它是中华民族和世界的共同财富,不仅给汉民族带来了文化的繁荣,也对我国其他少数民族的文化发展产生了深远影响在几千年的历史当中,继续发展传播日本、韩国、越南、新加坡等国家,在他们的文字和文化发展中发挥了重要作用文化认同是一种群体文化认同的感觉对外来文化价值的认同,足以瓦解一国的政治制度,民族的凝聚力;反之,人民对本国自身文化的强烈认同,既是该国自立于世界民族之林的伟大精神力量,又是使民族在激烈的国际竞争中立于不败之地学国语是每位中国人的神圣职责作为少数民族,学国语的难点莫过于是声调经过分析发现,汉字中第四声调的最多,忽略声调时有421种发音,考虑声调有1202种发音虽然汉字入门比较难进,但学会常用字后,无需死记硬背海量词汇作为中华文化的传承人,“要以科学武装自己、把文化自信作为底气,发展中国特色社会主义文化”4是我们不可推卸的责任参考文献[1]王立.汉字的强大生命力源自哪里?[EB/OL].(2017-11-30)[2017.12.4].光明日报平台: http://[2]汉典.汉字简介. [EB/OL].[2017.12.4].http://[3]360百科.《國家中长期语言文字事业改革和发展规划纲要(2012-2020年)》. [EB/OL].[2017.12.4]. https://[4]习近平.中共十九大开幕,习近平代表十八届中央委员会作报告(直播全文).[EB/OL].(2017-10-18)[2017.12.4].http://[5]木合塔尔·沙地克,布合力齐姑丽·瓦斯力. 用Python数据分析方法进行汉字声调频率统计分析[J].电脑知识与技术, 2017年12月(已录用).[6]百度文库.汉字学.[EB/OL].(2011-01-09)[2017.12.4].https://  -全文完-。

下载提示
相似文档
正为您匹配相似的精品文档