中文聊天语言的奇异性与动态性研究

上传人:E**** 文档编号:114997268 上传时间:2019-11-12 格式:PDF 页数:3 大小:103.57KB
返回 下载 相关 举报
中文聊天语言的奇异性与动态性研究_第1页
第1页 / 共3页
中文聊天语言的奇异性与动态性研究_第2页
第2页 / 共3页
中文聊天语言的奇异性与动态性研究_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《中文聊天语言的奇异性与动态性研究》由会员分享,可在线阅读,更多相关《中文聊天语言的奇异性与动态性研究(3页珍藏版)》请在金锄头文库上搜索。

1、中文聊天语言的奇异性与动态性研究 黄锦辉1 ,夏云庆2 香港中文大学系统工程系:2 清华大学信息科学与技术国家实验室 根据中国互联网络信息中心( C N N I c ) 的统计。到2 0 0 5 年4 月底,我国上网用户已经突 破l 亿,达到1 0 0 2 亿人,网民数仅次于美国居世界第二位。今天每1 3 个中国人就有一 个与它“亲密接触”,互联网正在成为各界人士获取信息的主要通道。社科院2 0 0 5 年互联 网报告 1 指出我国网民平均每天上网的时间是2 7 3 小时,单纯浏览网络论坛而不发言 网民只占3 8 6 。这个比例说明,网民的上网行为不仅仅是寻找信息,还包含了人际交流 的活动。报

2、告指出,通常用来双向交流的交流工具有博客( b l o g ) 、论坛( B B S ) 、微软M S N 、 聊天室、I C Q 和电子邮件,有6 8 7 的网民使用聊天室,6 6 6 的网民使用I C Q O I O 吖Q q , 4 4 8 的网民使用B B S ,4 3 9 的网民使用微软W S N 。这些数据表明:随着互联网进入社会生 活,网络聊天逐渐成为一种重要的沟通渠道。 网络聊天渠道的发展进一步方便利了交流,也给信息技术领域带来机遇。在商业应用 中,越来越多的客户服务呼叫中心网上教学 3 ,4 日渐被互联网聊天解决方案取代,聊 天室,B B S 张贴电子邮件和手机短信等方案逐渐

3、被商家采用,甚至在某些应用中取代了 电话这个传统交流工具。聊天语言应运而生,并己发展成为一种重要的群体语言。这类语 言的出现带来了诸多挑战。例如,由于网络聊天渠道大多可以免费使用,信息杂乱无章, 因此被色情信息、犯罪信息和恐怖主义传播者所利用,成为他们要乱社会安定、制造反社 会活动的策划与讨论场所 5 ,6 。他们大量采用奇异的聊天语言( 黑话) ,混淆安全监控 人员的眼睛。这就造成了安全监控任务的难题。再如,商业上提供基于聊天的客户服务已 经屡见不鲜,这些聊天纪录同传统的电话记录具有同样的价值,聊天语言的使用,阻碍了 分析研究人员获取重要信息。于是他们带着这些问题求助于自然语言处理工具,希望

4、通过 语言分析处理以“解码”这些奇异词汇 7 ,8 ,9 ,l O 。我们先看下面三个聊天语言的例 子: ( 1 ) 有木有 c 1 银 c 2 请我7 饭 c 3 ( 有没有 n 1 人 n 2 请我吃饭 n 3 ) ( 2 ) 偶 c 1 稀饭 c 2 这样的G G c 3 ( 我 n 1 喜欢 n 2 这样的哥哥 n 3 ) ( 3 ) 隔3 差5 c 1 来看你( 隔三差五 h i 来看你) ( 4 ) 细八细 c 1 又要F B e 2 去( 是不是 n 1 又要腐败 n 2 去啊) 这些例子中,括号里面给出的是每个聊天语言例子对应的标准语言。我们用 c i 代表 聊天语言词汇, h

5、 i 代表对应的标准语言词汇。例如,“有木有”对应着标准语言的“有 没有”,“银”对应着标准语言的“人”。类似的聊天语言词汇很多,在网络聊天室、聊 一8 0 天纪录和论坛( B B S ) 上随处可见。我们知道,传统语言处理工具的对象是标准语言,假定分 析对象( 文本) 符合常规语法。这样,面对聊天语言。它们就显得无能为力了。我们用 I C T C L A S 1 1 处理例( 1 ) 的网络聊天文本。分词结果如下: 有v 木n 有v 银n 请v 我r7 m 饭n I C T C L A S 处理不了“有木有”这个网络聊天词汇。当然这并不说明I C T C L A S 的性能不 强,而是因为I

6、 c T c L A s 不包含聊天语言的任何信息( 词条、规则和统计数据) 。我们再看 I C T C L A S 对例( 2 ) 进行词性标注的结果: 偶b 稀饭n 这样r 的uG G n I C T C L A S 将“偶”分析为b ( 区别词) ,将“稀饭”分析为n ( 名词) 。但是实际上, “偶”在这里用作“我”,应该为r ( 代词) ,“稀饭”代表“喜欢”,应为v ( 动词) 因之相对于标准词汇的“奇异”效果,我们定义聊天语言的该特性为“奇异性”。聊天语 言的“奇异性”给文本分析和处理带来了困难。对于处理“有木有”这样的奇异词汇,有 人建议将它添加到词典里就可以了在处理“银”时,

7、再将“人”这个义项添加到标准词 典里去。我们反对这样做,因为标准汉语基本不会使用“有木有”这个词汇,也不会用到 “银”的“人”这个义项,只有在网络聊天环境中才会这样用到。 有人建议将这些奇异的词汇放进一个“聊天语言词典”中,通过查询就能够找出对应 的标准词汇。这种建议并不能有效解决问题,原因有二:一。聊天语言在使用标准词汇时 导致歧义。例如在聊天语言文本中,“银”可以用作聊天语言,代表“人”,也可以用作 标准词汇,表示“银”这种物质。可见,仅仅通过这次词典,很难区别开来聊天语言还是 标准汉语词汇,更不用说去区分聊天语言的多种不同用法。二,通过仔细观察研究我们 发现聊天语言变化很快,无法用静态的

8、词典去覆盖。常见的情况是,去年使用的一些聊天 语言,今年就被淘汰了,同时又出现了更多新的聊天语言。这就是我们所提出的聊天语言 的“动态性”。虽然不断更新“聊天语言词典”是一个解决方法,但聊天语言变化快,要 做到及时更新非常费时费力,而且这些花费永无止境。要解决“奇异性”和“动态性”问 题,只依赖一个聊天语料库,似乎走到了死胡同。 中国有句俗语:万变不离其宗。我们深受启发,认为再动态的聊天语言也包含着相对 静态的因素我们的细致观察最终证实了这一想法。我们发现,尽管聊天语言文本千差万 别,但绝大多数( 9 9 以上) 中文聊天语言的产生都遵循着一个不变的基本原则,即语音映 射。聊天语言出了表情图标

9、外,极少是从无到有的创造,绝大多数都对应着原始文字模 板。例如“偶”对应着“我”,“稀饭”对应着“喜欢”,都是通过方言语音映射得到 - 8 1 - 的,而“隔3 差5 ”则直接对应了同音词“隔三差五”。我们发现,英语聊天语言具有类 似的特征。例如。“A S A P ”从“a sS O O na sp o s s i b l e ( 尽快) ”而来,“b 4 ”从“b e f o r e ” 而来。可见聊天语言的产生具有明显的语音映射基础。 有了这把聊天语言处理的钥匙,奇异性和动态性问题便迎刃而解。本文借助真实聊天 语言文本,对聊天语言的奇异性和动态性进行详细分析和归纳并初步设计了面向处理奇 异

10、性和动态性问题的聊天语言文本识别与转换方法。我们先以聊天语言语料库为基础建立 聊天语言模型和语言转换模型,通过信源一信道模型( s o u r c ec h a n n e lm o d e l ) 实现聊天 语言向标准语言的转换。但该方法过于依赖聊天语言语料库,虽然能较好解决奇异性问 题,但不能处理动态性问题。因此,我们进而以标准汉语语料库为基础建立文字语音映射 模型,对信源一信道模型进行改进最终有效解决了聊天语言的动态性问题。 参考文献 1 郭良0 5 年中国5 城市互联网使用现状及影响调查报告,中国社会科学院社会发展研究中心,2 0 0 5 2 E p s t e i n ME 1 9

11、9 6 S t a t i s t i c a lS o u r c eC h a n n e lM o d e l sf o rN a t u r a lL a n g u a g e U n d e r s t a n d i n g P h DT h e s i s N e vY o r kU n i v e r s i t y 3 G i a n f o r t e G 2 0 0 3 F r o mC a l lC e n t e rt oC o n t a c tC e n t e r :H o wt oS u c c e s s f u l l yB l e n d P h o

12、n e ,E m a i l W e ba n dC h a tt oD e li v e rG r e a tS e r v i c ea n dS l a s hC o s t s R i g h t N e w T e c h n o l o g i e s 4 H e a r d W h i t e “ G u n t e rS a u n d e r sa n dA n i t aP i n c e s 2 0 0 4 R e p o r ti n t ot h en s eo fC H A Ti n e d u c a t i o n F i n a lr e p o r tf o

13、 rp r o j e c to fE f f e c t i v eu s eo fC H A Ti nO n l i n eL e a r n i n g , I n s t i t u t eo fE d u c a t i o n U n i v e r s i t yo fL o n d o n 5 F i n k e l h o r ,D ,K J M i t c h e l l ,a n dJ W o l a k O n l i n eV i c t i m i z a t i o n :AR e p o r to nt h e N a t i o n sY o u t h A

14、l e x a n d r i a ,V i r g i n i a :N a t i o n a lC e n t e rf o rM i s s i n g E x p l o i t e dC h i l d r e n 2 0 0 0 ,p a g ei x 6 M c C u l l a g h ,D 2 0 0 4 S e c u r i t yo f f i c i a l st os p yo nc h a tr o o m s N e w sp r o v i d e db yC N E T N e t w o r k s N o v e m b e r2 4 ,2 0 0

15、4 7 】X i a 。Y a n dK - F W o n g 2 0 0 6 a A n o m a l yD e t e c t i n gw i t h i nD y n a m i cC h i n e s eC h a tT e x t I n P r o c o fE A C L 0 6N E WT E X Tw o r k s h o p 8 X i a Y K - F W o n ga n dw G a o 2 0 0 5 N I Li sn o tN o t h i n g :R e c o g n i t i o no fC h i n e s e N e t w o r kI n f o r m a lL a n g u a g eE x p r e s s i o n s 4 t hS I G H NW o r k - s h o pa tU c N L P 0 5 ,p p 9 6 1 0 2 9 X i a 。Y ,R 一F W o n ga n d - L i 2 0 0 6 b C o n s t r u c t i n gAC h i n e s eC h a tT e x tC o r p u s , i t hA T w o S t a g eI n c r e m e n

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号