中文信息处理概述

上传人:M****1 文档编号:569332387 上传时间:2024-07-28 格式:PPT 页数:45 大小:154.50KB
返回 下载 相关 举报
中文信息处理概述_第1页
第1页 / 共45页
中文信息处理概述_第2页
第2页 / 共45页
中文信息处理概述_第3页
第3页 / 共45页
中文信息处理概述_第4页
第4页 / 共45页
中文信息处理概述_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《中文信息处理概述》由会员分享,可在线阅读,更多相关《中文信息处理概述(45页珍藏版)》请在金锄头文库上搜索。

1、摊爬宫椅杆格剔韵挠幅浚酉氦嫉纠菜滚豁罐帘致鄂跨了帮应苛冕氦炒休呆中文信息处理概述中文信息处理概述中文信息处理概述中文信息处理概述For 对外汉语方向本科生块伸京候尝祝隐葱邱敢隆搀蕾糯嵌揪够内摧出洽帜咎泻罩鳃蕾聊惕胯钮或中文信息处理概述中文信息处理概述本章内容本章内容释名汉语的特点中文信息处理的难点 中文信息处理的研究内容 汉语信息处理的主攻方向 中文信息处理的发展阶段 中文信息处理的现状 对当前中文信息处理现状的哲学反思 目前国内中文信息处理的主要力量和代表人物 梳县孟窥暇帐贬批虾骸惹榆熏悦壕居酞锑识仙愤帆数舰股坠匣狗席兔牵颂中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语释名释

2、名中文信息处理中文信息处理(Chinese Information Processing) 中文信息处理分为汉字信息处理与汉语信息处理两部分,是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。 中文信息处理是一门与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相联系的边缘交叉性学科,是自然语言信息处理的一个分支。 汉字信息处理汉字信息处理(Chinese Character Information Processing) 用计算机对汉字所表示的信息

3、进行的操作和加工。汉语信息处理既立足于汉字信息处理,又区别于汉字信息处理。处理对象不再是单个的汉字或字符串,而是语言学的单位:词、短语、句子乃至篇章、文档集合。两者之间也有联系:拼音汉字转换、简繁转换、OCR 后处理、文献检索、语音识别与合成等等。制贴竹徽灭漾龟烛硝碉建问椅友萌询咒豆浩蹦等哮录啊敷轻玉大苫澄珠钵中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语释名Chinese Information Processing(CIP) 中文信息处理Chinese character Information Processing汉字信息处理CIP Chinese character (

4、IT) = Chinese ideograph (Sinology)Chinese language Information Processing汉语信息处理Language Information Processing 语言信息处理(1) NLP/ CIP(2) Chinese-centered Multi-lingual Information Processing以汉语为核心的多语言信息处理总紫射扰诣琐活滓皿节寻韩腔三颊滥句贞嘉咎翰协洞穷灰癌撂诡莉月篡步中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语汉语的特点汉语的特点-中文信息处理的难中文信息处理的难点点 汉语文字文本的

5、语言单位边界糢糊。词间无间隔人名、地名不大写句子之间界限不清晰汉字完全使用由象形文字演化而来的方块汉字;字是汉语表义的基本单位。一个汉字既可以只能作为构词成分,也可以独立成词,甚至可以独立成句揪谱哟哈尿睫江张穗穗凭挣毛渴脾据囱像绳炸弧钦醋煤沼式蘸亭窟抽徐料中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语汉语的特点汉语的特点-中文信息处理的难中文信息处理的难点点词语“词”无严格的形式定义,词本身也没有明显的形态标志词没有形态变化;词性兼类现象严重虚词常常省略,与实词形式上无区别词性与句子成分之间无一一对应关系,中心谓语动词难以确定多动词连用现象突出你蓬僵外亿脑棠霄色模睛甜捂慢园何篇

6、睬鞭燥宣辆纬肌硬点磺邓纵操如镶中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语汉语的特点汉语的特点-中文信息处理的难中文信息处理的难点点句子结构松散我上街买菜,看见一个人,穿着一件军大衣,打了卖菜的一巴掌,脸都肿了。语法灵活,即缺乏狭义的形态,汉语句子中各个成分之间的关系一靠词序,二靠“意合”,三靠虚词句子语序灵活,语句格式丰富语义灵活一方面语法的灵活主要来源于语义的灵活;另一方面同一结构可以表达不同的意思,同一意思可以用不同结构表达。兢棕寄引丰钙绕匙镣冲痹赴仲烂蔷弗剁咒糕诵籍呢锋沿俏樊失熟秧输窒矿中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语现代汉语研究现状现代

7、汉语研究现状-之于中文信息处理之于中文信息处理现代汉语研究和计算机使用的脱节,现代汉现代汉语研究和计算机使用的脱节,现代汉语研究已经大大滞后于中文信息处理的现实语研究已经大大滞后于中文信息处理的现实需求需求 一是过去的语言学知识主要是为人与人之间的交际服务的,不能完全适应人与机器的交流。二是过去对现代汉语的研究,基本上都是在研究印欧语的理论和方法的框架内进行,汉语有很多现象是这些理论和方法解决不了的。 汉语的计算机理解比西方语言的理解困难得多? 卤格履惧县荔辟状晤汐胆开钞悠丙棚诬怠凝档此晶孰味焉汁袒团犀辖名祟中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语中文信息处理的研究内容中

8、文信息处理的研究内容 研究对象:文字和语音研究对象:文字和语音 语言单位和层面:字语言单位和层面:字-词词-句句-篇篇 基础研究基础研究基础理论:语言学基础理论:语言学基础方法基础方法 人工智能:知识工程,机器学习,模式识别,神经计算人工智能:知识工程,机器学习,模式识别,神经计算 数学:数学: 模型理论,形式化理论,数理统计模型理论,形式化理论,数理统计基础技术基础技术基础资源基础资源基础系统基础系统/平台平台应用研究应用研究应用技术应用技术应用资源应用资源应用系统应用系统/平台平台落凝痰设累朋剃疵枫袭勤俊菊颠狡洋表溪蓝奏栋咏虾侯岩遥效瘪叫犬滁馈中文信息处理概述中文信息处理概述对外经贸大学中

9、文学院.对外汉语研究对象研究对象文字文字汉字键盘输入技术汉字键盘输入技术汉字输入技术汉字输入技术软件汉化技术软件汉化技术汉字字形识别技术汉字字形识别技术激光照排技术激光照排技术文本分类文本分类信息检索信息检索语音语音汉语语音识别技术汉语语音识别技术汉语语音合成技术汉语语音合成技术陷阳住助台稚台躬痪许澎颤硒熙瑞沙王沫撩扬器煎蹿蹈貉诣顿谬邱处功津中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语语言单位和层面语言单位和层面字字汉字编码技术汉字编码技术汉字输入技术汉字输入技术汉字字形和字形库管理技术汉字字形和字形库管理技术汉字输出技术汉字输出技术词词汉语分词汉语分词句篇句篇中文信息检索中

10、文信息检索中文信息抽取中文信息抽取中文文本分类技术中文文本分类技术妈祟篇慎谬官美爷涎瑟醉碑烙曝硅切鞘焕湛吮银话掘梅做轰练迂逃坤纽输中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语汉语信息处理的主攻方向汉语信息处理的主攻方向两个实例两个实例 两个实例两个实例实例一实例一关于自动升降晾衣架的对话关于自动升降晾衣架的对话妻子:妻子:“嘿,过了一年才坏。嘿,过了一年才坏。”丈夫:丈夫:“什么呀,才一年就坏了。什么呀,才一年就坏了。”丈夫理解了妻子的意思吗?丈夫理解了妻子的意思吗?虚词词义:才(数量词前后,意义不同)背景知识:保修期知识激活机制?敝登曼剃酥邹炭良枯期叭刺隅钙革贪我暴事悟捅廉

11、互侍讼震卡雄逻腻谓岂中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语汉语信息处理的主攻方向汉语信息处理的主攻方向两个实例两个实例 实例二关于“沙漠化”的文章“几年前由于种植籽瓜有利可图,使大批的种植者就到过渡带来开垦,。在这样的绿洲和沙漠过渡带开垦,极易造成风蚀。”2001年9月号就/ 到/ 就到/ 到/ 到过/ 过/ 过渡/ 带/ 来/ 带来/未登录词的识别知识背景认知机制杨猿涣桑逾宇铸讹崇啼泽吾糖绳绚慈蓉煌堤犊阴帚服赏冕伞邱拯捕敏誊格中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语汉语信息处理的主攻方向汉语信息处理的主攻方向歧义消解歧义消解词的切分词的切分白天鹅

12、白天鹅计算机程序可以按某种算法实现这种切分,计算机程序可以按某种算法实现这种切分,给出一种或多种结果。对否?给出一种或多种结果。对否?白天鹅飞过来了白天鹅飞过来了白白/ 天鹅天鹅/ 飞飞/ 过来过来/ 了了白天鹅可以看家白天鹅可以看家白天白天/ 鹅鹅/ 可以可以/ 看看/ 家家/白天鹅在湖里游泳白天鹅在湖里游泳白白/ 天鹅天鹅/ ?白天?白天/ 鹅鹅/ ?白天鹅/白/ 天鹅/白天/ 鹅/白/ 天/ 鹅/撬概蒜疼桥摇驭娩伪漠揩宴删栗只鹊双存喂响注莱谤猖完涤郸峦韧文混示中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语汉语信息处理的主攻方向汉语信息处理的主攻方向同形词辨析只这只会测水温

13、的鸭子这/r 只/q 会/v 测/v 水温/n 的/u 鸭子/n , 挺有用的这/r 只/d 会/v 测/v 水温/n 的/u 鸭子/n ,没什么用这/ 只/ 会/ 测/ 水温/ 的/ 鸭子/ (切分无歧义)量词q zhi1 ?副词d zhi3?宪检砧障库赌溯外喝恫胆耻奢醇钠谋精烂雀颤衍凳渊宵挺瘩赏垛漆督奢座中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语汉语信息处理的主攻方向汉语信息处理的主攻方向词性歧义读音相同的“连”也有不同的词性(意义):一个连有三个排“连”是名词n我们兄弟心连心“连”是动词v苹果可以连皮吃“连”是介词p俘柏姑猖静叫蛰讨耶扑贿鹏珍轩崇匠莎壶渤兔撰盟颠熙肿料

14、秤萄廉尚怒在中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语汉语信息处理的主攻方向汉语信息处理的主攻方向词义辨析讲真话讲卫生中国队大胜/败美国队。对外经贸大学两个灯只亮一个,不过就是亮两个也不亮。询谊侩倪砍炉定魏主孜拣传羚闽欧叙隔赛悬陌碴臭舱韭磕跑杜肌辩捷稼窗中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语汉语信息处理的主攻方向汉语信息处理的主攻方向短语结构歧义m + q + n + “的” + n三个大学的老师三/m 个/q 大学/n 的/u 老师/n 三/m 个/q 大学/n 的/u 老师/n 三/m 个/q 大学/n 的/u 老师/n 三所大学的老师 三/m

15、所/q 大学/n 的/u 老师/n 三位大学的老师 三/m 位/q 大学/n 的/u 老师/n 小王和小李的妹妹李娜和郑洁的老公都是教练。扣栈藐慢宽乱偷濒楷疟瞬孙琴咋审宜束氖颧淤哉沽贞侯烫共躇鲁摘腆亚疽中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语汉语信息处理的主攻方向汉语信息处理的主攻方向句法结构歧义例1 会员选举他当主席例2 学生认为他是校长n+v+r+v+n 筑翼特嚎棍涵至与将桨蛇惧戮难峻涡枫岿帐船拂瞻死官个沛渤咏涩狡崇指中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语汉语信息处理的主攻方向汉语信息处理的主攻方向语义歧义以及依赖语境的歧义消解语义歧义以及依赖

16、语境的歧义消解汉语语义分析(切分、标注、句法分析都无歧义)汉语语义分析(切分、标注、句法分析都无歧义)熊猫熊猫/n 吃吃/v 竹笋竹笋/n学生学生/n 吃吃/v 食堂食堂/n民工民工/n 吃吃/v 大碗大碗/n老师老师/n 写写/v 毛笔毛笔/n汉语语义指向分析汉语语义指向分析写写/v 好好/a 了了/u (文章)(文章)写写/v 累累/a 了了/u (老师)(老师)写写/v 秃秃/a 了了/u (毛笔)(毛笔)汉语语境分析汉语语境分析小张小张/n 打针打针/v 去去/v 了了/u北京的春天来了北京的春天来了惰辗助阴岸咒檀铂馋继垄痢楔检炽笔肘昨馈筛陛皖副迫扯奖廖袭鉴荔搔霞中文信息处理概述中文信

17、息处理概述对外经贸大学中文学院.对外汉语汉语信息处理的主攻方向汉语信息处理的主攻方向长句与句号、逗号 中文中常有长句子,一逗到底。例:“新一届测绘学名词审定委员会的主要特点是年青化,吸收了一些工作在教学、科研前沿的青年专家学者,充分发挥他们接触新知识多,对工作热情高、活力大的特长,同中老年专家共同做好新一届委员会的名词审定工作。”形式上的一句话包含100多个汉字。除第一个分句外,后面的分句都没有主语。1. 你得藏在一个你看得见他,可是他看不见你的地方。2. 车臣武装分子和世界其他地区的恐怖分子是一丘之貉,应该合力打击他们。芬亭腑抬害令慧陷聂腕狂姿责峭氰赛咽赦劣根墓耘阐意堕捐谨粤藕德鸥醚中文信息

18、处理概述中文信息处理概述对外经贸大学中文学院.对外汉语汉语信息处理的主攻方向汉语信息处理的主攻方向指代与省略小明要求他爸爸给他弟弟买一件他喜欢的衣服,他同意了。重庆队得88分,客场负于台湾队2分。时态、语态、语气 我在家里。(be)我在家里看书。(in)我在看书。(ing)你在干什么?看书。你喜欢干什么?看书。如果我是你,我就去了。如果我有时间,我就去。滤逐专更赎粳遮砾遵柬筐慎幕动莉栏掀遮注帅牌吃齐厉也拒者蹿啸间乍旗中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语中文信息处理的发展阶段中文信息处理的发展阶段字处理字处理词处理词处理句处理句处理篇章处理篇章处理汉字编码汉字输入汉字显

19、示字频统计l l l 句模研究句型研究句义理解l l l 语境萃取舆情监控热点分析l l l l l l 分词规范词的切分词频统计词性标注词义标注短语捆绑专名识别新词发现楷皆熟拯阜湖桐惧叶欢瞄吉嚎轩她低鸭渡埋害蛊菱垃忆速砚峡稼蟹毫住坏中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语中文信息处理的发展阶段中文信息处理的发展阶段学习和理论探索的萌芽阶段汉字信息处理为主的早期阶段字、词等表层处理为特征的初级阶段句法和语义等深层处理为代表的中期阶段语料库统计方法兴起的近期阶段以Internet为主要应用对象,大规模真实文本,智能信息访问的现阶段畴凳争孩椎转节坍漏邯邓艘滓却酋捕创荣灼湘碱淘

20、汲撼努遇筒齿驰旅鸡哩中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语学习和理论探索的萌芽阶段学习和理论探索的萌芽阶段 这一阶段以介绍国外计算语言学领域的理论方法为主。对国外相关领域的介绍,理论内容相对较少,主要偏重在各种上机实现的系统方面。范继淹、徐志敏、李家治、陈永明、冯志伟等人的介绍及其所研制的实验系统报告,是这方面的代表。早期将国外的理论方法进行全面系统汉化的主要刊物有:86年底创刊的中文信息学报,语言学界的国外语言学和语言文字应用。学者们在介绍国外先进的理论和方法同时,也有不少人结合汉语自身的特点,对这些理论和方法做了深入一步的探索,极少数人对自然语言理解做了深层次的带有

21、哲学色彩的思考,如:80年代中期宁春岩发表的自然语言理解中的几个根本问题,以及他译介的美国哲学家休伯特.德雷福斯(Hubert L.Dreyfus)的专著计算机不能做什么人工智能的极限,语言学界袁毓林1993年发表了自然语言理解的语言学假设。这些早期的的研究和探索对确立中文信息处理的宏观格局起到了决定性的作用、奠定了中文信息处理后期的理论基础。堕篆蔼叮灰尉彤冯簧颂隘螟贷穆秩拦寇空脯肥烛榷篱扎肋初奎病沪哎琼搀中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语汉字信息处理为主的早期阶段汉字信息处理为主的早期阶段 1974年周恩来总理亲自批准了“七四八”工程,它标志着计算机中文信息处理技

22、术受到了国家高度重视并且进入了他的第一个发展阶段汉字信息处理时代。涌现出多种汉字输入编码方案,能满足多种现实需要。王选教授等发明的汉字字库的信息压缩技术使汉字文献的印刷出版告别铅与火,进入电子时代。囱元屋潜狗卯鸥穆舱战揭胰泼函抄询绣歹鸯逢初十螟陇胚驻溢抛尚牌救唱中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语“七四八七四八”工程工程是国家重要工程项目“计算机汉字信息处理系统工程”的简称,因为该项目是1974年8月由新华社、四机部等五部委共同申请而立项的,所以简称“七四八”工程。1975年北京大学王选教授的汉字信息处理思想得到国家确认,在北大成立“七四八”工程会战组,由王选教授负责

23、进行“计算机汉字激光照排系统”的研制,使“七四八”工程进入实质性实施阶段。“七四八”工程标志着计算机中文信息处理技术受到了国家高度重视并且进入了它的第一个发展阶段汉字信息处理时代,从而划时代地使汉字文献的印刷出版告别铅与火,进入电子时代。擦掂演猜然苹泳兆驴盔伴盈竟攀岔致镁猴擦储舒鳃汞位卿生夫技漫贾弛混中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语字、词等表层处理为特征的初级阶段字、词等表层处理为特征的初级阶段 北京大学开发的华光排版系统被评为1985年中国十大科技成就之一,并荣获中国发明协会发明奖。“六五”期间(19811985),北京航空学院主持,中国人民大学等十几个院校,研

24、究机构参加的“现代汉语词频统计”工程是这一阶段代表性的重大科研成果,这是国内首次使用计算机进行大规模语料(2000万字)的词频统计研究的大型语言工程。第一个汉语自动分词系统CDWS,建立了一个有13万余词条的计算机词典,研制了一个有52个属性的汉字信息库。“七五”期间(19861990),建立了功能完备、实用有效的“汉字属性系统”,编篆并出版了汉字属性字典。1988年初,北京航空航天大学在承担国家“七五”科技攻关项目信息处理用规范现代汉语词库的同时,提出并经过了三年的努力,汲取了语言界和计算机界数百名专家的宝贵建议和意见,最终制定了信息处理用规范现代汉语分词规范,从计算机工程应用的需求出发,解

25、决了语言学界争论了几十年而未解决的汉语的词的定义问题。为我国从汉字处理进入词语、语句处理打下了基础。苛筋帝母警甘义哲苑壬淀互吩毫宏肋性同擒增剁输弄迢砌铆修重布勺警渍中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语句法和语义等深层处理为代表的中期阶段句法和语义等深层处理为代表的中期阶段 电子部计算机与微电子发展研究中心(CCID)联合国内从事中文信息处理的主要单位,从信息处理用汉语语法、语义体系的应用研究着手,以中文信息处理产品的智能化为目标,组织实施了并形成了一个完整的中文信息处理应用平台工程。从80 年代开始,在借鉴国外的自然语言语义理论的基础之上,先后提出了一系列符合汉语特点

26、的语义分析方法和语义表示理论。 汲献豹墨该汗儿猿霉伊丁盾褒睛庇驭蚂丧静刮赣皖去狄抄诧晰煽悲铅吞赤中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语语料库统计方法兴起的近期阶段语料库统计方法兴起的近期阶段 语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。在这种工作中逐渐创造了一整套完整的理论和方法,形成了一门新的学科 语料库语言学(corpus linguistics),并成为了自然语言处理的一个分支学科。 国内涌现出一大批语料库,包括中文生语料库、词语语料库、句法语料库 ;也包括口语料库、对比语料库、少数民族语料库等。握染组焙姐号

27、嫡末蚜狭缓冶前布熬泞围贮门甄掖歇孔裂嫌停据晃淌皖午孩中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语以以Internet为主要应用对象,大规模真实文本,为主要应用对象,大规模真实文本,智能信息访问的现阶段智能信息访问的现阶段 人们在享用Internet带来的各种便利的同时,却又被如何从浩如烟海的网上资源中,如何快速、高效的查找自己的信息所困扰,典型的主要需求有信息分类、信息提取、自动问答、基于内容的快速信息检索、基于个性的信息推送,数字化图书馆和信息网格等。中文信息处理技术必须解决网络环境下的、大规模的、信息(文本或语音)智能访问、加工处理、自动分析理解。 陡扫窃人坤漏妈稀逃耐切

28、色衔氦湿撰针债置苑约瓤反谤叔吹闺吝妊猾恢辖中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语中文信息处理的现状中文信息处理的现状三个流派三个流派 中文信息处理的流派和策略当前的中文信息处理领域的科技攻关项目都是以解决计算机对自然语言进行理解的问题,也就是以开发智能型的汉语分析系统为奋斗目标的。当前的中文信息处理需要以词义为基础,与句法分析相结合,以句为处理对象,寻找突破。根据指导理论和研究方法的不同,目前国内中文信息处理领域可以分为三个流派。传统计算语言学以传统计算语言学为基本理论的,主要从词素分析入手,遵循词短语(词组)语段句子的基本研究思路。这一流派的种种理论和方法都是以经验主

29、义的研究方法,也就是以语料统计为基础的。在这个基础上又结合了一些语言规则。脸忻简呀懊弟毫丙茵尊篓恍毒按缺捂璃壳硅傅婚信小册第阁贸嘎咏服役损中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语中文信息处理的现状中文信息处理的现状三个流派三个流派HNC理论中科院声学所黄曾阳创立的概念层次网络理论,即HNC理论。这一理论的的新意在于直接从语言深层入手,以语义表达为基础,把自然语言所表述的知识划分为概念、语言和常识三个独立的层面,建立具有语义完备性的词汇层面的表述模式和句子层面的表述模式。 HNC理论认为,自然语言理解的过程就是概念联想脉络激活、扩展、浓缩、转换与存储的过程。因此,HNC设计

30、了局部联想脉络来解决词汇层面的问题,设计了全局联想脉络来解决句类和语义块的问题。 传统语义取自词典,HNC语义取自训诂 绕烦舟酞设氢忽税嚎楚煮焊尧镍频距雏锨旭萄荧瑰茄楚趣鸵裴渔爹晋措湃中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语中文信息处理的现状中文信息处理的现状三个流派三个流派基于内涵模型论的语义分析 谋求在一个逻辑语义框架内来分析词汇及其分类,只要能明白句义,不必过于精细,也就是用逻辑框架来处理词汇理论。代表人物是上海交大陆汝占教授。亏冉祷酒戎打捎柿匝加灭灯长候蔫廓穷洁噪依死渣洽促箕必摸沼洗釜拔玉中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语中文信息处理的

31、现状中文信息处理的现状统计方法的不足统计方法的不足对统计研究方法的认识对统计研究方法的认识 统计和语料库的思想促使语言研究者从对有限语言现象的内省式研究转到对大规模真实语言现象的研究,无疑对词频统计、词语搭配、信息检索与信息抽取等方面的研究有重大意义,因而有学者称其为中文信息处理领域的主流技术。 统计方法适用于对随机性过程的描述,而语言作为符号序列是随机性和确定性并存的过程,对此种过程中的跳变现象统计方法无能为力 统计NLP的理论本质行为主义,早已被心理学研究所否定,儿童并非纯粹依靠模仿习得所有语句 统计方法无法应对小概率事件,统计过程中平滑手段的注入无法从根本上解决数据稀疏问题 统计方法强依

32、赖于语料库,统计NLP的效果与语料库的性质和质量密切相关,而语料库的规模、平衡性、加工深度等诸多问题并没有一个客观统一的评测标准 盯混俘连数噎瞻楔脏且晚茸与俞氰讲娄兄叹兰碰招奠熔楷防悦德裤云宠鹏中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语中文信息处理的现状中文信息处理的现状当前中文信息处理的特征当前中文信息处理的特征 统计与规则结合以实用的智能化系统为目标,以大规模语料测试为评价目标 基础理论研究与实用系统并重面向Internet的大规模真实文本的智能信息访问 基于内容的搜索引擎 代表性的系统有北京大学天网,计算所的“天罗”,百度,慧聪等公司的搜索引擎信息自动分类,自动摘要,

33、信息过滤等文本级应用如上海交通大学纳讯公司的自动摘要,复旦大学的文本分类,计算所基于聚类粒度原理VSM的智多星中文文本分类器 信息自动抽取,即将Internet上大量的非结构化的信息,抽取出格式化的数据,以备进一步的搜索应用 自动问答,机器翻译等需要更多自然语言处理和理解的应用 蔬梭靖沮杭钻荧俩泛惶渠哗仗盯俊逢茎淹村寒沃糙拷没侯革篓歼抠蒸忱负中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语中文信息处理的现状中文信息处理的现状-中文信息处理技术发展的问题与应对中文信息处理技术发展的问题与应对 汉语言学家没有为中文信息处理作好语言分析的准备,长期以来,对汉语的研究方法基本上是例举性的

34、,而非穷尽的;材料和对象基本上是书面的,而非口语的。中文信息处理研究力量分散而且存在着低层次重复、缺乏统一规范和标准的问题。现代汉语研究领域和计算机领域的隔绝状态没有出现根本性的改变。吵嘛狐痔桩刷锗疼罪沃厦蓟筒逞夏采诫牟演凹溢丫考外涌源寝缅颖敞铀僳中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语对当前中文信息处理现状的哲学反思对当前中文信息处理现状的哲学反思理性主义与学科理性主义与语言学理性主义与中文信息处理以有限驾驭无限彻十兑狭姨踏拧邮屡商吗砚缄秽霹榔炒府蓉怕胖将帐敷晦任械陡傈雅躬削中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语“汉语信息处理汉语信息处理” 在研

35、究什么在研究什么?实用系统:实用系统:(1)人工系统的自然语言界面(问答系统)(2)机器翻译与机器辅助翻译(3)信息检索、信息提取与搜索引擎(4)文本管理(文本分类与聚类、文献摘要与述评、OCR后处理)(5)词典计算机辅助编纂(6)领域知识工程(术语提取、知识元数据库、百科全书编撰)(7)语音接口技术(语音识别的后处理、语音合成的预处理)(8)自然语言处理系统评测技术(9)面向语言本体研究与语言教学的应用滴旦谁夸金沧唬旗弗陵嚼舔婿幽歉霓撒漓崔皑迁麦癣毅磐塞土眷喂鸿哈穿中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语目前国内中文信息处理的目前国内中文信息处理的主要力量和代表人物主要

36、力量和代表人物 北大:计算语言学研究所:俞士汶、常宝宝、段慧明中文系:陆俭明、詹卫东、袁毓林清华:智能技术与系统国家重点实验室:孙茂松、周强、陈群秀、张敏中文系:黄河燕北语:应用语言学研究所:张普、徐娟、杨尔弘语言信息处理研究所:宋柔对外汉语研究中心:邢红兵、郑艳群中科院声学所:黄曾阳、张全、晋耀红北师大:中文信息处理研究所:苗传江中科院计算所:白硕、孙乐、刘群簿挚乡畜液怎腻悟侨旷槛邱阐娃萎瞪稳曹抿秤焰烧桓袜更响条犬酮猴氨翠中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语目前国内中文信息处理的目前国内中文信息处理的主要力量和代表人物主要力量和代表人物中科院自动化所:模式识别中文信

37、息学会:曹右琦、陈群秀国家语委:冯志伟、靳光瑾、肖航上海交大:陆汝占哈工大:李生、刘挺山西大学计算机系:刘开瑛南师大:陈小荷记峙辱酥裁饭绎彪膊椰烧栈炮瘪糠沿帜迫餐撮肖月但争雇胎叠凌绵瑶添讽中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语目前国内中文信息处理的目前国内中文信息处理的主要力量和代表人物主要力量和代表人物武汉大学:语言与信息研究中心萧国政鲁东大学:亢世勇人民大学:张卫国微软研究院:自然语言处理小组:黄昌宁知网:董振东汉语意合网络:鲁川全国计算语言学联合学术会议刨晃黑拓敞假芍等施肾烹咙侦漳全饼要言兴僳同支曙戴派架坊诲犊盘事铸中文信息处理概述中文信息处理概述对外经贸大学中文

38、学院.对外汉语本章参见本章参见百度百科中文信息处理、汉语信息处理黄曾阳. HNC(概念层次网络)理论. 清华大学出版社,1998.黄曾阳. 语言概念空间的基本定理和数学物理表示式. 海洋出版社,2004.陆汝占,靳光瑾. 现代汉语研究的新视角. 语言文字应用. 2004.2.许嘉璐. 现状和设想试论中文信息处理与现代汉语研究. 中国语文. 2000.6.许嘉璐. 研究中文信息处理,需要仰望一下天空. 语言文字应用,2006.2.许嘉璐. 语言学研究与中文信息处理. 中文信息,1997.3许嘉璐. 中文信息处理技术现状及相关语言文字研究. 软件世界. 1996.4.许嘉璐. 语言文字学论文集.

39、商务印书馆,2005.许嘉璐. 中文信息处理若干重要问题序. 中文信息处理若干重要问题.科学出版社. 2003.张华平. 中文信息处理技术发展简史钟义信. 自然语言理解的全信息方法论. 北京邮电大学学报. 2004.4崩卧拓鹊馈肚涯华耍殉先现歇肯缘峙迭崩痴符歇覆大雨笔屋年粉疟蛙斧汲中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语思考题思考题名词解释:中文信息处理名词解释:七四八工程名词解释:字处理名词解释:词处理名词解释:句处理中文信息处理和汉语信息处理两个名称有什么区别?从汉语本身考虑,中文信息处理的难点有哪些?中文信息处理可以分为哪几个发展阶段?从处理对象的角度考虑,中文信息

40、处理可以分为哪几个阶段?列举目前的中文生语料库、词语语料库、句法语料库。简介许嘉璐关于中文信息处理领域的流派说。基于统计的研究方法存在哪些不足?当前中文信息处理有哪几个主要特征?简介中文信息处理领域当前重大的基础理论研究成果。黄昌宁先生提出的我国当前计算语言学在基础理论方面面临的两个重大的前沿课题是什么?简介董振东先生对于中文信息处理研究的设计。标厚晋碍洋踞汾馒纲绿戮颐先硝姓毋息悼趣璃淋休姥励天蕾蜀湾贼橱东蓟中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语作业作业软件体验:BMViavoice使用体验(可使用麦克风的台式电脑可以使用麦克风或自带麦克风的笔记本电脑)手机手写输入方式体验手写板键盘体验用OCR操作pdf文档体验四角号码字典催颖庐及杜鳖亩止醉发弹缠磺冷盅跃家溺确轮霉梁婿糕枕越战尔鳃应唾杠中文信息处理概述中文信息处理概述对外经贸大学中文学院.对外汉语

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号