信息检索方法与技术(04)2010ppt课件

上传人:aa****6 文档编号:54382180 上传时间:2018-09-12 格式:PPT 页数:60 大小:4.14MB
返回 下载 相关 举报
信息检索方法与技术(04)2010ppt课件_第1页
第1页 / 共60页
信息检索方法与技术(04)2010ppt课件_第2页
第2页 / 共60页
信息检索方法与技术(04)2010ppt课件_第3页
第3页 / 共60页
信息检索方法与技术(04)2010ppt课件_第4页
第4页 / 共60页
信息检索方法与技术(04)2010ppt课件_第5页
第5页 / 共60页
点击查看更多>>
资源描述

《信息检索方法与技术(04)2010ppt课件》由会员分享,可在线阅读,更多相关《信息检索方法与技术(04)2010ppt课件(60页珍藏版)》请在金锄头文库上搜索。

1、E不吴江宁大连理工火学管理科学与工程学院系统工程研究所2010年11月内容提要原理篇名。第四讲文本操作技术D英文词法分析一断词一词干提取D中文词法分析一最大匹配法一歧义词切分一未登录词识别D相关资源文本处理的吊污目LevelsofTextProcessingWordLevelSentenceLevelDocumentLevelDocument-CollectionLevelLinked-Documenit-CollectiohLeyelApplicationLevel举例烫_dog训chasinga_boyontheplaygroundLexicalDet“NounAuxVerbDetNoun

2、PrepDetNounanalysisAA人、一“parkofrspeechNounPhrasetagging)ComplexerbNounPhnaseF夕爬Ns一汀明|h二”聘一|SyptacticanalysistParsing)Semanticanalysisve巾PbraseDog(d1)S罄丨【mBoy(bl)Playground(pl)Chasing(dlblyplJ)透语言类型世界上的语言种类众多,每种语言又有各自的特点,比如汉语等一些亚洲语言的词与词之间没有分隔标志;英语等一些欧洲语言的词之间虽然有分隔,但词汇有丰富的变形信息;德语及一些东欧语言的语序极为自由,主谓宾(SVO)

3、的结构可以表达为SOV、VSO等多种形式;阿拉伯语及希伯来语的文本书写是混合方向的,教字从左向右排列,而文本则从右向左排列,如此等等、英语和汉语,因为这两种语言在互联网上使用得最多,而且属于两种比较典型的语言。互联网用户一亚洲InternetinAsia-2009Top10Countriesom盯Ew、InternetUsersinAsiaJ一国iAsiavs.World-2009w二En。e江国国205aw四国动晚pestormenaaene涛国zAn园国zSoucywwnentyonsasceniitsinomnn国国i61anaCopngie.tnwtsltatstngoeupe国国u已

4、国吊标标语贺锋标标柳cSoucewnemtetteosomsenimEamstdinatoowsntsai6455560rztaCopmihie6watsttatngop互联网用户一北美InternetUsersinNorthAmerica“ornAmerc,真省吴咤吴吴吴园园园吴园园国园园园4untedsu。E目吴吴吴吴吴园吴圆2Canada肉国圆zGreenland2J|05SaintplerreetMichelon|69E160150200250200MionsoruUsersSource:wwwintemetwonldstatscom248241.869estmatsdnemetuse

5、rsInNorfhAmeficaforJune2008Copyright2007,MiniwatsMarketngioup互联网用户一欧洲InternetTop10CountriesinEuropeJune2010ww一E.Eanown58E.pwUI.E一i人河浩国浩,Eu心N:nn团国国心un巳国u月万许根颖诊斧朗断颜新园语园cnSouceinonatendsas-wwnenteesascomsestiwngoa50884H8atmangiienatUaansnnoopeonJuna2020nCopmihie:010nwatstotstrooeu内容提要原理篇口渡讲文本操作技术D英文词法分析一斧词一词干提取D中文词法分析一最大匹配法一歧义词切分一未登录词识别D相关资源断词英文文本由包括空白符和标点的连续字符串构成。在对文本进行分析时,需要将文本标记为一系列的符号单元(token),该过程称为标记化(tokenization)。对不同的应用来说,符号单元可以是段落、句子、单词、音节、音位等。其中研究的最多的工作是以词为单位对文本进行切分,称为断词(wordtokenization)。虽然英文可以以空格这个天然分隔符作为词的边界,但仍然要面对由一些其他符号所引起的歧义问题。10

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号