新词发现找出组成新词的字符串

上传人:re****.1 文档编号:577443382 上传时间:2024-08-21 格式:PPT 页数:24 大小:314.31KB
返回 下载 相关 举报
新词发现找出组成新词的字符串_第1页
第1页 / 共24页
新词发现找出组成新词的字符串_第2页
第2页 / 共24页
新词发现找出组成新词的字符串_第3页
第3页 / 共24页
新词发现找出组成新词的字符串_第4页
第4页 / 共24页
新词发现找出组成新词的字符串_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《新词发现找出组成新词的字符串》由会员分享,可在线阅读,更多相关《新词发现找出组成新词的字符串(24页珍藏版)》请在金锄头文库上搜索。

1、New Words Detection in Chinese Text OutlineslDefinitionlDifficultieslApproacheslSummary 2024/8/212Li Baoli, ICL, Peking UniversityDefinition新词发现:新词发现:找出组成新词的字符串;确定其句找出组成新词的字符串;确定其句法、语义类别;法、语义类别;新词:新词:在某(个、类)语汇中出现的、存在于在某(个、类)语汇中出现的、存在于某个时间段的、未被收录于现有词典的词语;某个时间段的、未被收录于现有词典的词语;l参照物:参照物:某一词典、一些词典或所有现有词典某

2、一词典、一些词典或所有现有词典 ;l语汇:语汇:1991年年2000年十年的人民日报、年十年的人民日报、1998年全年的人年全年的人民日报、一篇文档;专业文献集合(如信息科学技术),专业术语也是一民日报、一篇文档;专业文献集合(如信息科学技术),专业术语也是一种新词种新词; ;l时间段:时间段:出现在某一时间段内或自某一时间点以来所首次出现出现在某一时间段内或自某一时间点以来所首次出现2024/8/213Li Baoli, ICL, Peking UniversityCategories of New WordslSyntactical FunctionNoun:斑竹、大虾、面瓜、菜鸟、美眉、

3、陶吧、斑竹、大虾、面瓜、菜鸟、美眉、陶吧、911、九一一、北航空难、九一一、北航空难、5.7空难空难Verb:打的、埋单打的、埋单/买单买单Adjective:酷、小资、爽酷、小资、爽。lSemantic时间、地名、人名(拉丹)、组织机构名(基地)、时间、地名、人名(拉丹)、组织机构名(基地)、商标、公司名、电话号码、电子邮件地址商标、公司名、电话号码、电子邮件地址等等等等lDomain or Subject信息技术(话题识别与跟踪、信息抽取)信息技术(话题识别与跟踪、信息抽取)政治(三个代表、十六大)政治(三个代表、十六大)经济(牛市、熊市)经济(牛市、熊市)。2024/8/214Li Ba

4、oli, ICL, Peking UniversityDefinition Given by Chen Keh-Jiann lA word is considered as an unknown word, if neither it is in the CKIP lexicon nor it is identified as foreign word (for instance English) or a number. 3lOne question? 外来词(如英文单词、不同編碼的漢語外来词(如英文单词、不同編碼的漢語詞語)是否也是一种新词?詞語)是否也是一种新词?如,如,“让我让我loo

5、k一下一下”、“我们都应当讲禮貌我们都应当讲禮貌” 2024/8/215Li Baoli, ICL, Peking UniversityDifficulties (1/2)l汉语文本中,词与词之间没有空格符分汉语文本中,词与词之间没有空格符分隔;隔; l某些词语数量巨大,无法枚举,难以全某些词语数量巨大,无法枚举,难以全部收录在词典中;部收录在词典中; l没有简单的规则能够覆盖各种类型的新没有简单的规则能够覆盖各种类型的新词词;l新词首次出现后往往采用缩写形式新词首次出现后往往采用缩写形式;2024/8/216Li Baoli, ICL, Peking UniversityDifficulti

6、es (2/2)l目前的自然语言处理技术往往以单句作为一个目前的自然语言处理技术往往以单句作为一个处理单位,不保留篇章信息;处理单位,不保留篇章信息;“而更令现代人自信的是对质量的有效控制,而更令现代人自信的是对质量的有效控制,”l表达形式多样(全称与简称(表达形式多样(全称与简称(IBM与国际商用与国际商用机器公司),译词选择不同);机器公司),译词选择不同);“贝克汉姆贝克汉姆碧咸、拉登碧咸、拉登拉丹拉丹本本 拉登拉登” l在短的文本中进行的联机识别尤其困难,因为在短的文本中进行的联机识别尤其困难,因为简单的统计方法很难识别出低频的新词;简单的统计方法很难识别出低频的新词; 2024/8/

7、217Li Baoli, ICL, Peking UniversityAn Sample Text一个一个11岁学生写的岁学生写的“字母字母+数字数字+汉字汉字”的的大杂烩日记:大杂烩日记:“昨晚,我的昨晚,我的JJ(姐姐姐姐)带着他的青蛙带着他的青蛙(丑陋丑陋的的)BF(男朋友男朋友)到我家来吃饭。在饭桌上,到我家来吃饭。在饭桌上,JJ的的BF一个劲儿地对我妈妈一个劲儿地对我妈妈PMP(拍马屁拍马屁),说她年轻的时候一定是个漂亮,说她年轻的时候一定是个漂亮MM(美眉美眉)。那酱紫。那酱紫(样子样子)真是好真是好BT(变态变态),7456(气死我了气死我了)” 2024/8/218Li Bao

8、li, ICL, Peking UniversityEvaluation Resultsl1995年、年、1998年年863项目汉语文本自动切词评项目汉语文本自动切词评测测: :中国人名:召回率中国人名:召回率68%68%、准确率、准确率91%91%(F-1F-1指数指数=78%=78%)中国地名:召回率中国地名:召回率60%60%、准确率、准确率69%69%(F-1F-1指数指数=64%=64%)外国译名:召回率外国译名:召回率78%78%、准确率、准确率82%82%(F-1F-1指数指数=80%=80%)AVERAGE: 74%AVERAGE: 74% lMUCMUC中关于中文命名实体的评

9、测:中关于中文命名实体的评测:MUC6MUC6(19951995年年9 9月)系统的月)系统的F-1F-1指数指数85%85%MUC7MUC7(19981998年年4 4月)系统的月)系统的F-1F-1指数指数91%=2)及数字、西文字符及数字、西文字符等一切非汉字字符去掉,均以空格代替;等一切非汉字字符去掉,均以空格代替;B.B.这样文档被表示成含有许多空格和汉字的字符串,从其首端向这样文档被表示成含有许多空格和汉字的字符串,从其首端向尾部扫描,以连续的尾部扫描,以连续的2 2个汉字作为匹配字串,查找候选词条集,个汉字作为匹配字串,查找候选词条集,若有,则频度加一,否则加入,频度置一;若有,

10、则频度加一,否则加入,频度置一; C.C.重复进行,直至字符串末尾;重复进行,直至字符串末尾; 2024/8/2113Li Baoli, ICL, Peking UniversityN元递增分步算法(2/3)l过滤:过滤:A.A.“功能字功能字”、“功能词功能词”的剔除;的剔除;B.B.频度过滤(频度过滤(1):):“偶然型偶然型”噪声字串的频度大多为噪声字串的频度大多为1或或2;1.“N N元重叠元重叠”过滤:过滤:1 1、“手提电脑手提电脑”覆盖覆盖“手提电手提电”“ 提电脑提电脑”2 2、频率相减法、频率相减法 2024/8/2114Li Baoli, ICL, Peking Unive

11、rsityN元递增分步算法(2/3)(Cont.)l频率相减法:计算长字串频率相减法:计算长字串N元组元组Y的频率的频率PL(Y) 减去减去 短字串短字串N元组元组X的频率的频率PL(X),建立规则:建立规则: R1:若差值若差值=0,则说明,则说明X每次均出现在每次均出现在Y中,中,则将其去除;则将其去除; R2:若差值若差值0,则说明,则说明X也作为也作为N元组单独出元组单独出现,则将现,则将X保留,且保留,且PL(X)=PL(X)-PL(Y); R3:若差值若差值0且且PL(Y) 给定阈值(给定阈值(40)的汉字串被认为必定是词)的汉字串被认为必定是词, ,存入存入临时词库中临时词库中;

12、 ; l每个不被任何其他汉字串完全覆盖且频度大于阈值每个不被任何其他汉字串完全覆盖且频度大于阈值H(2)的汉字串被视为潜在的候选词的汉字串被视为潜在的候选词; ;2024/8/2120Li Baoli, ICL, Peking University串频统计和词形匹配相结合的汉语自动分词基本过程(3/3)l分词:分词:同时借助各短串末尾的候选词集(局部信息)、临时同时借助各短串末尾的候选词集(局部信息)、临时词库中的词条(全局信息)和一部含词库中的词条(全局信息)和一部含5000常用词的词典(背景信常用词的词典(背景信息),对汉字短串进行切分。息),对汉字短串进行切分。l分两步完成:分两步完成:

13、 将临时词库及候选词集中的词语按权值降序排将临时词库及候选词集中的词语按权值降序排列,采用列,采用逐词遍历法逐词遍历法进行切分;进行切分; 利用一部小型常用词词典(信息处理用现代利用一部小型常用词词典(信息处理用现代汉语五千词表汉语五千词表+少量高频单字)对短串中为少量高频单字)对短串中为做标记的子串进行做标记的子串进行正向最大匹配法正向最大匹配法分词;分词; 2024/8/2121Li Baoli, ICL, Peking UniversitySummarylDifficult, Need further studylNo Wait, Try to use this technologylI

14、ntegrating it into practical NLP system2024/8/2122Li Baoli, ICL, Peking UniversityReferencesl刘开瑛,专有名词与网络词语识别软件技术研究,中国中文信息学会二十周年学刘开瑛,专有名词与网络词语识别软件技术研究,中国中文信息学会二十周年学术会议论文集(辉煌二十年:术会议论文集(辉煌二十年: 曹右琦),北京,曹右琦),北京,20012001年年1111月,月,7-137-13 l刘挺刘挺 吴岩吴岩 王开铸,串频统计和词形匹配相结合的汉语自动分词系统,中文信息学王开铸,串频统计和词形匹配相结合的汉语自动分词系统

15、,中文信息学报,第报,第12卷第卷第1期,期,1998 lKeh-Jiann Chen and Wei-Yun Ma, Unknown Word Extraction for Chinese Documents, In Proceedings of the 19th International Conference on Computational Linguistics (2002) P.169-175 lChen H.H., Ding Y. W., Tsai S. C., and Bian G. W., Description of the NTU System Used for MET2

16、, In Proceedings of the Seventh Message Understanding Conference, 1998 lYu Sh.H., Bai Sh.H., and Wu P., Description of the Kent Ridge Digital Labs System Used for MUC-7, In Proceedings of the Seventh Message Understanding Conference, 1998l刘开瑛,中文文本自动分词和标注,北京:商务印书馆,刘开瑛,中文文本自动分词和标注,北京:商务印书馆,2000 2024/8/2123Li Baoli, ICL, Peking UniversityThank You Very Much! 2024/8/2124Li Baoli, ICL, Peking University

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号