《自然语言处理》PPT课件

上传人:pu****.1 文档编号:588027882 上传时间:2024-09-07 格式:PPT 页数:11 大小:416.50KB
返回 下载 相关 举报
《自然语言处理》PPT课件_第1页
第1页 / 共11页
《自然语言处理》PPT课件_第2页
第2页 / 共11页
《自然语言处理》PPT课件_第3页
第3页 / 共11页
《自然语言处理》PPT课件_第4页
第4页 / 共11页
《自然语言处理》PPT课件_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《《自然语言处理》PPT课件》由会员分享,可在线阅读,更多相关《《自然语言处理》PPT课件(11页珍藏版)》请在金锄头文库上搜索。

1、工具:jieba分词流程:1将所有文本进行数据清洗,(词性标注)筛选出所有名词,并保存文件2爬取数据,制作景点/酒店名词的用户字典3根据2的用户字典对1中的名词进行筛选(词性标注)筛选出所有景点/酒店名词,并保存文件4在对3中保存文件进行keyword排序(关键词抽取),并保存文件1jieba系统简介结巴中文分词:做最好的Python中文分词组件。特点:支持三种分词模式支持繁体分词支持自定义词典MIT授权协议涉及算法:基于前缀词典实现词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG),采用动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录词,采用了基于汉字成词能

2、力的HMM模型,采用Viterbi算法进行计算;基于Viterbi算法的词性标注;分别基于tfidf和textrank模型抽取关键词;2jieba系统框架jieba分词系统,主要实现三个模块:1分词2词性标注3关键词抽取其中,分词有三种模式,默认是精确模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词;概念:NaturalLanguageProcessing/Understanding,自然语言处理/理解希望机器能像人一样去理解语言

3、,理解以人类自然语言为载体的文本所包含的信息,并完成一些特定任务。处理文本:中文分词、词性标注、命名实体识别命名实体识别的任务就是识别出待处理文本中的实体名词三大类:实体类、时间类和数字类七小类:人名、机构名、地名、时间、日期、货币和百分比关键词提取、关系抽取、信息抽取、依存分析、词嵌入应用:文本机器翻译、文本摘要、情感分析;知识图谱、问答系统、聊天机器人背景:如何表示词语所包含的语义?怎么用词语表示文本,让机器读懂?向量空间模型(词袋模型):1元素词出现为0,不出现为12元素为出现次数3元素为ti-idf数值WordEmbedding(词嵌入)核心思想:此本无义,义由境生:语义相关的词语,具

4、有相似的上下文环境,例如,苹果和梨子具有相似的上下文语境。怎么得到词向量:训练语料库,将每个词语训练成词向量。总结:语言的表示(词向量)Bags-of-word:维度高、过于稀疏、缺乏语义、模型简单WordEmbedding:维度低、更为稠密、包含语义、训练复杂实践基于gensim包和中文维基语料gensim,word2vec模型介绍#加载包fromgensim.modelsimportWord2Vecfromgensim.models.word2vecimportLineSentence#训练模型sentences=LineSentence(wiki.zh.word.text)model=W

5、ord2Vec(sentences,size=128,window=5,min_count=5,workers=4)#保存模型model.save(word_embedding_128)#加载模型model=Word2Vec.load(word_embedding_128)#使用模型items=model.most_similar(u中国)#得到与中国相似的词语(上下文语境相似)model.similarity(u学校,u学生)#得到学校和学生2个向量的相似度用Python做自然语言处理必知的八个工具加州大学洛杉矶分校UCLA在IN-N-OUT吃饱喝足后便开往很近的UCLA。我的点评:来到LA,还是要来看看世界名校UCLA的。找到了学校里的visitorparking停车场停车。一个小时USD3。不算贵。7出来走不远就可以看到熊的雕塑和UCLA的一家很大的礼品店。此外,我们还主要参观了UCLA的Student对面的图书馆(ChicanoStudiesResearchCenterLibrary)。RoyceHall还是挺漂亮的,图书馆也是学习环境很好的地方。顺利降落JFK,回到纽约,行程顺利结束。洛杉矶。加州。分词词性标注命名实体识别;名词,词性标注,命名实体类别命名实体识别;筛选出文本中的地名名词,词性标注,命名实体类别(地名)

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号