
上传人:第*** 文档编号:62017854 上传时间:2018-12-16 格式:PPT 页数:50 大小:6.98MB
返回 下载 相关 举报
第1页 / 共50页
第2页 / 共50页
第3页 / 共50页
第4页 / 共50页
第5页 / 共50页


1、Text Analysis,Shandong University,Text Analysis,Shandong University,Shandong University,Data Visualization,Outline,Tokenization Stemming Lemmatization Part-of-Speech tagging Named Entity Recognition Bag-of-Words Distance function TF-IDF LDA READING,Tokenization,Tokenization is the process of convert

2、ing the string into individual words, or “tokens” Mike likes apple. In Chinese, this is called word segmentation 小明喜欢苹果。 小明 喜欢 苹果 。,Shandong University,Text Analysis,Shandong University,Stemming,Stemming: the process for reducing inflected (or sometimes derived) words to their stem, base or root for

3、m A stem is a part of a word Cars car Walking walk http:/snowball.tartarus.org/algorithms/english/stemmer.html,Text Analysis,http:/tartarus.org/martin/PorterStemmer/,Lemmatization,In computational linguistics, lemmatization is the algorithmic process of determining the lemma for a given word. A more

4、 complex approach to the problem of determining a stem of a word a lemma is the canonical form, dictionary form Better good,Shandong University,Text Analysis,Part-of-Speech tagging,“The little yellow dog barked at the cat.” (The, DT), (little, JJ), (yellow, JJ), (dog, NN), (barked, VBD), (at, IN), (

5、the, DT), (cat, NN),S,NP,VBD,IN,NP,DT,NN,barked,at,the,cat,dog,NN,JJ,JJ,DT,yellow,little,the,Shandong University,Text Analysis,1. CC Coordinating conjunction 2. CD Cardinal number 3. DT Determiner 4. EX Existential there 5. FW Foreign word 6. IN Preposition or subordinating conjunction 7. JJ Adjecti

6、ve 8. JJR Adjective, comparative 9. JJS Adjective, superlative 10. LS List item marker 11. MD Modal 12. NN Noun, singular or mass 13. NNS Noun, plural 14. NNP Proper noun, singular 15. NNPS Proper noun, plural 16. PDT Predeterminer 17. POS Possessive ending 18. PRP Personal pronoun 19. PRP$ Possessi

7、ve pronoun 20. RB Adverb,21. RBR Adverb, comparative 22. RBS Adverb, superlative 23. RP Particle 24. SYM Symbol 25. TO to 26. UH Interjection 27. VB Verb, base form 28. VBD Verb, past tense 29. VBG Verb, gerund or present participle 30. VBN Verb, past participle 31. VBP Verb, non-3rd person singular

8、 present 32. VBZ Verb, 3rd person singular present 33. WDT Wh-determiner 34. WP Wh-pronoun 35. WP$ Possessive wh-pronoun 36. WRB Wh-adverb,Shandong University,Text Analysis,Named Entity Recognition,Shandong University,Text Analysis,Bag-of-Words,A simplifying representation for documents D1 = “Mike h

9、ates apple.” D2 = “Mike likes likes apple and Apple.” Tokenize and lemmatize documents, and remove stopwords D1 = “Mike hate apple.” D2 = “Mike like like apple Apple.”,Shandong University,Text Analysis,Stopwords,a about above after again against all am an and any are arent as at be because been befo

10、re being below,between both but by cant cannot could couldnt did didnt do does doesnt doing dont down during each few for from,further had hadnt has hasnt have havent having he hed hell hes her here heres hers herself him himself his how,hows i id ill im ive if in into is isnt it its its itself lets

11、 me more most mustnt my,myself no nor not of off on once only or other ought our ours ! . , ? ,More refer to : http:/en.wikipedia.org/wiki/Stop_words,Stopwords,? 、 。 “ ” ! , : ; ? 末#末 啊 阿 哎 哎呀 哎哟 唉 俺 俺们 按 按照,吧 吧哒 把 罢了 被 本 本着 比 比方 比如 鄙人 彼 彼此 边 别 别的 别说 并 并且 不比 不成 不单 不但,不独 不管 不光 不过 不仅 不拘 不论 不怕 不然 不如 不特

12、 不惟 不问 不只 朝 朝着 趁 趁着 乘 冲 除 除此之外 除非,除了 此 此间 此外 从 从而 打 待 但 但是 当 当着 到 得 的 的话 等 等等 地 第 叮咚 对 对于,多 多少 而 而况 而且 而是 而外 而言 而已 尔后 反过来 反过来说 反之 非但 非徒 否则 嘎 嘎登 该 赶 个 各 各个,各位 各种 各自 给 根据 跟 故 故此 固然 关于 管 归 果然 果真 过 哈 哈哈 呵 和 何 何处 何况 何时 嘿,哼 哼唷 呼哧 乎 哗 还是 还有 换句话说 换言之 或 或是 或者 极了 及 及其 及至 即 即便 即或 即令 即若 即使 几 几时,己 既 既然 既是 继而 加之

13、假如 假若 假使 鉴于 将 较 较之 叫 接着 结果 借 紧接着 进而 尽 尽管 经 经过 就,Stopwords,设若 设使 甚而 甚么 甚至 省得 时候 什么 什么样 使得 是 是的 首先 谁 谁知 顺 顺着 似的 虽 虽然 虽说 虽则 随 随着,前后 前者 且 然而 然后 然则 让 人家 任 任何 任凭 如 如此 如果 如何 如其 如若 如上所述 若 若非 若是 啥 上下 尚且,宁 宁可 宁肯 宁愿 哦 呕 啪达 旁人 呸 凭 凭借 其 其次 其二 其他 其它 其一 其余 其中 起 起见 起见 岂但 恰恰相反,哪年 哪怕 哪天 哪些 哪样 那 那边 那儿 那个 那会儿 那里 那么 那么些

14、 那么样 那时 那些 那样 乃 乃至 呢 能 你 你们 您,就是 就是说 据 具体地说 具体说来 开始 开外 靠 咳 可 可见 可是 可以 况且 啦 来 来着 离 例如 哩 连 连同 两者 了,临 另 另外 另一方面 论 嘛 吗 慢说 漫说 冒 么 每 每当 们 莫若 某 某个 某些 拿 哪 哪边 哪儿 哪个 哪里,所 所以 他 他们 他人 它 它们 她 她们 倘 倘或 倘然 倘若 倘使 腾 替 通过 同 同时 哇 万一 往 望 为,Stopwords,为何 为了 为什么 为着 喂 嗡嗡 我 我们 呜 呜呼 乌乎 无论 无宁 毋宁 嘻 吓 相对而言 像 向 向着 嘘 呀 焉 沿,沿着 要 要不

15、 要不然 要不是 要么 要是 也 也罢 也好 一 一般 一旦 一方面 一来 一切 一样 一则 依 依照 矣 以 以便 以及,以免 以至 以至于 以致 抑或 因 因此 因而 因为 哟 用 由 由此可见 由于 有 有的 有关 有些 又 于 于是 于是乎 与 与此同时,与否 与其 越是 云云 哉 再说 再者 在 在下 咱 咱们 则 怎 怎么 怎么办 怎么样 怎样 咋 照 照着 者 这 这边 这儿,这个 这会儿 这就是说 这里 这么 这么点儿 这么些 这么样 这时 这些 这样 正如 吱 之 之类 之所以 之一 只是 只限 只要 只有 至 至于 诸位,着 着呢 自 自从 自个儿 自各儿 自己 自家 自身 综上所述 总的来看 总的来说 总的说来 总而言之 总之 纵 纵令 纵然 纵使 遵照 作为 兮 呃 呗,咚 咦 喏 啐 喔唷 嗬 嗯 嗳,Bag-of-words,Each document is encoded as the list of words in the document Dimension = vocabulary of the entire corpus Value on each dimension = tf(term, document) = term frequency Usually features use wor


当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号