最新微博挖掘文本挖掘PPT课件

资源描述

《最新微博挖掘文本挖掘PPT课件》由会员分享，可在线阅读，更多相关《最新微博挖掘文本挖掘PPT课件（22页珍藏版）》请在金锄头文库上搜索。

1、微博挖掘文本挖掘微博挖掘文本挖掘微博挖掘例子最近热映的国产喜剧电影泰囧，在微博上拿到了998条和“泰囧”有关的微博文本完成分词之后，便是对词频进行统计。词频排名前53的词列表泰囧泰囧 1174 1174 一代宗师一代宗师 87 87 时候时候 53 53 生活生活 44 44 娱乐娱乐 35 35 成功成功 30 30电影电影 385 385 看过看过 70 70 影片影片 52 52 文化文化 43 43 但是但是 33 33 王宝强王宝强 30 30票房票房 306 306 上映上映 68 68 今天今天 51 51 影院影院 43 43 分享分享 33 33囧囧 275 275 泰国泰国

2、 68 68 喜剧喜剧 51 51 炮轰炮轰 40 40 发现发现 32 32笑笑 192 192 感觉感觉 62 62 导演导演 49 49 电影院电影院 38 38 故事故事 32 32俗俗 188 188 观众观众 61 61 好看好看 49 49 排排 38 38 光线光线 32 32十二生肖十二生肖 123 123 可以可以 60 60 喜欢喜欢 49 49 哈哈哈哈 37 37 国民国民 32 32什么什么 104 104 大家大家 59 59 上海上海 48 48 兽兽 37 37 时间时间 32 32中国中国 102 102 教授教授 56 56 现在现在 48 48 水平水平

3、 37 37 哈哈哈哈哈哈 31 31徐峥徐峥 90 11 90 11亿亿 54 54 搞笑搞笑 47 47 需要需要 35 35 逼逼 30 30对微博信息挖掘，需要处理海量的用户信息和微博内容通过对微博信息的挖掘，可以获取相关的商业信息，人际关系信息，热点新闻，趋势信息等内容，以及对历史事件进行相关的分析总结。处理用户信息时可以挖出企业感兴趣的微博用户处理微博内容时进行文本挖掘可以得到有用信息微博文本挖掘步骤：1）文本挖掘信息的预处理：需要对文本信息进行统一个格式，因为不同格式，有些软件可能会不识别，如果统一也方面后面的主题特征的进一步编码。缺失值、分布分析等这也是通常需要处理的过程。2）

4、文本挖掘描述：这一步是为分析人员提供整体特征的了解。这一过程是对主题词描述，包括词频、词在文本的出现的概率等信息。3）特征抽取并分类：特征化的目的就是将数据降维，并从文档中抽取能反映研究主题的一些特征后，使用分类器进行训练，分类设置包括很多方法，如聚类、关联、信息检索、链接分析等方法。分类模型是文本分类的核心技术类模型是文本分类的核心技术总体来说对文本挖掘分类的模型包括两种：（1）基于规则的文本分类在规则文本分类的技术中，规则的设定很重要，这一般要求根据问题情境来设置。这里包括文本、类别的表示方法等。常用的规则分类方法包括：（I）决策树decisiontree，这种方法在文本挖掘中有很重要的地

5、位，其得出的结果很容易理解，比较直观，分类准确性也能保证，只是在实际应用中的效率不是很高，这在实际的商业用途上受到了极大的限制。（II）神经网络NeuralNetwork,这种方法效率一般，最主要的是其内部的算法无从了解，这也是机器学习的一种，通过机器自己来寻找适合数据的方法。不过其优点是准确性能保证，而且在相同情况下，神经网络的结果准确性方法一般优于其他方法。（III）支持向量机(SupportVectorMachine)技术原理上是处理二次规划的全局最优解问题，但是他的计算速度通常比较慢，所以效率也不能保证，在准确性方面一般还算理想，但尤其当我们的样本量不是很大的情况下，得到的结果往往比较

6、稳定。（2）基于统计的文本分类这种文本挖掘的分类技术主要依据统计思想，来完成分类器的建立工作。常用的规则分类方法包括：（I）朴素贝叶斯NaiveBayes，现在朴素贝叶斯在文本挖掘的应用中较为广泛，其原理当然还是概率，基本是将词频作为概率值的估计，首先对于每一个样本中的元素计算先验概率，然后计算一个样本对于每个分类的概率，概率最大的分类则被接受。这种方法的应用性较强，综合评比性能良好。（II）K近邻方法K-nearestneighbor，这种方法的缺点挺多，因为需要将新纳入的文本与已有的文本一一比较所以计算量很大，自然也就很慢，而且在要对比的样本中如果两两样本相差太大，也容易导致结果的不稳定。

7、对微博内容语义分析，根据关键词进行提取，确定产品用户确定产品用户：比如公司是卖母婴类产品的，我们可以通过在微博中搜索“尿不湿用完了”、“买尿不湿”等关键词就可以找到一部分用户群体，而这类用户是最精准的，让你向他们进行母婴类产品推荐或者营销时相信她们是乐于接受的，不仅不反感，反而会认为你很友好，最终成为你的忠实客户。热点话题提取：热点话题是指在特定的时间段出现的频率较高的或传播范围较广的主题特征词。获取热点话题可以关注微博讨论热点从中获取有价值的相关信息微博用户挖掘微博用户挖掘是要找到需要的目标客户，然后对其进行营销策略。微博数量之众，并非每个都是目标客户，寻找并发现目标客户是企业微博营销的关键

8、。1.通过群组发现大批目标客户。微博的群组功能很好的聚集和有着相同爱好的人群。2.利用各种社会热点话题，节日话题吸引客户，寻找目标客户。策划创意活动聚集粉丝。免费试用，选拔品牌形象代言人等。3.利用微博上的搜索工具发现客户。通过搜索寻找那些谈论你们公司，你们产品，你们行业的人。私信发现客户。由于有些产品的特殊性，用户并不愿在公开场合暴露隐私。这时私信就成了发现客户很重要的工具。1.名人挖掘微博的同质化问题突出，竞争重点并不在产品的功能上，而在于拥有名人的数量，所以有必要对微博中的名人进行分析，发现微博中名人的特征，以便微博企业对他们进行个性化服务。利用C5.0算法，根据用户的名人标识以及其他

9、用户信息，分析名人的用户特征。C5.0算法是决策树模型的经典算法之一，它的基本思想是利用信息论原理对大量样本的属性进行分析和归纳而产生树的结构或规则，其目的是使系统的熵最小，以提高算法的运算速度和精确度。2.普通用户挖掘微博中的普通用户是微博的主流用户更是商家进行微博营销的最终目标，有必要了解他们在期望提高被关注度时的行为趋势，有利于微博企业提高用户的活跃度。利用相关性理论，对用户的关注数、微文数和被关注数3项信息进行分析，根据分析结果，可推算用户以提高关注数为目标的行为趋势。相关系数r用来表示两个变量之间线性关系的程度，主要有Pearson相关系数、Spearman相关系数和Kendall

10、相关系数3种。当研究数据总体分布未知、总体呈现非正态分布以及数据为顺序级变量时，可应用基于秩次的Spearman相关系数。3.行为关联分析互联网是一个充满风险的场所，微博当然也不例外，微博用户的行动也往往受其影响，分析用户在微博中的行为规则，有利于微博企业帮助用户建立信心，以提高用户的忠诚度。利用Apriori算法，以发现普通用户潜在的行为规则，可推算出用户采取某项行动后会在置信度水平下做出何种反应。Apriori算法是关联规则挖掘的经典算法，该算法的主要思想是采用逐层迭代的方法通过低维频繁项集得到高维频繁项集。5.挖掘兴趣圈子所谓“兴趣圈子”，指的是在同一分享平台下，有着共同的兴趣爱好的用

11、户群体如果能够从海量用户中通过自动手段挖掘出一个个的兴趣圈子，对于很多具体应用来说是非常重要的基础数据，比如可以利用用户所属兴趣圈子进行感兴趣人物推荐，或者根据所属圈子的群体特性分析用户的个人兴趣点等对于兴趣圈子的挖掘实际是图切割的应用图切割问题本质上是一个聚类问题，几乎所有聚类算法的基本思想都是相近的：给定一批数据，自动对数据进行聚类，使得聚合到同一类别的数据之间比较相似，而不同类别之间的数据差异较大。图切割问题也符合这个定义，等于是将图中节点进行聚类，把密集相连的一批节点聚合到一起，而连接比较稀疏的节点尽可能划分到不同的类别中。Tankertanker DesignTF-IDF解释TF-I

12、DF实际上是：TF*IDF，TF词频(TermFrequency)，IDF反文档频率(InverseDocumentFrequency)。词频（TermFrequency）是词t在某个文档中出现的次数。词频可以用来度量词t与给定文档d之间的关联度：通常，如果文档不包含该词，则定义为零，否则定义为非零。对于向量中的非零项，定义词的权重的方法有很多种。比如有就是1没有就是0，又比如使用相对词频，即词频相对于所有词在文档中出现的次数。比如100个词里出现了2次，就是2%。但是只统计一个术语的出现次数通常不是一个好的相关度指标，首先术语的出现次数与文档的长度有关，其次某个术语出现10次的文档的相关度可能并不是该术语出现1次的文档的相关度的10倍。所以一般计算公式中都会有个加权处理。逆文档频率（InverseDocumentFrequency）表示词t的重要性以及区分度。如果词t出现在许多文档中，由于其区分能力减弱，所以它重要性也降低。如果包含词条t的文档越少，IDF越大，则说明词条t具有很好的类别区分能力。结束语结束语谢谢大家聆听！谢谢大家聆听！谢谢大家聆听！谢谢大家聆听！22

展开阅读全文

最新微博挖掘文本挖掘PPT课件

最新文档