研讨环境中的专家发言文本聚类及其可视化

资源描述

《研讨环境中的专家发言文本聚类及其可视化》由会员分享，可在线阅读，更多相关《研讨环境中的专家发言文本聚类及其可视化（6页珍藏版）》请在金锄头文库上搜索。

1、研讨环境中的专家发言文本聚类及其可视化 1、引言、引言研讨是一种基于言语的群体交互行为，通过研讨可以消除分歧达成共识。群体研讨环境1是一种计算机支持研讨工具。群体研讨环境的开发涉及研讨模型及共识达成算法、研讨过程控制和研讨结果可视化展示及利用等多个理论和技术问题，其中研讨模型及共识达成算法则是最重要的研究内容，它决定了系统能否自动得出研讨结果。目前对研讨模型的研究大都基于抽象辩论理论，即把专家发言抽象为一个结点，而不考虑发言的内容，如文献2根据发言结点之间的攻击和支持关系确定发言结点的可接受性，文献3-5则给发言结点或发言之间的响应强度赋予量化值，再根据这些量化值求得发言结点的共识值。事实上，

2、群体共识隐藏在专家发言之中，对发言文本内容进行分析处理是提取群体共识的重要手段。目前对发言文本分析已有一些研究，如白冰等6提出了一种基于主题聚类的热点提取方法，通过对发言主题进行聚类分析，得出多数人支持的热门主题。唐锡晋等7提出用对偶刻度法对专家发言关键词进行聚类分析，以关键词为基点对专家进行聚类，形成专家与观点之间的映射关系，以激励成员产生联想，深入思考，产生更多的创意。李欣苗等8提出了一种及时的挖掘并识别海量研讨主题，利用可视化展示给成员，从而激发成员的创新思维的方法。以上这些研究的分析对象只是专家发言的主题，或发言文本中的关键词，但没有对发言全文进行分析。本文针对在研讨环境中的发言文本利

3、用启发式聚类算法9对专家的发言信息进行聚类处理，以图形化的方式展示出专家发言的聚集关系，找出意见相似的专家发言簇，专家们利用聚类结果可以实时调整自己的发言，避免群体思维，促进最终决策的达成。 2、研讨发言文本分析、研讨发言文本分析2.1研讨文本预处理：研讨文本是一种无结构的数据，需要将它们转化成计算机能处理的数据。预处理的关键性操作就是对文本中的词语进行切分，将连续的一句话分成无依赖关系并且按一定规则排列的单个词语，然后过滤掉它们中的无关词组，从而获取一个文本特征词的集合，最后按照停用词表中的词语将语料中对文本内容识别意义不大但出现频率很高的词、符号、标点及乱码等去掉。其处理流程如图 1 所示

4、。2.2文本特征词权重确定及文本向量生成2.2.1文本特征项选择与加权首先根据研讨内容及相关领域知识建立特征词库，标识每个词的权重，再根据文本内容利用 TF-IDF10方法确定特征词的权重。词频(term frequency，TF)，是指某一个给定的词语在该文本中出现的频率。这个数值是对词的个数(term count)的归一化，以防止它偏向长的文本。对于在某一特定文本里的词来说，它的重要性可jditNYNY 读入文本分词读入一个词删除是否停用词条串词条结束结束开始停用词表图 1：文本预处理研讨环境中的专家发言文本聚类及其可视化表示为：，其中是指在中出现的次数，而是中词的总数。逆向文本频率,

5、i j ij k jkntfn, i jnitjd,k jknjd（inverse document frequency，IDF）是一个词语普遍重要性的度量。某一个特定词的逆向文本频率可以由总文本数目除以包含该词语的文本的个数，其公式可以表示为：，其中 D=是文本|log| :|iijDidfj td1,nddL集，是文本集中文本的个数，是指包含的文本的个数。如果该词语不在文本集中，即未在|D| :|ijj tditit任意一个文本中出现，就会导致分母为零，因此一般的处理方法是将其设为：。那么 TF-IDF 可| :| 1ijj td以表示为：，其主要作用是过滤掉常见的词语，保留重要的词语。i

6、jiTFIDFtfidf2.2.2向量空间模型VSM向量空间模型（Vector space model）11就是把文本内容转化为相应的文本向量，通过计算文本向量之间的相似性来度量文档间的相似性。常用的文本向量相似性度量方式是余弦距离。文档用十分简单的向量表示，简化了文本中关键词之间的复杂关系，使得文本分析具备了可计算性。用 D=来表示文本集，T=来表示特征项集。特征项是出现在文本集 D 中的有意义12,md ddL12 , , nt ttL的单词或短语。文本 di的特征项集为：，其中是文本 di的第 k 个特征项，且，。12 , , iii nt ttLi kt1im 1kn一个特征项在一个文

7、本向量中的权重表示为：，文本 di的特征项的加权集表示为：ijiTFIDFtfidf,简化为，将其称为文本 di的带权向量表示，则含有 m 个文本的文本集 D 可以表示 12(,) niii tttw wwL12(,)iii nw wwL成一个矩阵，其中表示第 k 个文本的文本向量，。111 12 222 12 112nmnmmm nwww wwwEwww L L LLLL L12(,)kkk nw wwL1km2.3文本相似度计算在文本向量空间中，每个文本对象可映射为一个特征向量，任意两个文本向量之间就会形成一个空间向量夹角，这个空间向量夹角的余弦值就是这两个文本的相似性量度。文本与文本的相

8、似度计算模型表示为：idjd122 11()(,) () )() )nij kkk ijnnij kkkkwwsim d d ww 其中表示文本向量的长度，表示第 i 个文本的第 k 维的取值，。为文本和文本的ni kw1kn(,)ijsim d didjd相似度，简记为，其中，其值越大表示文本的相似度越大。为文本和的向ijsim01i jsim1()nij kkkwwidjd量内积，、分别为文本和的范数(长度)。2 1()ni kkw2 1()nj kkwidjd2.4文本聚类算法本文在文献9的算法的基础之上提出一种基于中心点的启发式聚类算法。设有两个文本向量和，它们的相似度表示为，它表示第

9、i个文本和第j个文本12(,)iiii ndw wwL12(,)jjjj ndw wwL1knijsim的相似度。文本和的中心点向量表示为，单个文本的中心点向量即为其idjd1122,222iiijij ijnnwwwwwwcL本身。引入一个文本相似度阈值，采用中心点聚类算法对文本集进行聚类分析就可以形成了若干f01f个文本簇。算法描述如下：输入输入文本集，n表示文本的个数()，文本相似度阈值12,nd ddL0n f输出输出聚集结果，以可视化同心圆表示Begin将文本集中的每个文本单独作为一个簇，簇集表示为D=，其中，；1,nJJL 11=Jd =nnJd，L计算D中每个簇的中心点向量

10、，分别记为；1,nccL /只含有一个文本的簇的中心点向量就是该文本向量本身Temp = n; /设置一个临时值，表示 D 中簇的个数WHILE (Temp 1)计算D中两两簇的中心点向量的相似度值，形成长度为Temp(Temp-1)/2的结果集；从结果集中取出最大的相似度值Simij，其对应的簇为；,ijJ JIF ()ijSimf将合并为一个新的簇，计算其中心点，记为；,ijJ Jijc更新簇集D；Temp-；END IFEND WHILE 输出文本集D中所形成的所有的簇；END这个算法的基本思想是：在含有n个研讨文本的集合中，先将文本集合中的每个文本单独作为一个簇，取各自的中心点向量，对

11、簇集中的两两簇的中心点向量进行相似度的计算处理，从长度为的结果集中(1) / 2nn选出最大的相似度值所对应的两个簇。若该最大相似度值大于或等于阈值，则将这两个簇合并为一个新的f簇，计算其中心点向量，并对簇集进行更新，然后再对簇集中的两两簇的中心点向量进行相似度的计算处理，直至簇集中簇的中心点向量的最大相似度值小于阈值，此时说明所有文本之间的相似度都不满足要求，各自f成为一簇。该算法主要是基于中心点向量来进行聚类分析的，每获取一个新的簇，都要取其中心点并对更新后的簇集重新相似度值的计算处理，因而算法的时间复杂度为O(n2)。3、实例分析结果实例分析结果为了验证本文中提出的研讨系统中的发言文本聚

12、类分析方法的有效性和可行性，我们对已经计算出相似度、关键词及其词频的研讨文本建立了相关视图，并采用基于 D3 的 WEB 可视化技术对研讨结果进行展现，以研讨环境中的专家发言文本聚类及其可视化更直观的方式帮助专家理解研讨结果。为了测试其结果有效性，我们团队以“大学生暑期计划如何安排”为话题展开研讨。团队共有 9 名同学参与了此次研讨，这 9 个同学分别对应大学的不同阶段，并就自己的暑期计划进行发言。我们把这 9 名同学的发言信息收集整理成了 9 篇文档，并将文档以发言的主体内容进行命名，如图2 所示，暑期计划可以分为旅游(出国游和国内游)、实习(公司和学校实习)、在家(考研复习、健身、务农)和

13、备考公务员四类。本次实验通过调整阈值的方式来实现文本聚类的多种结果，然后通过与人为判断的预期结果进f行比较来分析聚类的有效性和可行性。图 2：文本内容图 3：阈值=0.01 时的聚类结果图 4：阈值=0.11 时的聚类结果ff图 5：阈值=0.35 时的聚类结果图 6：阈值=0.5 时的聚类结果ff图 2 是我们选出的 9 个作为本次聚类的实验文档样本，并利用本文的基于中心点的聚类算法进行聚类。图3 到图 6 展示了不同相似度阈值对聚类结果的影响。当阈值为 0.01 的时候说明对文本的区分度要求很低，ff所以 9 个文本聚在一起，表明各个文本内容在主题上具有相似性。但随着阈值的逐渐升高，聚

14、类效果也逐步f提升。当阈值在 0.11 附近的时候达到一个相对较好的聚类效果，此时旅游、实习、在家和备考公务员刚好各f自归为一类，与预期的结果保持一致。但当阈值调整到 0.35 附近时，我们发现，出国游和国内游分开了，在f家的不同计划也各自归为一类，虽然实习类没有任何的变化，但结合文本内容来看，实习的内容有较多的相似之处。这是因为随着阈值的提高，文本之间的区分度也逐渐变大，需要参考的文本内容也越来越多，关键词f个数的增多会相应地导致相似度的降低，这显然是合乎常理的。当阈值在 0.5 及其以上的时候，我们发现各f个文本独自为一类，说明这个时候文本之间的相似度已经不满足阈值了。f从以上结果分析可以

15、看出，本文提出的研讨系统中的文本聚类方法具有较强的有效性和可行性。4 结语本文针对研讨系统中发言文本的聚类方法进行研究，采用了一种基于中心点的聚类算法，对发言文本的相似性进行了分析并可视化展示聚类结果。这种方法主要是在给定的相似度阈值的前提下，得到若干个子集，同一个子集中的文本内容是具有一定的相似度，而不同子集之间的文本差异是比较大的。从另一个角度来说，文本聚类结果的显示是依据文本的相似度值来反映的，通过对文本相似度进行计算分析，用不同颜色标识文本中出现的不同特征词及其频率，并用柱状图来反映词频之间的差异，从而使用户对测试文本有一个主观上的评判，为进一步的研讨提供一个很好的参考。不同专家的发言

16、文本也可以通过同心圆的形式来表示，由此反映研讨文本的观点的趋势，有利于专家对自己的文本主体内容进行反思与完善，使得专家思维收敛速度更快，加快研讨的进程，促进专家思维一致性的。但是，此算法仍然存在一些不足，由于语义分析不够强大，对于文本中的同义词的识别不够敏感，加上语料库、停用词库等的规模都比较小，对将要进行聚类的文本的过滤处理不够完善，从而导致词频统计中词汇比较冗余，对相似度的结果产生了负面影响，这将是我们进一步完善的方向。References: 1 唐锡晋, 刘怡君. 有关社会焦点问题的群体研讨实验定性综合集成的一种实践. 系统工程理论与实践. 2007,3: 42-49.2 熊才权, 李德华

展开阅读全文