Carrot2聚类工具简介.ppt

上传人:自*** 文档编号:126519565 上传时间:2020-03-25 格式:PPT 页数:32 大小:784.01KB
返回 下载 相关 举报
Carrot2聚类工具简介.ppt_第1页
第1页 / 共32页
Carrot2聚类工具简介.ppt_第2页
第2页 / 共32页
Carrot2聚类工具简介.ppt_第3页
第3页 / 共32页
Carrot2聚类工具简介.ppt_第4页
第4页 / 共32页
Carrot2聚类工具简介.ppt_第5页
第5页 / 共32页
点击查看更多>>
资源描述

《Carrot2聚类工具简介.ppt》由会员分享,可在线阅读,更多相关《Carrot2聚类工具简介.ppt(32页珍藏版)》请在金锄头文库上搜索。

1、1 Carrot2聚类工具简介 崔弘扬2009 04 16 教育信息技术工程研究中心 2 Contents Carrot2体系结构Carrot2聚类算法Lingo STCCarrot2ApplicationsWebapp Workbench DCSCarrot2sourcecode下载与配置 运行Carrot2core Attribute可用资源 3 Carrot2简介 Carrot2isanOpenSourceSearchResultsClusteringEngine Author DawidWeiss StanislawOsinski波兰人 波兹南大学研究方向 textclustering

2、 informationretrieval webmining computationallinguisticsandsoftwareengineering 4 Carrot2体系结构 Carrot2是一个开源的基于搜索结果的聚类引擎 5 Lucene索引结果 Lucene索引index由若干段 segment 组成 每一段由若干的文档 document 组成 每一个文档由若干的域 field 组成 每一个域由若干的项 term 组成 项是最小的索引概念单位 它直接代表了一个字符串以及其在文件中的位置 出现次数等信息 域是一个关联的元组 由一个域名和一个域值组成 域名是一个字串 域值是一个项

3、比如将 标题 和实际标题的项组成的域 文档是提取了某个文件中的所有信息之后的结果 这些组成了段 或者称为一个子索引 子索引可以组合为索引 也可以合并为一个新的包含了所有合并项内部元素的子索引 6 7 Carrot聚类算法 Lingo 基于奇异值分解的索引结果聚类算法首先确定可感知的类标签 然后将文件分配到类中Preprocessing预处理Filtering文本过滤 stemming提干 stopword去除停用词FrequentphraseextractionClusterlabelinductionClustercontentdiscoveryFinalclusterformation 8

4、 Carrot2聚类算法 STC SuffixTreeClustering 后缀树聚类算法 一种On line聚类算法 1 将文档片段作为输入而不是整篇文档 2 聚类算法必须足够快速实现在线计算 3 生成的类簇必须是终端用户可读的描述STC将文档作为字符串来处理 利用文档间相似信息STC是新颖的 增值的 O n 时间复杂度STC快速的为用户总结出类簇内容STC处理小数据集 所以耗时较少 9 后缀树包含了一个或者多个字符串的所有后缀 空字符串也算是其中的一个后缀例如 banana后缀为 bananaananananaananaa空一般来说后在字符串末尾加 特殊字符作为结束标记后缀树 有根节点的有

5、序的树每个内部节点至少有2个子节点每条边以S的非空子字符串做标签 节点的标签定义为从根节点到该节点路径上的标签的串联同一节点出发的两条路径不可能以同一词开始 10 Example 11 STC步骤 一 文档清洗taggerstemmer句子边界界定stopword二 标识基础类簇 1 通过文本预处理将文档表示为词的序列 构成后缀树 2 利用后缀树找到基类簇 至少被两个文档包含的短语称为短语束 基类簇就是要找到最大短语束B 用来描述相关短语mB和出现该短语的文档dB 并计算各个基类簇的值S B 三 合并基础类簇合并基类簇 为了避免出现非常类似的基类簇 可以设置一个阈值k 12 Carrot2Ap

6、plications workbenchCarrot2文档聚类平台 是一个独立的GUI程序 可以用来对一般搜索引擎数据或你自己的数据进行聚类实验 DCSCarrot2文档聚类服务器 将Carrot2聚类作为REST服务呈现 WebappCarrot2网络应用 可以将Carrot2聚类作为终端用户的网络应用呈现 13 Workbench聚类平台 下载carrot2 workbench win32 win32 x86 3 1 dev zip解压 执行carrot2 workbench exe Problem源码运行出错上次的问题 查询Lucene索引时没有聚类结果 需要重启workbench聚类效

7、果不佳 类簇标签多是期刊号等非重要信息 前期预处理没有过滤掉 14 15 webapp 下载carrot2 webapp 3 0 war将其放于Tomcat的webapps文件夹下自动解压访问http localhost 8080 carrot2 webapp 3 0 16 Webapp的Lucene索引配置 Webapp的war包解压后 WEB INF classes carrot2 default修改suite webapp xml添加lucene attributes xml重新启动Tomcat访问http localhost 8080 carrot2 webapp 3 0 17 18

8、基于Lucene索引的聚类结果 19 可视化效果图 20 Problem War包解压英文可以聚类 中文无结果 分词问题没有Adunamap可视化效果 查询本地Lucene索引时只能索引标题出现的词源码问题聚类无结果 21 Carrot2sourcecode下载 Carrot2是sourceforge 全球最大的开放源代码软件开发平台和仓库 代理步骤1 安装svn工具 下载 22 Carrot2sourcecode导入eclipse 打开eclipseImport General Exsitingprojectstoworkspace 选择Carrot2源码路径去除org carrot2 an

9、tlib工程执行若出错说明没有ant 将Carrot的lib下的jar包和core包放到classpath下 23 Example ClusteringDataFromLucene 修改属性 finalStringcontentFieldName content Indexpath路径 设置运行时参数 indexPath yourownluceneindexpath 查询关键字 finalMapprocessingAttributes newHashMap processingAttributes put AttributeNames QUERY 教育 24 Collected27docume

10、nts 0 电化教育研究 投稿须知 1 对教育技术学科名称及定位的反思 2 从CSSCI看新世纪中国教育技术学学科地位的变化 3 边远地区高校教育信息化建设与和谐发展的理性思考 Created16clusters电化教育研究 16documents 0 电化教育研究 投稿须知 2 从CSSCI看新世纪中国教育技术学学科地位的变化 2008年第4期总第180期 3documents 4 从历史使命谈教育技术的定位 20 大学生信息素养培养模式及实施途径研究 23 CSCL环境中基于对话学习理论的教学设计Attributes query 教育results total 27processing t

11、ime algorithm 1091processing time source 2253LingoClusteringAlgorithm nativeMatrixUsed falseprocessing time total 3344 25 Carrot2运行 WorkbenchRun Externaltools AttributeMetadataXmlRun Runconfiguration选择EclipseApplication workbenchWebappRun Externaltools AttributeMetadataXmlRun Externaltools webapplic

12、ationsetupRun Runconfiguration 26 Carrot2Core org carrot2 coreDocument Cluster ProcessingResultorg carrot2 core attributeInit 注释类型 AttributeNames Processingorg carrot2 sourceSearchEngineBase SearchEngineResponse SimpleSearchEngineorg carrot2 source luceneLuceneDocumentSource FSDirectoryWrapperorg ca

13、rrot2 clustering lingoClusterBuilder LingoClusteringAlgorithm LingoProcessingContextorg carrot2 clustering stcorg carrot2 text suffixtree org carrot2 text suffixtree2BaseCluster Phrase STCClusteringAlgorithm STCClusteringParameters STCEngine STCTree 27 org carrot2 text analysisExtendedWhitespaceAnal

14、yzer ExtendedWhitespaceTokenizer org carrot2 text preprocessingTokenizer PhraseExtractororg carrot2 text lingusticLanguageCode DefaultLanguageModelorg carrot2 text preprocessing filterClusterBuilder LingoClusteringAlgorithm LingoProcessingContextorg carrot2 text utilCharArrayComparator MutableCharAr

15、rayorg carrot2 text vsmITremWeighting VectorSpaceModelContext TfTermWeighting LinearTfidfTermWeighting LogTfidfTermWeighting TermDocumentMatrixBuilder 28 org carrot2 MatrixEigenvalueCaculator MatrixUtils NNIDenseDoubleMatrix2Dorg carrot2 matrix factorizationKMeansMatrixFactorization IterativeMatrixF

16、actorizationorg carrot2 matrix factorization seedingKMeansSeedingStraegy RandomSeedingStrategyorg carrot2 util xmlorg carrot2 webappWebApp javaorg carrot2 workbench coreApplication java 29 可用资源 http project carrot2 org index html官方网站http download carrot2 org head manual index html帮助http project carrot2 org forum html论坛Reference参考文献Carrot2andLanguagePropertiesinWebSearchResultsClusteringIntroducingUsabilityPracticestoOSS TheInsiders ExperienceCarrot2 DesignofaFlexibleandEfficientWebInformationRet

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号