ROSTCM6使用手册资料

上传人:f****u 文档编号:115003152 上传时间:2019-11-12 格式:PDF 页数:26 大小:696.17KB
返回 下载 相关 举报
ROSTCM6使用手册资料_第1页
第1页 / 共26页
ROSTCM6使用手册资料_第2页
第2页 / 共26页
ROSTCM6使用手册资料_第3页
第3页 / 共26页
ROSTCM6使用手册资料_第4页
第4页 / 共26页
ROSTCM6使用手册资料_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《ROSTCM6使用手册资料》由会员分享,可在线阅读,更多相关《ROSTCM6使用手册资料(26页珍藏版)》请在金锄头文库上搜索。

1、ROST CM6 使用手册 1 ROST 内容挖掘 系统 ROST Content Mining System User Manual Version 6.0 2010.9.23 武汉大学 ROST 虚拟学习团队 ROST CM6 使用手册 2 目 录 目 录 一、功能性分析4 1)分词4 2)字频分析4 3)英文词频分析4 ?文件词频统计4 ?剪切板词频统计 5 ?查看统计表格 5 ?查看大纲列表 5 ?描红超纲词 5 ?查看非词表 6 ?加密词表 6 ?打开词典目录 6 4)汉语频度分析6 5)社会网络和语义网络分析 6 6)情感分析 8 7)流量分析 9 8)相似分析9 9)网络环境分析

2、10 10) /IDF 批量词频分析10 11)聚类分析 10 12)分类分析 11 二、文本操作11 1)字段抽取 11 2)一般性行处理 11 3)基于正则的特定信息抽取12 4)基于字段特征的行处理12 5)基于辅助词群的行抽取及处理12 6)文本的替换和增补 13 三、 可视化 14 1)标签云14 四、工具14 1)剪贴板控制器14 2)域名排名查询器15 3)批量文件格式转换器15 4)批量文件处理器16 5)浏览网页文本实时抓取器17 6)NetDraw 17 7)ROST WebSpider 17 8)调试用 18 9)程序目录 19 ROST CM6 使用手册 3 10)数据

3、目录19 11)第三方工具19 12)自定义文件19 五、聊天分析19 六、全网分析20 1)全网数据中的摘要或标题数据中的词语、机构的共现关系20 2)情感分析20 3)域名的批量流量分析 20 4)将网址列表载入到迅雷中进行下载20 七、网站分析21 1)获得网站数据21 2)分析22 八、浏览分析22 九、微博分析23 1)扫描数据23 2)分析23 十、期刊分析23 ROST CM6 使用手册 4 一、一、功能性分析功能性分析 (1)分词 点击功能性分析下拉列表框中的分词选项,打开分词窗口,在 待处理文本框中载入待处理文件,如“虚拟学习团队 201087.txt” , 则系统按照程序目

4、录下的 User 目录下的 User.txt 文档, 自动在输出文 件框中生成“虚拟学习团队 201087_分词后.txt”文件,获得以空格 分离的分词后文档,如果原来文档中有空格的位置保留空格。点击确 定按钮,即可打开该文档。 如果需要自己增加一些词, 则点击工具下拉列表框中的自定义文 件分词自定义词表,系统将自动在记事本中打开 user 目录下的 user.txt 文件,编辑后点击保存存盘,再次重新启动本软件,方可生 效。 (2)字频分析 点击功能性分析下拉列表框中的字频分析选项, 打开字频分析窗 口,在待处理文件框中载入待处理文件,如“虚拟学习团队 201087.txt” ,则系统自动在

5、输出文件框中生成“虚拟学习团队 201087_字频.txt”文件,点击确定按钮,即可打开该文档。 (3)英文词频分析 ? 文件词频统计 点击功能性分析下拉列表框中的英文词频分析选项, 打开 ROST ROST CM6 使用手册 5 英文词频统计和超纲单词分析窗口。 点击文件菜单下的打开菜单项或 点击工具栏上的打开按钮,打开要统计的英文文档,然后选择统计菜 单下的统计文件词频菜单项或工具栏上的统计按钮, 即可统计出文档 的所有单词。点击单选按钮纲内,可统计该文档的纲内词;点击单选 按钮超纲,可统计该文档中的超纲词。选择复选框全选,可全选表格 所有单词;选择复选框归并单词变形,可将变形单词进行归并

6、。 对统计出的单词,在表格上点击右键,弹出快捷菜单,可以将选 择的词汇添加到常用词语表,或者将选择的词汇从常用词语表中删 除。 要在文本框中高亮显示某单词,可以勾选该单词的检查框;如果 取消勾选,则文本框中该单词恢复普通显示状态。 ? 剪切板词频统计 如果要统计剪切板词频, 则选择统计菜单下的统计剪切板词频菜 单项,则剪切板上的单词会显示在打开文件框中,再点击工具栏上的 统计按钮即可。 ? 查看统计表格 点击查看菜单下的统计表格菜单项,即可查看空的统计表格。 ? 查看大纲列表 点击查看菜单下的大纲列表菜单项,打开大纲列表窗口,即可查 看大纲列表。如果要查看某大纲,双击该行即可。在大纲列表窗口,

7、 还可以自定义某个词汇表,方法是在大纲名称文本框中输入大纲名 称,然后在大纲文件文本框中载入大纲文件,再点击添加按钮即可。 ROST CM6 使用手册 6 若要删除某词汇表,则选中该词汇表后,点击删除按钮即可。 ? 描红超纲词 如果要查看所有勾选的超纲词汇在文章中的位置,则首先点击统 计、然后选择超纲,再勾选全选,然后点击查看菜单中的描红选定的 超纲的词汇即可。 ? 查看非词表 非词表你不想统计的单词或者字符的列表,该文件位于程序目录 下的 dict 子目录下的 notwords.txt。要查看非词表,点击工具菜单下 的查看非词表即可。如果要启动非词表,则工具菜单下的点击启动非 词表。 ? 加

8、密词表 如果要对词表加密,则点击工具菜单下的加密词表;如果要解密 词表,则则点击工具菜单下的解密词表即可。 ? 打开词典目录 点击工具菜单下的打开词典目录即可。 (4)汉语频度分析 点击功能性分析下拉列表框中的汉语词频分析选项, 打开汉语词 频统计窗口, 在分词后待统计词频文件文本框中载入分词后的文件, 如 “虚拟学习团队 201087_分词后.txt” , 则系统自动载入过滤词表, 并在输出文件文本框中生成词频统计文件“虚拟学习团队 201087_ 分词后_词频.txt” 。在归并词群表文本框中载入归并词群表,还可以 对文档中的词进行归并。在保留词表文本框中载入保留词表,则可 ROST CM

9、6 使用手册 7 以将文档中在保留词表中的词保留下来。 (5)社会网络和语义网络分析 点击功能性分析下拉列表框中的社会网络分析选项,打开 ROST 语义网络和社会网络生成工具,在待处理文本框中载入待处理文件 (待处理文件格式可以是一行一句的未分词文件,比如聊天记录,全 网分析中的摘要文件等;也可以是一句若干词的已分词文件;还可以 是多行有关联的已分词文件) ,然后点击高频词按钮,可以生成高频 词表;点击过滤无意义词按钮,可以生成过滤后的高频词和共现矩阵 词表;点击提取行特征按钮,可以生成行特征词;点击构建网络按钮 可以生成语义网络的.VNA 文件和.txt 文件,如果进一步点击启动 NetDr

10、aw 按钮,则可以打开 NetDraw 工具,查看图形结果;点击构建 矩阵按钮则可以生成共现矩阵文件。双击文件框可查看相应结果。 如果想进行快速分析,则载入待处理文件后,点击“快速分析” 按钮,即可一次生成上述文件。可以是聊天内容文件,文件格式是 例如,以下是对“虚拟学习团队摘要文件”分析的结果: ROST CM6 使用手册 8 (6)情感分析 点击功能性分析下拉列表框中的情感分析选项, 在待分析文件路 径文本框中载入待分析的文件,点击分析,然后双击各文本框后的 查看,即可查看情感分析详细结果、情感分段统计结果、中性情绪 结果文件和情感分布统计视图结果。 ROST CM6 使用手册 9 (7)

11、流量分析 点击功能性分析下拉列表框中的流量分析选项,打开 Rost Alexa 网络流量分析工具,在输入网址文本框中输入要进行流量分析的网 址,点击数据分析按钮即可。 还可以在该工具中进行批量分析,这时只需要点击批量分析按 钮,导入需要进行批量分析的网页链接表,即可得到批量分析结果。 (8)TF/IDF 批量词频分析 点击功能性分析下拉列表框中的 TF/IDF 批量词频分析选 项,打开 TF/IDF 批量词频分析窗口,点击批量打开文件按钮, 选择需要打开的文件夹, 即可在工具栏的下方打开所选文件夹中 所有的.txt 文件。勾选文件前面的复选框,选中文件(可同时勾 选多个文件) ,点击计算批量文件 IDF,窗口的左下方即可出现 所选文件的 IDF 值。在已计算完 IDF 值的文件中选择一个文件, ROST CM6 使用手册 10 然后点击计算当前所选文件 TFIDF 值, 则在窗口的右下方出现所 选文件的 TFIDF 值。 (9)相似分析 点击功能性分析下拉列表框中的相似分析选项, 打开文档相关性 监测工具,首先点击打开按钮,在待查文章选项卡下可以打开要检测 的文档,点击检测按钮,即进行文档相关性检测,并可在结果查看选 项卡下查看检测结果。 点击停止按钮, 即可停止检测。 点击结果按钮, 可以查看分析统计数据。点击目录按钮,可以打开相似度分析目录

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号