powerconc 软件说明书

上传人:小** 文档编号:94145767 上传时间:2019-08-02 格式:PDF 页数:56 大小:1.66MB
返回 下载 相关 举报
powerconc 软件说明书_第1页
第1页 / 共56页
powerconc 软件说明书_第2页
第2页 / 共56页
powerconc 软件说明书_第3页
第3页 / 共56页
powerconc 软件说明书_第4页
第4页 / 共56页
powerconc 软件说明书_第5页
第5页 / 共56页
点击查看更多>>
资源描述

《powerconc 软件说明书》由会员分享,可在线阅读,更多相关《powerconc 软件说明书(56页珍藏版)》请在金锄头文库上搜索。

1、 PowerConc 1.0 使用说明书使用说明书 ii 目目 录录 目目 录录 . II 第一章第一章 POWERCONC 软件功能描述软件功能描述 1 1.1 软件配置 . 1 1.1.1 载入语料库 . 2 1.1.2 设置语料库的基本信息 . 3 1.1.3 设置屈折还原、POS 码归类相关信息 . 5 1.1.4 设置文件分组信息 . 6 1.1.5 设置 Concordance 的 Span 长度 7 1.1.6 设置 Concordance 的排序类型 7 1.1.7 设置 Concordance 的索引行显示类型 9 1.1.8 设置 Concordance 二次检索的范围 9

2、 1.1.9 设置 Concordance 抽样类型 10 1.1.10 设置 Concordance 数据统计的模式 10 1.1.11 设置 Concordance 搭配计算的相关信息 13 1.1.12 设置 Wordlist 计算的相关信息 . 13 1.1.13 设置 Wordlist 关键性计算的相关信息 . 14 1.2 检索(CONCORDANCE) 14 1.2.1 检索输入. 15 1.2.2 结果显示. 16 1.2.3 段落返回. 17 1.2.4 二次检索. 18 1.2.5 抽样 19 1.2.6 分页显示. 20 1.2.7 统计和搭配计算 . 20 1.2.8

3、保存结果. 21 1.3 统计计算(STATISTICS) 21 iii 1.3.1 显示表格. 21 1.3.2 显示 Plot Chart . 23 1.3.3 显示分布信息 . 24 1.3.4 显示索引行 . 26 1.3.5 返回段落. 27 1.3.6 保存计算数据 . 27 1.3.7 分页显示. 28 1.3.8 排序 28 1.3.9 搭配计算. 30 1.3.10 保存数据 . 30 1.4 搭配计算(COLLIGATE & COLLOCATE) . 30 1.4.1 按 N-gram 计算搭配 31 1.4.2 按 R-gram 计算搭配 33 1.4.3 排序 33 1

4、.4.4 显示索引行及返回段落 . 34 1.4.5 数据过滤. 35 1.4.6 分页显示. 36 1.4.7 保存数据. 37 1.5 词表计算(WORDLIST) 37 1.5.1 生成词表. 37 1.5.2 计算分布信息 . 38 1.5.3 排序 39 1.5.4 显示索引行及返回段落 . 39 1.5.5 数据过滤. 39 1.5.6 分页显示. 40 1.5.7 关键性计算 . 41 1.5.7 保存数据. 41 1.6 关键性计算(KEYNESS) 41 1.6.1 载入主词表 . 42 1.6.2 载入参考词表 . 43 iv 1.6.3 调整参考词表语料库的大小 . 43

5、 1.6.4 计算关键词 . 44 1.6.5 排序 44 1.6.6 显示索引行及返回段落 . 44 1.6.7 数据过滤. 45 1.6.6 分页显示. 45 1.6.6 保存数据. 45 第二章第二章 POWERCONC 开发总结开发总结 46 2.1 POWERCONC与 ANTCONC、WORDSMITH TOOLS的对比 . 46 2.2 POWERCONC的衍生产品 . 48 2.3.1 PowerRange . 48 2.3.1 PowerColl 48 2.3.3 PowerKeyness 48 2.3.4 其它工具. 49 附录一附录一 POWERCONC 功能列表功能列表

6、 50 第第一一章章 PowerConc 软件软件功能描述功能描述 1.1 软件配置软件配置 PowerConc 将软件的配置分为两类,一类是比较常用的配置,如:选择数据 类型、设置 N-gram 长度,这类的配置一般放在相应操作界面中,以方便用户使 用;另一类是全局性的配置或比较不常用的配置,如:语料库类型、Lemma 信 息、 POS 码归类信息、 文件分组信息、 Span 长度等, 这类配置放在单独的 Settings 界面中,针对全局参数的配置放在第一栏中,针对各个模块的配置放置在第二栏 中,如下图所示: 2 1.1.1 载入载入语语料库料库 点击按钮,软件会根据指定的目录载入语料库文

7、件。载入语料库 时可以选择是否包含子目录,如果选中,全部子目录内的文 件都将被载入,否则 PowerConc 只会载入目录最外层的语料库文件。 语料库载入完毕后,语料库目录信息会显示在界面上: 双击该目录信息,可以打开该相应的目录: 软件载入语料库时,界面的日志窗口会显示相应的操作记录和信息: 3 1.1.2 设置语料库的基本信息设置语料库的基本信息 软件支持五类语料,语料库载入后,系统会对语料库的格式进行自动识别, 识别完成后,用户还可以进行手动修改。对于 Claws 软件标注过的的语料,可以 选择是否支持 Ditto Tag,如果选中,被 Claws 识别出来的固定 搭配(如:even i

8、f、a little、as soon as 等)在显示索引行和搭配计算时将会被当 作一个词处理: 支持 Ditto Tag 的状态下,检索结果显示如下: 支持 Ditto Tag 的状态下,搭配计算结果显示如下: 4 不支持 Ditto Tag 的状态下,检索结果显示如下: 不支持 Ditto Tag 的状态下,搭配计算结果显示如下: 5 1.1.3 设置屈折还原、设置屈折还原、POS 码归类码归类相关相关信息信息 PowerConc 支持屈折还原和词性码归类, 但是需要预先指定相关的列表文件。 对于屈折还原,软件内置了一个还原列表,如果用户没有现成的列表,可以选择 使用这个内置的还原列表 (

9、) , 它可以对 27000 多个词汇进 行屈折还原: 屈折还原文件格式如下,软件将按列表中指定的对应关系进行屈折还原: 6 POS 码归类文件格式如下,软件将按列表中指定的对应关系进行 POS 码归 类,把复杂抽象的 POS 转化成用户较为熟悉的词性信息: 1.1.4 设置文件分组信息设置文件分组信息 PowerConc 在统计分布数据时, 允许用户根据研究目的预先对文件进行分组。 用户选择后,可以载入相应的分组规则文件: 7 分组规则由正则表达式和组名构成,格式如下: 用户可以在等号后面指定分组的组名,如果用户没有指定组名,软件将用正 则表达式作为相应的组名。 1.1.5 设置设置 Con

10、cordance 的的 Span 长度长度 用户可以设置检索时返回语境的长度,PowerConc 支持的语境(span)范围 为 0-10 个词,默认值为 5: 1.1.6 设置设置 Concordance 的排序的排序类型类型 PowerConc 最多支持 5 级排序,排序之前用户需要为每一级排序指定位置信 息和排序依据的数量类型: 8 位置信息跟用户指定的左右 Span 的长度有关: 数据的类型跟语料库的语言和语料库的格式有关,对于英语语料是否支持屈 折还原和 POS 码归类也会影响排序的数据类型: 数量类型模式介绍如下: (1) Both 模式:把 Word 和 POS 码(或其它语码)

11、当做一个整体排序单位, 进行排序; (2) Word 模式:把 Word 当做排序的主体,忽略 POS 码信息; 9 (3) POS 模式:把 POS 码当做排序的主体,忽略 Word 信息; (4) Lemma 模式: 把 Word 屈折还原后的 Lemma 当做排序主体, 忽略其它信 息; (5) POSCategory 模式:把 POS 码归类后的词性信息当做排序的主体,忽略 其它信息 1.1.7 设置设置 Concordance 的索引行显示类型的索引行显示类型 对于赋码语料,用户可以分别设置返回索引号时,左、中、右三个位置的数 据显示的格式: 如果选择 Both 模式,索引行将同时显

12、示 Word 和 POS 码,如果选择 Word 将 只显示 Word,如果选择 POS 码将只显示 POS 码。 1.1.8 设置设置 Concordance 二次检索的范围二次检索的范围 PowerConc 支持在检索结果中进行二次检索,用户还可以指定进行二次检索 的范围: 10 1.1.9 设置设置 Concordance 抽样类型抽样类型 PowerConc 支持对检索结果进行抽样,选择 Enable Sample 后相应的功能区 将显示在 Concordance 的主界面上: PowerConc 支持循环和非循环两种抽样模式,如果选择了 Loop 模式,抽样 操作将进行迭代,抽样将在

13、上次抽样的结果中进行,否则每次都将从全部索引行 中进行抽样。 PowerConc 支持三种抽样模式: 默认模式为随机模式 (Random) , 即从全部数据中随机抽取指定数量的样本, 其它两种抽样方式分别为等距模式(Isometric)和混合模式(Blended) ,等距模 式将按相等距离抽取指定数量的样本, 混合模式将在指定数量的相等距离中随机 抽取抽取 1 条数据作为样本。 1.1.10 设置设置 Concordance 数据统计的模式数据统计的模式 PowerConc 支持两种统计模式: 11 选择 “by Hit” 模式, PowerConc 将按匹配的结果进行数据统计, 选择 “by

14、 Expr” 模式,PowerConc 将按检索输入的表达式进行数据统计。 如在检索界面载入以下批量检索内容 (基于Smart Input语法的R-gram列表) : 在“by Hit”模式下,进行统计时,PowerConc 将以命中的结果作为统计项: 12 在“by Expr”模式下,进行统计时,PowerConc 将以输入的表达式或表达式 列表作为统计项: 可见在“by Expr”模式下可以进行类似于 Range 的研究,批量检索一批 R-gram, 打开分布信息开关, 便可以研究这些 R-gram 在不同语料中 的分布情况: 在对检索结果进行统计时,PowerConc 会计算语料库和每个

15、语料库文件的大 小, 即它们包含多少个词, 如果选中, 标点符号将被记入总数, 否则标点符号将不被记入。 13 1.1.11 设置设置 Concordance 搭配计算的搭配计算的相关信息相关信息 用户可以选择搭配计算的方式, 系统的默认方式为 Log-likelihood, PowerConc 一共支持 MI、MI3、Dice、T-Score、Z-Score、Log-Log、Log-likelihood 七种搭 配计算方式,是目前同类软件中支持搭配计算方式最多的软件: 在此界面,用户还可设置搭配计算时和数据过滤时是否大小写敏感,以及数 据过滤时是否支持 Smart Input 语法: 1.1

16、.12 设置设置 Wordlist 计算的相关信息计算的相关信息 用户可以设置词表计算和词表过滤时是否大小写敏感,以及数据过滤时是否 14 支持 Smart Input 语法: 1.1.13 设置设置 Wordlist 关键性关键性计算的相关信息计算的相关信息 用户可以选择关键性(Keyness)计算的方式,PowerConc 支持 Chi-Square 和 Log-likelihood 两种关键性计算方式,默认方式为 Log-likelihood: 在此界面,用户还可设置关键性计算时和数据过滤时是否大小写敏感,以及 数据过滤时是否支持 Smart Input 语法: 1.2 检索检索(Concordance) 检索模块的主界面如下,包含检索、批量检索、二次检索(数据过滤) 、数 据抽样、数据显示、分页显示、统计计算、搭配计算、结果保存等不同功能区: 15 1.2.1 检索输入检索输入 PowerConc 支持单次检索和批量检索两种检索模式,单次检索时可以在输入 框中直接输入检索内容,用户可以选择是否支持 Smart Input 语法以及检索是大 小写是否敏感: 当用户选

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号