软件开发论文:研究非结构化文本分析软件比较(天选打工人).docx

上传人:壹****1 文档编号:559619921 上传时间:2023-01-31 格式:DOCX 页数:4 大小:11.69KB
返回 下载 相关 举报
软件开发论文:研究非结构化文本分析软件比较(天选打工人).docx_第1页
第1页 / 共4页
软件开发论文:研究非结构化文本分析软件比较(天选打工人).docx_第2页
第2页 / 共4页
软件开发论文:研究非结构化文本分析软件比较(天选打工人).docx_第3页
第3页 / 共4页
软件开发论文:研究非结构化文本分析软件比较(天选打工人).docx_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《软件开发论文:研究非结构化文本分析软件比较(天选打工人).docx》由会员分享,可在线阅读,更多相关《软件开发论文:研究非结构化文本分析软件比较(天选打工人).docx(4页珍藏版)》请在金锄头文库上搜索。

1、研究非结构化文本分析软件比较一、引言非结构化文本是指以文本(字符、数字、标点、各种可打印的符号等)为数据形式的非结构化数据。非结构化文本数据的典型代表是图书馆数据库中的文档,这些文档可能包含结构字段,如标题、作者、出版日期、长度、分类等等,也可能包含大量非结构化文本成分,如摘要和内容。当前互联网上也存在大量的非结构化电子文本,如新闻、博客、电子邮件、政府文件、聊天记录等。人们应该如何正确理解这些数据?目前普遍的方式是通过人工注释语义信息实现对非结构化文本进行分析。但是数据量的过于巨大使得这项任务不可能完全凭借人工方式来完成,迫切的需要借助于计算机的帮助来完成对大量非结构化文本进行信息抽取和分析

2、。在此情况下,非结构化文本分析软件就应运而生了。非结构化文本,主要是指类似于字符、标点、各种可打印的符号等数据。比如,一篇文档既可能包含结构字段,如标题、作者、出版日期、长度、分类等,也可能包含大量非结构化文本成分,如摘要和正文内容。而所谓非结构化文本分析软件,是指能够对非结构化文本进行自动化分析,进而将文本中词频、词性、词间关系等特征以结构化数据或者可视化方式呈现给用户的计算机软件。早在20世纪50年代末,H.P.Luhn就已经在非结构化文本分析领域进行了开创性的研究,提出了将词频统计思想用于文本的自动分类。之后,这一领域逐渐得到学者们的重视,出现了许多新的研究成果。如Maron M E等人

3、围绕如何对非结构化文本进行自动分类开展了研究与探讨;Ghanem M等人在经过深入研究后,提出了适用于非结构化文本的分析模型。除此之外,我国也有许多学者对这一问题加以关注,研究重点主要集中在文本特征抽取与文本中间表示、关联规则抽取、语义关系挖掘、文本聚类与主题分析以及趋势分析等领域。例如,李凡等人曾于2001年对文本特征的抽取进行研究,提出了一种新的文本特征抽取方法;万小军等人于2003年撰文试图对文档聚类方法k-means算法加以改进;而黄晓斌教授等学者则试图对互联网文本内容进行分析挖掘以达到对舆情信息的分析与预测。与此同时,由于对非结构化文本分析的需求日益加大,许多支持非结构化文本分析、功

4、能日益完善的软件也相继出现,数量多达数十个。因此,美国哈佛大学学者Lowe W于2002年撰文对前述非结构化文本分析软件进行了详细的分类与介绍,以期为用户选用非结构化文本分析软件提供借鉴与帮助。然而,尽管有越来越多的学者将目光聚焦于非结构化文本分析这一问题,也产生了丰硕的研究成果,但是应该明确的是,现有研究大都从实现技术层面着手试图对非结构化文本分析技术加以改进,而从用户角度出发,将关注点集中在应用层面的文章却少之又少。鉴于此,本文试图以两款较为常用的非结构化文本分析软件KH Coder和Wordstat为例,从内外特征共11个方面对其数据格式、工作流程、主要功能等进行比较分析,以期为用户选用

5、并研究非结构化文本分析软件提供参考。二、非结构化文本分析软件的主要类型根据笔者对各类非结构化文本分析软件的调研,并且结合前人的研究成果,可初步将非结构化文本分析软件按照主要功能划分为如下三个类型:基于词典的非结构化文本分析软件、包含开发环境的非结构化文本分析软件以及包含注释的非结构化文本分析软件。2.1 基于词典的非结构化文本分析软件基于词典的非结构化文本分析软件以词典或词表为基础,通过将文本中的单词与词典或词表进行匹配来完成对文本的分析。其最终结果通常是对词频等特征的统计数据,如CATPAC、Concordance等。2.2. 包含开发环境的非结构化文本分析软件包含开发环境的非结构化文本分析

6、软件在对文本进行分析时,能够自动生成对应的词典或词表。其最终结果也是各类统计数据,但是与基于词典的非结构化文本分析软件相比,由于使用的词典更具针对性,因此统计出的最终结果也更为精准,如Profiler Plus、DIMAP等。2.3 包含注释的非结构化文本分析软件包含注释的非结构化文本分析软件是三种非结构化文本分析软件中自动化程度最高的一种,其最终结果将以旁注、交叉参考以及笔记的形式呈现,其形式好比一个研究人员对某篇论文做的读书笔记一样,如Atlas-ti、NUDIST等。本文选择了两款第一种类型(基于词典的非结构化文本分析软件)非结构化文本分析软件(KH Coder、Wordstat)进行比

7、较分析。之所以选择第一种类型的非结构化文本分析软件是由于:相对来讲,第一种类型的非结构化文本分析软件的使用更为普遍;之所以选择KH Coder和Wordstat来作为比较分析的具体对象,一是由于上述两款软件较为普及,二是由于上述两款软件均为开源软件(Wordstat虽然非开源,但是有免费试用期)。三、外在特征比较研究本部分主要对上述两款非结构化文本分析软件的外部特征,即两款非结构化文本分析软件的基本概况进行比较,具体包括:软件的费用、软件的更新速度、软件所支持的运行环境、软件支持的语言种类、软件运行的客户端方式以及软件是否配备有用户指南等方面。3.1 软件费用费用问题将很大程度上影响用户对软件的选用。上述两款非结构化文本分析软件中,KH Coder是完全免费的,用户可以通过其官网自行下载。Wordstat则是非开源的,但是有30天的试用期,在30天内用户可以免费试用,超出试用期后,需要额外购买才能使用。可见,在软件费用方面,KH Coder相对占有优势,但是由于Wordstat允许用户有30天的试用期限,也能够一定程度上满足用户需求。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 企业信息化/信息管理

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号