网络教育学院毕业论文范文

资源描述

《网络教育学院毕业论文范文》由会员分享，可在线阅读，更多相关《网络教育学院毕业论文范文（29页珍藏版）》请在金锄头文库上搜索。

1、汉语股市公告信息抽取系统的设计与实现汉语股市公告信息抽取系统的设计与实现学学生：生：学学号：号：专专业业导导师：师：学校代码：学校代码：上海交通大学网络教育学院上海交通大学网络教育学院二四年十一月二四年十一月摘要本文介绍了一个基于中文信息抽取模型的股市公告信息抽取系统（SBIES）的设计与实现。介绍了该系统的结构框架和分布图。讨论了汉语信息抽取模型的具体结构，构建了由自动分词、自动标注和模板填充三个阶段组成的简化模型。简单介绍了自动分词的常用算法和自动标注中的标注规范。重点探讨了模板填充的具体算法。文中分别讨论了采用基于规则的结构主义方法和基于语料库概率统计的功能主义方法。着

2、重讨论了采用隐马尔科夫模型进行信息抽取的具体算法。对模型的参数获取算法作了讨论，改进了 Baum-Welch 算法以适应信息抽取的应用。对领域文本做了人工标注，通过计算机处理获取所需的统计数据。利用统计数据完善 HMM 模型。关键词：信息抽取，隐马尔科夫模型，自然语言THETHE DESIGNDESIGN ANDAND IMPLEMENTATIONIMPLEMENTATION OFOF CHINESECHINESE STOCKSTOCK BULLETINBULLETIN INFORMATIONINFORMATION EXTRACTIONEXTRACTION SYSTEMSYSTEMAbs

3、tractAbstractThis article introduced the design and implementation of a Chinese IE Technology based stock bulletin information extraction system (SBIES). The framework and deployment of the system were described. The structure of the Chinese information extraction model was discussed in detail. We p

4、roposed a simplified 3 tiers IE model consisting of automatic word segmentation, automatic annotation, and template filling. The algorithms used in automatic word segmentation and annotation were briefly introduced while algorithms used in template filling were focused on. In this article, the rule-

5、based structuralism methods and the corpus-based statistical functionalism methods were discussed respectively. The Hidden Markov Model (HMM) was introduced to extract information and the algorithm was explained at length. The algorithm for model parameter acquisition was also analyzed and the Baum-

6、Welch iteration algorithm was modified. Domain texts were annotated manually to acquire statistical data via computation. With these data, HMM-based IE was implemented.KEYKEY WORDSWORDS:information extraction, hidden Markov model, natural language目录自动生成1 1概述概述1.1 信息抽取技术（Information Extraction）信息技术高速

7、发展的时代中，信息的获取、处理和应用已经成为了经济、科学、军事、文化等各个领域发展的关键活动。而其中，信息的获取是三个步骤的开端，在信息技术领域中具有尤其重要的地位。近年来，随着计算机和互联网技术的迅猛发展，各领域可及信息量呈指数级增长。如何高效获取有用信息成为有效利用信息的关键。信息抽取（Information Extraction，简称 IE）技术，是自然语言处理领域中一种新兴的技术。该技术通过抽取、过滤无关信息，使文本信息以用户关心的形式得以再组织，实现高效重组。将结构松散的自然语言信息，通过抽取转为结构严谨、语义明确的表现形式，利用计算机进行高效存储并加以利用。1.1.1

8、1.1.1 信息抽取技术的发展信息抽取技术的发展信息抽取技术的雏形最早出现在二十年前。下面介绍一些信息信息抽取技术的雏形最早出现在二十年前。下面介绍一些信息抽取发展上重要的研究成果以及国内外的研究现状抽取发展上重要的研究成果以及国内外的研究现状77。ATRANS 系统 ATRANS 系统是早在 1981 年由 Cowie 研究出来关于动植物正规结构描述数据库的系统及其商用化产品。该系统采用了概念句子分析技术，通过一些简单的语言处理技术能够完成限制在小规模，特定专业领域的信息抽取任务。 FRUMP 系统 FRUMP 系统由 Gerald Dejong 在 80 年代初实现。该系统把有限新闻网

9、络作为数据源，使用一些新闻故事的简单脚本来对有限新闻网络进行监控。它采用关键字检索、概念句子分析、脚本匹配等方法来寻找新闻故事。FRUMP 系统是一个面向语义的系统，采用了一个特定专业领域的事件描述脚本知识库。 SCISOR 系统 80 年代末，美国 GE 研究与开发中心的 Lisa F.Rau 等研制的 SCISOR（System for Conceptual Information，Organization and Retrieval）系统所处理的对象是有关“ 公司合并“的新闻报导。SCISOR 首先采用关键词过滤和模式匹配的方法对待处理文献进行主题分析，以便判定该报道的内容是否与

10、“公司合并“有关；然后采用自底向上的分析器识别句子结构，生成概念表示；最后应用自顶向下的预期驱动分析器提取预期内容。 MUC（Message Understanding Conference）是一个 ARPA 资助的、为推动 IE 技术发展的一个重要的系列工程。有许多大学、研究所参加。1987 年的 MUC-1 和 1989 年的 MUC-2 主要集中在从小规模的海军信息文本中抽取相关的信息。1991 年的 MUC-3 和 1992 年的 MUC-4 采用的文本主题和类型发生了变化，采用关于拉丁美洲国家恐怖事件通用主题的报纸和有线新闻文本作为语料源，系统包括预定义好的信息模板和辅助抽

11、取规则，基本任务是从在线文本中抽取有关信息填入预定义的模板中的属性槽中。 1993 年的 MUC-5 的文本主题是关于合资企业的商业新闻以及微电子芯片的制作方面的新闻，涉及英语和日语文档。所抽取的信息包括合资企业的合资者、合资公司的名称、所有权和资本以及预期的活动，或者微电子芯片的制作活动的性质和状态等有关项。涉及到多语言和多领域的文档，以便进行抽取信息的性能评价比较。1995 年的 MUC-6的信息抽取任务第一次涉及到用 SGML 语言所标记的文本中的名称项（named entity）和指同项（coreference）的处理。除了场景模板（scenario）任务以外，名称项、指同项

12、和模板元素（template element）信息抽取任务均与特定专业领域无关。测试的语料采用“华尔街杂志“中的文本。1998 年的 MUC-7 是最近的一次信息理解会议。它的信息抽取任务涉及抽取文档中的名称项（人名、组织名和地点名）；指同项；确定模板元素之间的关系，如地点关系、雇佣关系和生产关系等；抽取文档中的事件。文档包含多语种的新闻稿。训练用的文档专业领域是关于飞机坠毁报道，而测试用的文档专业领域是关于发射事件报道。 FASTUS 系统 FASTUS 系统（Finite State Automaton Text Understanding System）是美国加里福尼亚斯坦

13、福研究所人工智能中心从 1991 年开始开发的一个基于多层、非确定有限状态自动机模型的自然语言文本信息抽取系统。它共有六层转换机制，即：切分标记层、预处理层、名称项识别层、简单短语识别层、复杂短语识别层、指同求解层。分解的语言处理使此系统能够处理大量的与专业领域无关的句法结构，以致于与专业领域相关的语义和语用处理能被应用到相当大部分的语言结构上。正因为 FASTUS 系统具有这样的特点，它已被成功地运用于许多应用中。 TIPSTER 计划由美国国防部(DoD)、Defense Advanced Research Projects Agency（DARPA）和 Central Int

14、elligence Agency (CIA)共同资助的 TIPSTER 计划包括至少 15 个与工业和学术有关的项目。目的是改进文本处理的流行技术。TIPSTER 的体系结构使用一组通用的文本处理模块已能满足不同的文本处理应用的需要。这些应用主要是文本检测（定位包含某一信息类型的文本）和信息抽取（定位文本中的特定信息）。在 TIPSTER 研究的第一阶段，参与者通过一些活动如 MUC 和 TREC（Text Retrieval Conferences）对文本检测和信息抽取所建立算法进行改进以及提高对评价这些改进的技术。在第二阶段的研究中，TIPSTER 参与者为了使技术组成构件标准化

15、，将注意力转向软件体系结构的开发上。使各种所开发的工具具有“即插即用“的性能，增加软件的共享程度。在目前进行的第三阶段的研究中，一种称为 ACP（Architecture Capabilities Platform）的平台被开发，它支持评价、扩展和探索进展中的 TIPSTER 体系结构。ACP 将采用 CORBA（Common Object Request Broker Architecture）结构为研究者提供鲁棒及相配的 TIPSTER 组成构件。它将支持 TIPSTER 体系结构的扩展，以便与机器翻译、语音和光学字符识别、图象观察、用户界面构件以及大规模信息系统相适应。 SME

16、S 系统由德国人工智能研究中心语言技术实验室（DFKI-LT）在 Paradime 项目中所开发的 SMES（Saarbrcken Information Extraction System）系统是一个联机的德语文挡信息抽取智能系统。文档的专业领域包括通讯稿、经济报告和技术说明书。SMES 系统拥有大量的语言知识资源（如电子词典包括 12 万条词项以及可扩展性很强的专门语法）以及极其快速和鲁棒的自然语言构件。它还能利用机器学习机制使自身能为实现新功能得到训练和配置，并能适应所需的信息数量和各种文档长度。它被集成了图形可视化技术、服务器体系结构和英特网访问技术。SMES 作为一个有效的智能信息检索的核心系统已经成功地运用于科学和工业项目中。国内对信息抽取的研究才刚刚起步。1998 年月在东北大学学报（自然科学版）发表了中文信息自动抽取一文，介绍了中文信息抽取的概念和对一些问题进行了初步的探索。国内对涉及中文和其他语种

展开阅读全文

网络教育学院毕业论文范文

最新文档