市场机遇发现中的web信息抽取模型与支持系统

资源描述

《市场机遇发现中的web信息抽取模型与支持系统》由会员分享，可在线阅读，更多相关《市场机遇发现中的web信息抽取模型与支持系统（50页珍藏版）》请在金锄头文库上搜索。

1、华中科技大学硕士学位论文市场机遇发现中的WEB信息抽取模型与支持系统姓名：吕少龙申请学位级别：硕士专业：管理科学与工程指导教师：蔡淑琴 20070510 华中科技大学硕士学位论文 I 摘要随着 Internet 信息平台逐步成熟，企业在面临日益激烈的市场竞争的环境下，如何及时、有效地利用 Internet 信息平台吸收企业需求的环境信息，并从企业环境信息中识别出市场机遇信息进而发现市场机遇，已经成为企业面前的重要课题。构建 WEB信息抽取系统，应对企业从海量的 Internet 信息中抽取企业市场机遇信息的需求，成为企业信息化的重要发展方向。本

2、文首先说明了市场机遇发现对于企业的重要意义，分析了及时、准确的获取信息是市场机遇发现的首要工作，通过综述目前学者对多智能代理技术和信息抽取的研究成果，确立了总的研究方向和内容框架。其次，通过对市场机遇信息特点和分类的研究，阐述了采用 WEB 作为信息源的优势，并对 WEB 信息抽取的难点做出了分析。为解决这些难点，本文提出了市场机遇发现应用背景下的信息抽取模型，并且详细叙述了该模型中网络爬行模块、主题信息抽取模块、信息挖掘模块的功能和结构。最后，在理论模型研究的基础上，构建了 WEB 信息抽取系统基于多智能代理的系统框架，并且详细阐述了其中的 WEB 爬行代理、主题信息抽取代

3、理、文本信息挖掘代理的结构和实现方式，通过研究智能代理通信原理，提出了本系统智能代理的通信语言和机制。关键词：市场机遇发现信息抽取多智能代理网页华中科技大学硕士学位论文 II Abstract With the fast development of the Internet as a information platform, modern enterprises in the environment of fierce market competitions have joined the battle of gathering required inf

4、ormation from Internet in a duly and valid way, and discover marketing opportunities through extracting market opportunities information from these environmental information. Recently, many research efforts have been directed into some challenging issues for building a WEB information Extracting Sys

5、tem to search the enterprise s needs extracting required information from Internet , and Enterprise pay much attention to this for enterprise informationization. Firstly, with the demonstratation of duly exact information s importance in market opportunity discovery which plays a significant part in

6、 market competition, and the relative research production about Mutil- Agent system and information extraction, the frame of this thesis is clarified. Secondly, in terms of analyzing the characteristic and classification of the market opportunity information, expatiates the advantage and difficultie

7、s of the WEB information extraction. Thirdly, WEB information extracting model supporting market opportunity discovery is proposed, the core components including WEB crawl model, WEB subject extracting model and information data mining model is studied and their structure and function is demonstrate

8、d. In the end, through implementing the above theory model this thesis frames the Mutil- Agent based information extracting system ,and illustrates the function and structure of the each Agent and propose the communicating mechanism in the Mutil- Agent, sets up the information extracting system. Key

9、 Words: Market Opportunity Discovery; Information extraction; Mutil- Agent; WEB 独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除文中已经标明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名：日期：年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，即：学校有权保留并向国家

10、有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密，在年解密后适用本授权书。本论文属于不保密。 (请在以上方框内打 “ ” ) 学位论文作者签名: 指导教师签名: 日期: 年月日日期: 年月日华中科技大学硕士学位论文 1 1 绪论 1.1 问题的提出自 20 世纪 90 年代以来，企业间的市场竞争日趋激烈。一方面，社会、经济、科技的发展日新月异，市场需求也日益多样化、个性化和不确定，在为企业带

11、来大量从未出现、不易察觉、转瞬即逝的市场机遇的同时，也使企业时刻处在被新技术、新市场需求甚至新风尚淘汰的边缘，企业只有对于环境信息时刻保持高度关注，首先采集到包含企业环境新变化的信息，并且提高自身竞争力，首先适应环境的变化，才能发现并且利用市场机遇，为企业不断发展不断进步创造机会，为企业赢得竞争优势。另一方面，随着经济全球化和信息化的不断加速，企业之间的产品/服务越来越透明化，如何以最快最及时的了解竞争对手的新动向、竞争对手产品/服务的新特性也能为企业降低风险43- 44。随着知识经济时代的到来和信息技术的高速发展，企业所处的市场环境以无法想像的速度改变着，这种变化引起了

12、企业需要关注和处理的信息以级数形式爆炸式增长。企业如何从各类信息源中合理的抽取出能够让企业第一时间把握市场命脉的信息成为企业能否发现市场机遇的关键。在信息技术的高速发展给企业传统信息获取模式带来严重冲击的同时，也是做为信息技术核心领域的 Internet 使其从纵多信息源中脱颖而出，为企业快速、准确、自动的获取市场信息提供了渠道。Internet 经过近十年的飞速发展，已经成为人们获取信息的主要平台，被认为是一种全球的、分布的且发展潜力巨大的共享信息库，但是随着数据量的激增，要想从 WEB 上获取一条有用信息的难度却越来越大。WEB 上信息的不断增长和异构数据源集成的应用，导

13、致了大量半结构(Semi structured)数据的产生。目前这些数据多是通过 HTML语言来展现，而 HTML语言的一个显著特点是结构隐含、不规则或不完整。结果使得 WEB 上的信息处于杂无序的状态，数据集成性非常差，应用程序无法直接解析、获取并利用 WEB 上海量的信息，企业通过人工手段已经无法合理准确全面的采集到 Internet上与企业市场环境相关的信息，然而企业利用 Internet 获取信息的需求又在与日俱增。从如何从浩繁的 WEB 数据中持续的抽取信息，并对其中可能包含市场机遇的重要信息作出解释与评价成为企业成功发现市场机遇的关键。华中科技大学硕士

14、学位论文 2 在 21 世纪新的企业竞争模式下，企业想要赢得市场就要不断创新，不断发现并且利用市场机遇为自身赢得竞争优势，企业市场机遇的发现离不开对于对于企业环境变化的感知，所以信息的准确及时的采集和分析利用已经成为企业竞争制胜的关键要素。在 Internet 高速发展的今天，企业如何从 Internet 上及时准确的获取与企业相关的市场信息将会成为企业市场机遇发现中信息获取的主要手段，基于这一趋势，本文研究市场机遇环境下基于多 Agent 的 WEB 信息抽取与支持系统研究将具有重要的理论意义和实践意义。 1.2 国内外研究现状 1.2.1 多智能代理(Mutil- Age

15、nt)国内外研究现状关于 Agent 的概念，Minsky在 1986 年出版的“思维社会”中首次提出了 Agent，认为社会中的某些个体经过协商可求得问题的解，个体即是 Agent。Agent 的基本思想是使软件能模拟人类的社会行为和认知，即人类社会的组织形式、协作关系、进化机制，以及认知、思维和解决问题的方式。和传统的对象概念相比，Agent 概念具备更多的知识、主动性和协作性，具有更强的问题求解能力和自治能力。梁义芝等总结了 Agent 的 7 项特征7，杨鲲等搜集并概括了几种 Agent 的定义8，其中以 Wooldridge 和 Jennings 提出的定义影响最大。在他

16、们关于 Agent 的定义中有 3 个关键性的概念：情境性(situatedness)、自治性(autonomy)和适应性(flexibility)9。在对于 Agent 如何根据意图自治的对于各种信息进行推理和决策的研究中，Bratman提出了 BDI(Brief- Desire- Intention)理论10，Rao 和 Georgeff 在 Bratman工作的基础上给出了 BDI Agent 的形式模型，并引入决策理论的思想。此外，还有 Konolige 的演绎模型， Moore 关于知识和行动的理论，Werner 基于社会角色的工作11，Singh对 3 个基本的精神状态:知识、Know- how和意图的研究等12。由于在复杂环境中单体 Agent 往往显得无能为力，人工智能领域中智能体现在群体交互中的特点也促使了MAS 的诞生。由于对于单体 Agent 的研究已经比较成熟，当前国内外关于 MAS 的研究主要集中于 MAS 中 Agent 的交互和协作，

展开阅读全文