专项主题新闻自动检索方法研究与应用

上传人:豆浆 文档编号:39696911 上传时间:2018-05-18 格式:PDF 页数:76 大小:4.07MB
返回 下载 相关 举报
专项主题新闻自动检索方法研究与应用_第1页
第1页 / 共76页
专项主题新闻自动检索方法研究与应用_第2页
第2页 / 共76页
专项主题新闻自动检索方法研究与应用_第3页
第3页 / 共76页
专项主题新闻自动检索方法研究与应用_第4页
第4页 / 共76页
专项主题新闻自动检索方法研究与应用_第5页
第5页 / 共76页
点击查看更多>>
资源描述

《专项主题新闻自动检索方法研究与应用》由会员分享,可在线阅读,更多相关《专项主题新闻自动检索方法研究与应用(76页珍藏版)》请在金锄头文库上搜索。

1、中国科学技术大学硕士学位论文专项主题新闻自动检索方法研究与应用姓名:张国梁申请学位级别:硕士专业:模式识别与智能系统指导教师:谢兴生2011-05-10摘 要 摘摘 要要 在当今网络时代,互联网早已成为名符其实的最快捷、最方便、传播面最为广泛的新闻信息传播媒介。网络新闻具有信息量大、即时性强、增长快速等特点,而单位与个人所关注的新闻则具有主题性强、时变性弱等特点。研究如何从海量的、动态的网络信息中,自动识别出用户长期关心的专项主题信息,主动为用户提供感兴趣的信息服务,具有重要的社会意义和实际应用价值。 本文针对自动构建企业门户网站的新闻栏目等专项应用,在研究网络新闻自动识别与检索等相关技术的基

2、础上,采用元搜索引擎系统架构,结合分布式信息检索/融合、 基于内容的文本分类识别、 领域本体处理等智能信息处理技术,设计并实现了一套专项主题新闻自动检索系统。主要工作与贡献如下: 1. 研究了元搜索引擎实现的相关技术, 并重点研究了其中融合排序这一关键技术环节,提出了一种利用粒子群算法优化多源检索融合排序结果的方法,并通过一组科技文献检索的相关试验,验证了该算法的有效性。目前,该算法已被应用到本文目标系统中,作为其中的一个重要模块。 2. 通过大量算法实验,深入研究和分析了利用 SVM 进行文本分类和主题识别应用时, 有关文本特征、 核函数等有效选择与处理方面的一些关键技术问题。相关试验表明,

3、当使用互信息(IM)算法选择特征项在 4000 左右、设定 SVM的核函数为 SIGMOID 时,新闻文本的识别准确率在 97%以上。这部分研究成果,现都已融合应用到本文的目标系统中。 3. 设计并实现了一套专项主题新闻自动检索系统。 该系统可基于用户提供的主题关键词和主题样本语料库工作。通过使用主体领域本体库,对用户给定的主题关键词进行查询语义扩展后, 提交元搜索引擎机构进行主题新闻采集和融合等处理,所产生的结果经进一步的主题识别过滤后,主动推送给客户。 目前,关于目标系统的主体框架及原型搭建已基本完成,部分核心模块已可正常执行。 关键词:关键词:主题新闻检索;元搜索引擎;主题领域本体;文本

4、识别 I ABSTRACT ABSTRACT Today, the Internet has become the most efficient, convenient and widely spread media of news. Net news is characterized by having large amount of information, high instantaneity and rapid growth, but news that concerned by organizations and individuals have a characteristic o

5、f strong specialization and weak time varying. How to automatically recognize the information that users long-term concern about from the dynamic and large amount of net information, and provide the users with information service actively has important social significance and practical value. The th

6、esis is aiming at a special application for automatically building enterprise portals news section, based on researches on related technologies about reorganization and retrieval of net news, using system architecture of meta search engine and combining technologies of Intelligent Information Proces

7、sing such as distributed information retrieval and merge, text classification and reorganization based on context and domain ontology to design and implements a specialized topic news automatic retrieval system. The main work and contribution are listed as below: 1. Researches are conducted on techn

8、ologies of meta search engine realization, and studies and discussions are focused on result merging which is the key link of the research. Then we propose a method of using PSO(Particle swarm optimization) algorithm to optimize the merging results of multiple resource retrieval systems, and verify

9、the validity of the algorithm by a group of experiments on the retrieval of electronic periodical literatures. Now we apply this system into the structure of special topic news automatic retrieval system. 2. Studying and analyzing some key technology issues of selection and processing of text featur

10、e and kernel function in text classification and topic reorganization based on SVM. The experimental results show that when using IM algorithm and set the number of features as approximately 4000 and the kernel function as SIGMOID, the recognition accuracy of news text classification is above 97%. N

11、ow these works have been merged into the target system. 3. A special topic news automatic retrieval system are designed and implemented. By a set of topic keywords and topic sample database provided by users, using query semantics in which topic keywords are extended by ontology, using meta search e

12、ngine architecture to collect topic news, and push to users by mergence and filtering with topic reorganization. III ABSTRACT IV Now, the main architecture and prototype of the target system has been completed, some core modules have been able to excute. KeyWords : Topic News Retrieval; MetaSearch E

13、ngine; Domain Ontology; Text recoganization 论文原创性和授权使用声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。 与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定

14、。 作者签名:_ 年 月 日 第一章 绪 论 第一章第一章 绪绪 论论 1.1 研究背景及意义 随着信息技术的快速发展,互联网作为一种传播媒介,已经能和报纸、电视及广播等传统媒体并驾齐驱,成为新闻信息的重要传播渠道。相比于传统媒体,互联网在新闻广泛性、时效性及便捷性上有更大的优势1。传统媒体往往由一些大公司所控制或掌握,用户所能获得的只是他们所采编的信息,而互联网的信息则来源于社会各个组织、单位和个人,其广泛性与时效性不言而喻。人们只要有一台可以联接互联网的设备即可轻松获取古今中外发生的大大小小事情, 可以尽情地获取最新的相关资讯。但相应的问题也是显而易见的,互联网信息量巨大、增长快速且组织杂

15、乱,现实生活中由于时间和精力的限制,任何集体或个人,都不可能漫无目的地去浏览所有的新闻,浏览新闻具有很大定向性和范围限制。这个方向和范围与用户的知识和行业背景有关, 并且在相当长的时间内不会发生改变。比如用户常常只访问固定的新闻门户网站,关注固定的新闻版面信息。 为了克服这一不利局面,政府部门、机关学校及大型公司企业都会在自己的门户网站上开办专项主题新闻栏目, 把本组织所关心的专项主题新闻集中收录到该栏目中,以方便本组织人进行阅览和定制。但是目前专项主题新闻通常需要专人从各种传统媒体、新闻门户网站及新闻搜索引擎中去收集、整理并发布到自己企业的新闻库中。这种人工筛选信息的方式一方面需要耗费巨大的

16、人力成本,且不可能及时地将新闻整理报道,更丧失了宝贵的时间。另一方面人工筛选会造成信息遗漏,错过了一些对本组织员工工作或行为有用的新闻。 构建专项主题新闻自动检索系统的基本目标是: 在保证主题新闻信息识别较为准确的前提下,从某一专项主题出发,有针对性对从网络上自动检索主题相关信息,整理并发布到企业新闻库中,实现专项主题新闻信息栏目构建的自动化。例如,对于银行系统来说,客户经理可说是银行与客户交流的桥梁,工作主要是以客户为中心,处理客户存贷款及其它中间业务,并负责维护客户关系。一个出色的银行客户经理,必须有足够的情报搜集能力。首先,要准确掌握宏观经济及行业的动态趋势,才能为用户提供全方位的指导性建议。其次,必须要深入了解客户本身的经营状况,为客户提供相应的服务,如果发现客户有一些负面性新闻可终止用户的贷款服务,避免银行造成更大的经济损失。要完成这样的目标,专项主题新闻自动检索系统要做两方面的工作:一是如何获取新闻信息,二是如何准确识别主题相关信息。从浩瀚如海的网络搜集信息是一个相当巨大的工程,进一步要准确识别专项主题的新闻信息则需要巧妙使用先进的模式识

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号