网上新闻资源自动采集系统

上传人:子 文档编号:42906083 上传时间:2018-06-04 格式:DOC 页数:38 大小:184.97KB
返回 下载 相关 举报
网上新闻资源自动采集系统_第1页
第1页 / 共38页
网上新闻资源自动采集系统_第2页
第2页 / 共38页
网上新闻资源自动采集系统_第3页
第3页 / 共38页
网上新闻资源自动采集系统_第4页
第4页 / 共38页
网上新闻资源自动采集系统_第5页
第5页 / 共38页
点击查看更多>>
资源描述

《网上新闻资源自动采集系统》由会员分享,可在线阅读,更多相关《网上新闻资源自动采集系统(38页珍藏版)》请在金锄头文库上搜索。

1、毕业设计毕业设计(论论文)开文)开题报题报告材料告材料1、开开 题题 报报 告告2、文文 献献 综综 述述3、文文 献献 翻翻 译译1.综综述本述本课题课题国内外研究国内外研究动态动态,说说明明选题选题的依据和意的依据和意义义 随着互联网技术的迅猛发展,人们获取资讯的方式不再是仅仅从报纸或者电视。更多 的人选择上网浏览或者是通过手机获取。相比前面的两种方式,后者更具及时性,而 且信息量更大,传播范围更广。从而衍生了第五媒体的说法,这也带动了相当的周边 产业的发展。而这些优点的体现同样需要一个强大的技术平台和相当数量的工作人员 来支撑,本文将通过对资源采集系统的介绍,为构建这样一个低成本的信息共

2、享平台 提供建议。 1.新闻采集系统的现状 动态网页技术的出现彻底的改变了传统互联网的模式。它让站长可以更加轻松的更新 站点的内容信息。同时也让网络的应用变得更加丰富。以动态网页技术实现的应用如 雨后春笋般出现。新闻采集系统也在那个时期开始发展。 从最初的 ASP 版本到现在的多元化语言的版本,虽然架构一次次被更新,功能越来 越完善,当然系统的设计目标始终都没有发生改变,实现资源的自动采集来减少人工 录入所增加的成本。 如今,新闻采集系统技术已经非常成熟。市场的需求量也非常大。在百度中输入“新 闻采集系统”可以搜到近 393,000 条信息,可见这一应用的广泛程度。 特别是一些新兴的站点,主要

3、以广告盈利为目的,如果使用新闻采集系统那可以让站 长不用去操心如何更新网站内容,一但架设好就几乎可以“一劳永逸”了。 2.项目提出的背景 通常对于新闻类专业或者大型的门户网站,都拥有自己的新闻渠道或者专门的采编人 员,这往往需要很高的成本。新闻采集系统(手机应用版)用于在资源相对匮乏的情 况下,使用程序的方式来进行远程抓取。在没有人工干预的情况下可以实现自动采集和资源的共享。一方面可以保证信息更及时更有效,另一方面可以提高工作效率和减 轻编辑的负担。为企业提供可靠的信息来源和降低相当的成本。 3.主流系统的分析 总的来说目前的新闻采集系统已经比较成熟,主流的新闻采集系统基本上可以实现以 下功能

4、: 1.对目标网站进行信息自动抓取,支持 HTML 页面内各种数据的采集,如文本信息, URL,数字,日期,图片等。 2.用户对每类信息自定义来源与分类 3.支持用户名与密码自动登录 4.支持记录唯一索引,避免相同信息重复入库 5.支持智能替换功能,可以将内容中嵌入的所有的无关部分如广告去除 6.支持多页面文章内容自动抽取与合并 7.支持下一页自动浏览功能 8.数据直接进入数据库而不是文件中,因此与利用这些数据的网站程序或者桌面程序 之间没有任何耦合 9.支持数据库表结构完全自定义,充分利用现有系统 10.保证信息的完整性与准确性,绝不会出现乱码 11.支持各种主流数据库,如 MSSQL、Ac

5、cess、MySQL、Oracle、DB2、Sybase 等 4.讨论的范围 上面讨论的新闻采集系统与本文所讨论的略有不同,主要是我们的目标有些差别。传 统的新闻采集系统都是基于 WWW 网站。采集的困难程度要略高与 WAP 网站。因 为 WWW 网站页面内容相对复杂而且更加丰富,最重要的是它没有类似 XML 的约束 性,网页源文件的格式内容可能会因为编写人员的疏忽存在很多错误,这将导致我们 在抓取的时候可能会碰到很多解析问题,比如符号的丢失,不能匹配等等,对于采集 系统最重要的是能够匹配到想要抓取的内容,如果不能解析网页的源代码不能建立完 整的目录树,也就是结构不完整这将很可能造成我们在采集

6、特定内容的时候出现偏差 或者采集不成功。所以,对于采集 WWW 的网站不光需要采集程序的规则编写者有 一定的判断力,而且要求网站的编写人员能够按照 W3C 规范来编写页面。但是,现 在的情况是往往用户的浏览器能排除大量的错误,所以会给真正的开发人员一个错误 的信号认为自己的页面没有问题,这时候我建议将页面提交到 W3C 的检验工具来进 行检测,这是一个相对繁琐的步骤。WAP 网站的优势这时候就体现出来了,因为它 严格遵守这些规范,如果出现标记不能匹配或者是不能识别的标签时将会报错,这对 于测试人员来说无疑是个好消息,这将大大的降低测试的成本,加快项目的建设。对 于采集程序的开发者来说也绝对是个

7、好消息,我们在编写规则的时候就无须考虑太多 意外的情况,这为我们这个项目的提出也奠定了一定的基础。当然,随着手机上网的 普及和 3G 网络的建成,越来越多的人已经开始习惯使用手机来获取信息,这已经成 为一个趋势,可能在未来的什么时候电脑也将被手机所代替,无线网络最终将代替现 有的电缆线路。我们抓住这个形式,将要开发基于手机浏览器平台的浏览内容,我们采集的对象也是 WAP 网站,可以将内容无缝嵌入到现有的栏目中,真正实现即抓即 用。2.研究的基本内容,研究的基本内容,拟拟解决的主要解决的主要问题问题1.功能规划 1.新闻采集 采集系统的运行过程是个根据任务列表不断的读取目标站点,采集需要的信 息

8、的一个过程。在读取新闻的时候需要维护一个连接,需要分析各种各样的 网络连接状况,而系统的维护人员需要针对专门的页面定制一套规则,用来 解析各个需要的信息部分,并且这套规则必须符合一定的规范。 我们将制定一些任务的规则规范: 1.页面地址:列表的入口地址 2.附加参数:针对详细内容的地址附加的一些参数(比如:显示全文) 3.列表规则(正则表达式): 1.ExceptWords:用于替换列表中不需要的字符 2.TextRegEXP:用于筛选新闻条目(包含:链接和地址) 4.内容规则(正则表达式): 1.ImgRegexp:用于获取新闻图片的地址 2.TextBegMark:用于标记文章内容的开始

9、3.TextEndMark:用于标记文章内容的结束系统处理流程 2.图片采集 图片的采集不同与新闻的采集,虽然在规则上类似,而且在整个抓取过程中 的操作都接近相同,但是在格式上要复杂。文字主要是存在编码的问题,而 图片要考虑压缩和格式的问题,我们暂时考虑采集 JPG 和 GIF 两种格式,因 为在手机上这两种是最常用的。 在网络上抓取到图片之后下载到本地需要保持格式的一致性。 由于 JPG 和 GIF 的压缩编码算法不同,需要分开来处理。2.功能设计 1.任务配置模块 任务的配置是整个系统中最重要的部分,新闻采集系统能正常工作的首要前 提就是需要对每个采集任务进行配置。任务配置包括有目标地址以

10、及页面规 则的定义,力求可以将用户的文本定义转换成要求更严格的正则表达式,以 保证采集内容的正确性。 2.采集功能模块 采集的过程主要是分析资源,并加入到我们数据库中的过程。采集过程应充 分考虑资源的正确性、完整性和采集过程的稳定性。保证资源的编码正确和 过程的透明性。 3.资源检索模块 资源的采集是我们最终的目标,我们需要实现对采集到资源能进行搜索、查 询和编辑等操作,可以对资源进行筛选可控制。 4.统计模块 按照任务的归类可以对采集的进度和过程进行实时监测,让用户及时掌握采 集资源的状况,如果发生的意外能马上获知并采取一定的措施来挽回。3.研究步研究步骤骤、方法及措施、方法及措施1.系统配

11、置 程序的运行和维护需要一系列的配置,这对于整个系统都是至关重要的。配置人 员需要一定的计算机技术基础,最终程序能否抓取到希望获取的信息都离不开系 统的配置和一系列测试。 2.存储接口 为了兼顾到系统可能在不同的数据库环境中来使用,所以我们选择了数据库框架, 这将大大方便系统的二次开发,替换数据库等情况。系统中使用了 ibatis 作为数 据库访问框架。这也是一个开源的框架,相对于 hibernate 来说是轻量级,我们 在这里使用它的理由是它比 hibernate 具有更小的操作粒度,以提高我们数据库 的存储效率。 3.计划任务 我们的系统是由任务驱动的,每一个采集目标都是一个任务。维护人员

12、需要做的 就是任务的维护和计划的制定,这个计划任务类似于行程的安排,以备我们的任 务调度框架来实现任务的控制。 4.日志系统 由于网络的不确定因素非常多,常常会导致程序出现超时等情况,我们需要一个 强大的日志系统来记录这些问题,维护人员也需要分析日志来判断错误的原因。 5.统计系统 采集资源必须有一个完善的统计机制,用以记录当天或者是历史的记录。如果需 要制定绩效考核方面的制度,统计系统将会提供一份完整的可维护性的文档。 6.内容检索通过内容检索模块,可以实时获取当前入库的信息,让管理员可以对内容进行删 除或者修改,其功能类似于新闻管理系统的后台,可以对抓取的信息进行有效的 控制。新闻采集系统

13、架构图4.工作工作进进度度5.序号序号6.时间时间7.内容内容8.19.08/12/11-09/01/1210.选题,熟悉课题相关背景11.212.09/01/13-09/02/1913.英文翻译,学习相关技术学习,开题报告14.315.09/02/20-09/02/2716.开题17.418.09/02/28-09/03/1519.完成总体设计20.521.09/03/16-09/04/0322.完成程序编码23.624.09/04/04-09/04/1025.中期检查26.727.09/04/11-09/05/0128.完成相关文档编写29.830.09/05/02-09/05/2231.

14、撰写毕业论文初稿32.933.09/05/23-09/05/2934.修改毕业论文35.1036.09/05/30-09/06/0537.答辩38.主要参考文献主要参考文献1.Quartz - QuickStart EB/OL.http:/ ml 1.Httpclient User Documentation.EB/OL. http:/hc.apache.org/user-docs.html 2.iBatis for Java User Guide.EB/OL. http:/ibatis.apache.org/javadownloads.cgi 3.(加)贝让 ,叶俊 .iBATIS 实战 .

15、 人民邮电出版社 . 2008-5-1 4.开源技术选型手册编委会 . 开源技术选型手册 . 电子工业出版社 . 2008-5-1 5.孙卫琴 . Java 网络编程(第 3 版)OReilly Java 系列 . 电子工业出版 社 . 2007-3-1 6.孙卫琴 . JAVA 面向对象编程 . 电子工业出版社 . 2006-7-1 7.埃克尔,陈昊鹏 . Java 编程思想(第 4 版) . 机械工业出版社 . 2007-6-1 8.布洛克,潘爱民 . Effective Java . 机械工业出版社 . 2003-1-1 9.戈茨(Goetz,B.) . JAVA 并发编程实践 . 电子

16、工业出版社 . 2007-6-1 10.结城浩 . JAVA 多线程设计模式 . 中国铁道出版社 . 2005-4-1六、指六、指导导教教师审师审核意核意见见: 该同学就“网上新闻资源自动采集系统”这一课题,在准备开题报告期间通过针对性的文献 阅读、分析和理解,基本明确了本毕业设计的总体需求和具体任务,基本提出了系统设计 思想和及预期目标,开题报告内容较完整,内容和格式基本符合要求。 同意开题。指导教师签字:2009 年 2 月 27 日七、系、室、部(研究所)七、系、室、部(研究所)评议评议意意见见:1.适合本专业的毕业设计课题;2.不适合本专业的毕业设计课题;3.其它系、室、部(研究所)主任签字:年 月 日 八、开八、开题题小小组评审组评审意意见见:开题小组组长签字:年 月 日九、学院九、学院领导领导(答(答辩辩委委员员会)会)审审核意核意见见:1通过; 2完善后通过; 未通过学院领导(答辩委员会)签字:年

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号