WEB数据采集系统DOC

上传人:大米 文档编号:506467115 上传时间:2024-01-26 格式:DOC 页数:9 大小:453.50KB
返回 下载 相关 举报
WEB数据采集系统DOC_第1页
第1页 / 共9页
WEB数据采集系统DOC_第2页
第2页 / 共9页
WEB数据采集系统DOC_第3页
第3页 / 共9页
WEB数据采集系统DOC_第4页
第4页 / 共9页
WEB数据采集系统DOC_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《WEB数据采集系统DOC》由会员分享,可在线阅读,更多相关《WEB数据采集系统DOC(9页珍藏版)》请在金锄头文库上搜索。

1、西安网是科技发展有限公司一一网站信息采集系统http:/WEB数据采集系统亠.概述面对互联网海量的信息,政府机关、企事业单位和研究机构都迫切希望获取 与自身工作相关的有价值信息, 如何方便快捷地获取这些信息就变得至关重要 了。如果采用原始的手工收集方式,费时费力且毫无效率,面对越来越多的信息资 源,劳动强度和难度可想而知。因此,现代的政府和企业都迫切需要一种能够 提 供高质量和高效运作的信息采集解决方案。本系统针对不同行业用户的应用需求,以抓取互联网为目的,实现在用户自定义规则下,从互联网中抓取指定信息。抓取的信息可存入数据库或直接入库发 送至指定栏目,实现网站信息及时更新和数据量提升,从而使

2、得搜索引擎收录量 提升,扩大企业信息宣传推广力度。二. 典型应用1. 政府机关实时跟踪、采集与业务工作相关的信息来源。全面满足内部工作人员对互联网信息的全局观测需求。及时解决政务外网、政务内网的信息源问题,实现动态发布。快速解决政府主网站对各地级子网站的信息获取需求。全面整合信息,实现政府内部跨地区、跨部门的信息资源共享与有效 沟通。节约信息采集的人力、物力、时间,提高办公效率。2. 企业实时准确地监控、追踪竞争对手动态,是企业获取竞争情报的利器。 及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。为企业决策部门和管理层提供便捷、多途径的企业战略决策工具。大幅度地提高企业获取、利用情报

3、的效率,节省情报信息收集、存储、挖掘的相关费用,是提高企业核心竞争力的关键。提高企业整体分析研究能力、市场快速反应能力,建立起以知识管 理为核心的“竞争情报数据仓库”是提高企业核心竞争力的神经中枢。3. 新闻媒体快速准确地自动采集数信息。支持每天对数万条新闻进行有效抓取。支持对所需内容的智能提取、审核。实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。三. 系统构架工作过程描述采集的目的就是把对方网站上网页中的某块文字或者图片等资源下载到自己的站网上,这个过程需要做如下配置工作:下载网页配置,解析网页 配置,修正结果配置,数据输出配置。如果数据符合自己要求,修正结果这 步可省略。配置完毕

4、后,把配置形成任务(任务以XML格式描述),采集系统第#页按照任务的描述开始工作,最终把采集到的结果存储到网站服务器上工作流程图如下:数据处理逻辑图:四. 系统功能根据用户事先配置好的规则(网页下载规则,网页解析规则等),进行数据采集当对方网站数据进行了更新,或者添加新数据时,系统自动会进行检测,并进 行采集,然后更新到自己的数据库(或者别的存储方式),这个过程不再需要人工干 涉。五. 技术特点1. 支持多种网页编码格式,也可以人工设置编码格式。支持各国语言的网站。2. 支持图片,软件,音乐,视频,flash等多种格式资源的下载。3. 支持采集结果输出的多样性,可以使用不同输出插件进行输出,也

5、可以自 己开发输出插件。4. 采集配置分为三个部分:网页爬虫配置,网页解析配置,采集任务配置。 以上三者可以自由搭配,便于重复利用已设置完毕的配置。5. 可定制的数据解析和抽取。可以自由配置要采集的网络元数据,并可以对 每个网络元数据自定义字段名。便于后续信息处理。6. 采集爬虫采用多任务、多数据源管理。7. 每个任务下可以指定多个采集入口网站。8. 采集条件设置,可以针对不同任务下的入口网站设置采集路径、重点页面、 采集网址过滤等控制条件。控制条件采用正则表达式。9. 运行配置,采集运行过程中使用的爬虫名称、个数、数据更新频度等均可 以由用户进行配置。10. 自动识别文本中的图片信息,并且自

6、动下载到本地,并替换文本中的图片 URI为本地URL11. 管理控制台可以监控采集过程的运行情况。六. 系统优势1. 精确度咼用户可以按照自身需要自行选择、设定监测的目标网站和特定信息源,实施24小时不间断监测和采集,信息动态始终处于掌握之中。系统支持将网页中的 信息内容按日期、标题、作者、栏目进行提取,过滤网页中的无用信息。扩展抓 取 采集范围可以精确到特定网站、特定栏目、特定页面、特定区域。2. 易用性好系统参数设置简单,一次设置多次使用。设置过程直观、便捷。3. 灵活性强系统具有很强的灵活性,可按需选择目标站点,并根据形势的变化,随时 更 换目标站点。用户可直接到某一网站抓取用户想要的特

7、定栏目下的信息, 它仅 仅 要求用户设定特定的抓取条件,用户需要的内容就会自动被抓取和保存下来, 从 而实现由用户上网找信息转变为信息自动流向用户的方式。4. 实施部署容易系统用户界面友好,抓取服务器在任意浏览器下运行,实施部署过程简单,即装即用。5. 采集内容全面适应网站内容格式的多变性,能完整地获取需要采集的页面,遗漏少,网页 采集内容的完整性在99%以上。6. 抓取速度快系统支持多线程处理技术,支持运行多条线程的同时抓取。可快速高效地对 目标站点或栏目进行信息采集,大大加快了信息的抓取速度,保证在同等单位时 间内信息的抓取量成倍数增长。七. 系统界面展示倉管理员豊陆用户:匚验证码:匚二:

8、4700剜闯采ftuS印、五一灾幣用刪盅请翳兴庠呈珏沿査;印、磁丽ifi阑砾需用口,则lit顷口瑚走无邊居再进行岳隼*栓(ti?ik二童悝首贯1浦力噺咽目1丢夙本诜生丨廿零语蛊分粪显示:|适择廿粪二|顶目它理顷目台称状祇上拓辜厂和 W信用韦无曲定克矩V2013/5/15 17:36:51亘制洞据丢弟确武m匚易整网_利I固斶民词堵款无走专虽V尚无乜录EW细招亲集测诫W 爆r獗冋一一页民目捋乾无指走专営VSt?J 淸惜殊 Sliit Itl FS厂期冋_彳晞損砸_民耳克款无定专疤V当无ifi录sj采辛剽试m岛赏网一 一企1E贷丽一 贡民闫疲軟无狛走些题V尚无乜录SfiJ fHffi亲爲测诫HI厂毅

9、同-汽车牴戸屋一 页车葫賀檸芟转无皓走专岂7盲无记录St?j编惜采怎期适ttl厂刑冋一一二手车加脯 -贡车龄质聘蛊潮旨定专矩V尚无记录富制堀揖杀辛测诫田匚霸贷网一一汽车貨网一 贡车羽质損罠萤无狛走专题V尙无记录E制図植采集测试KI确网一-腳税膜一 页无皓圭专気V肖无记录更刮编惜采集fliEt Itl厂舄勲冋住広ifei?第亠启产牴碟議无拒定专題V尚无记录羞制病槪采辛対试糾厂銭、第一次使用本功能,请惨改采隼星本设畫;熔、采第前请堀需乘第项目测试项目确宦无邊后再淮行乘第令曙作寻航:管理首页I添加新I页目I采隼基本设盍丨分类设蛊分类显示;|麟分类3墜理导航:添加新圭栏目编号栏目分类简管理选项操作15

10、0新闻漆加下靈栏目册鵬173H1用卡勸口下级程目172卜民间貨隸添加F錢栏目綁m171卜车辆质押贷款读加下级栏目綁鵬170卜房产抵押贷款逶加下玺栏目憾鵬16Q閘行赏就逵加下级程目153kft用貨款懣加下報栏目啊删余入圉內咨显示:営显术 广隐龜|譎讣幔枚|遽曰采集乘竦历虫记录昔理営雀导航:管煙首页1成功记录1尖腹记录丨尖效记录历史记录- Hi有记录选择顶目名称标题频请芒目来源结果入库慢作厂和讯网一银行卡资电月持卡人消贾信倉恿期玻韵无佶走频道 值用卡康击访伺前功S 刪陳厂痂网-;昨桶囂豐豐讐炖分该覩晴颂无融痂信用卡点击访问荊否鵬 讯物配军熙我晞和讯丽;银行磁甞驚J郎行柿瞬抑柿睛门无指就道信用卡点飭河如杏刪除 1R槛花样幫參厂全选藕陳遇中记录藕歸宾殴记录|确歸宾效记录竊空所剂记录|曲了个记录首页上一页下一页庫页页处1八页“个记录硕转到第 页

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号