内容网数据采集接口定义及自动处理流程

上传人:mg****85 文档编号:34341154 上传时间:2018-02-23 格式:DOC 页数:11 大小:555.50KB
返回 下载 相关 举报
内容网数据采集接口定义及自动处理流程_第1页
第1页 / 共11页
内容网数据采集接口定义及自动处理流程_第2页
第2页 / 共11页
内容网数据采集接口定义及自动处理流程_第3页
第3页 / 共11页
内容网数据采集接口定义及自动处理流程_第4页
第4页 / 共11页
内容网数据采集接口定义及自动处理流程_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《内容网数据采集接口定义及自动处理流程》由会员分享,可在线阅读,更多相关《内容网数据采集接口定义及自动处理流程(11页珍藏版)》请在金锄头文库上搜索。

1、数据采集及自动处理流程1 概述本文主要描述内容网库对外定义的数据采集接口以及对于这些采集数据的自动处理流程。通过对现速网的分析,我们认为对于数据的采集主要是通过手工方式,爬虫爬取方式进行的,对于其他的采集方式,网信虽然有提及,但是我们在现在的速网后台没有发现相应的模块,希望网信相关人员通过对该文档的阅读,对于我们欠缺的采集接口做及时的补充。对于我们下面所设计的接口,希望网信相关人员可以提供测试数据供我们测试,2 采集接口定义2.1 爬虫 BT 接口2.1.1 待确认问题因为在原有的速网后台中,我们没有发现该接口的设置界面,所以请相关人员就一下几个问题给与解答1. 爬虫是否会去爬取 BT 的信息

2、2. 如果爬虫会爬取 BT 的信息,那么和 HTTP 爬取的信息是否一致?3. Bt 爬虫爬取的数据与 Bt 主动缓存解析的数据有什么区别基于上述的问题,在没有获得网信相关人员答复的前提下,我们按照如下条件设计1.爬虫会爬取 BT 信息2.爬虫爬取的信息仅包含资源信息。2.1.2 接口设计调用方:爬虫系统调用频率:当发现爬取到新的数据时实时调用或者每天定时调用约束:确保每次发送的信息都是最新批次的数据输入参数: 输入参数明细如下18 FORMAT 文件格式2 NAME 名称 用于完整性校验,判断去重4 PROTOCOL 采集协议5 LANGUAGE 语言(6 CNT_SIZE 大小7 QUAL

3、ITY 质量10 DATA_RATE 码流11 INFOHASH Infohash 值 判断去重12 Duration 播放时长13 URL 资源来源 完整性校验 输出:成功或者失败。2.2 爬虫 HTTP 接口2.2.1 待确认问题1. 爬虫爬取 HTTP 在线资源时,资源资料信息是否同时采集?2. Http 爬取的资源中 是否带有影片名称 ,集数?基于上述的问题,在没有获得网信相关人员答复的前提下,我们按照如下条件设计爬虫爬取 HTTP 在线资源时,资源和资料信息不是同时进行采集2.2.2 接口设计2.2.2.1 爬虫 HTTP 资源接口 18 FORMAT 文件格式2 NAME 名称 用

4、于完整性校验,判断去重4 PROTOCOL 采集协议5 LANGUAGE 语言(6 CNT_SIZE 大小7 QUALITY 质量10 DATA_RATE 码流11 INFOHASH Infohash 值 判断去重12 Duration 播放时长13 URL 资源来源 完整性校验 2.2.2.2 爬虫 HTTP 资料接口 编号 字段名称 说明 备注2 NAME 名称 影片名称3 LABEL 别名 4 DESCRIPTION 描述 影片的剧情描述5 HPOSTER 横向海报6 VPOSTER 竖向海报 7 IS_HOT 是否热点 8 TAG Tag 栏 9 CHILDREN_COUNT 子集数量

5、 10 AUTHOR 编剧11 TV_NAME 电视台名12 TV_HOST 主持人13 SPAN 时长 播放时间14 COMMENTS 点评 15 LANGUAGE 影视语言(FK) 16 ACTORS 主要演员17 DIRECTORS 导演18 PLAYDATE 影视上映日期19 COUNTRY 地区分类(FK)20 MOVIETYPE 影视分类(FK)21 CONTENT_TYPE 题材分类(FK)22 AVG_MARKS 评分23 capture_site 采集点 判断是不是 10 大门户网站24 channel 频道 可用于区分是否有集数,主演作者等一系列字段3 自动处理流程自动处理

6、流程的目的是对于采集接口获得的数据通过系统的自动内容筛选,自动内容质控,自动内容发布功能提高入库数据的质量,减轻人工编辑的工作量。3.1 规则列表下方表格中定义了我们归纳出的筛选,质控,发布的规则,平台的规则引擎会自动根据下方的规则对数据进行处理。请根据实际情况对这些规则进行确认以及补充。筛选规则屏蔽资料垃圾数据通过对影片名称,播放地址进行非空判断。如有空字段,则把该数据放到垃圾表中处理。 (资料)屏蔽资源垃圾数据通过对影片名称,播放地址进行排空处理。如有空字段,则把该数据放到垃圾表中处理。 (资源)采集信息资料去重对“影片名称”进行比对。如有相同数据,则把该相对数据内容不全的资料放到垃圾表中

7、处理。采集信息资源去重对“播放地址” , “infohash”进行比对。如果数据相同。则删除其中一条记录。元数据资料去重 通过影片名,别名与元数据中原先资料进行对比,如果有相同资料,则此资料不添加到元数据库中。元数据资源去重 http 通过播放地址进行对比,bt 通过 infohash 值进行对比。如找到相同记录,此资源状态改为屏蔽 添加到元数据库中。绑定入库 如果在去重阶段未找到相同记录。通过查找对应的影片名(资料查找资源) 进行绑定,反之,亦然。(资源 资料)对于有父子级关系的(例如电视剧)资料。如果库中没有子集资料。父子资料会自动生成子集资料供资源绑定。审核规则合法性校验 判断各字段中是

8、否有关键词(例如:黄色词语) ,如果有则转入人工待审核(资源 资料通用)资源有效性校验 资源是否属于 10 大门户网站,如果是直接审核通过。向播放地址发送 ping 看是否有效。资料内容校验 首先判断资料是否属于 10 大门户网站,如果是,直接审核通过。对别名中出现的逗号,顿号自动转换成/.去除”/“两边的空格。 评分字段如果低于 5 分,自动转为 5 分以上,如果评分为整数,则添加一位小数。对于导演,演员,自动去除每一行的 前后空格。对于剧情描述,首行空 2 个空格,自动添加或删除多余空格。对于演员,导演,如果名字不全(例如:张艺谋,但资料中是张艺)查找字典表,自动补全名称。演员亦是如此。对

9、于地区:如果地区为空,可通过演员,导演来推算是哪个地区。如果频道对应的剧集,影片。那么演员,导演不能为空。如果对应是动漫,那么作者不能为空。如果对应是综艺,那么主持人,电视台不能为空。不符合规则,转为人工代审核分布管理规则资源发布规则 根据资源的热度(点击率,排行,搜索次数)划分出若干个等级,根据热度等级的结合每个局点的缓存情况,下发到各个局点。例如将热度分为高,普通,低 3 个等级,对于等级为高的资源下发所有局点,对于热度为普通的资源只下发到缓存空间多的局点,对于热度等级为低的资源只下发到本地。缓存优化规则 1.当发现某个资源的缓存进度一直处于比较低的时候,根据规则替换或者删除该缓存2.当发

10、现一个资源被缓存多次时,应根据资源的缓存进度保留进度最高的资源,删除其他资源缓存。3.当发现局点缓存空间偏低,应根据每个资源的热度,缓存情况,清理资源,清理热度低,缓存进度低的资源。3.2 详细描述 1 资源处理流程图资源在入库前,会进行完整性校验,同批次去重,资源可靠性审核等多重步骤,保证进入元数据的资源是真实可用。 资源在入库后会定时调用审核规则查看资源库中的数据是否符合审核条件,对于已经失效的链接等进行剔除操作。并且对符合发布条件的资源调用 分布管理机制,保证资源的最大利用率。 2 资料处理流程图资料在入库前,会进行完整性校验,同批次去重,与元数据库去重等多重步骤,保证元数据的资料是唯一的。并且在入库之前也会调用什么审核规则,尽量提前修正资料的中错误。 资料在入库后会定时调用审核规则查看资料库中数据完整性,可靠性,并对一些数据自动进行校正,修正。并且对符合发布条件的资料进行发布。4 补充问题 合作伙伴引入调用接口在哪,该如何调用,能否提供?

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号