网络矿工采集器数据加工操作详解.doc

上传人:枫** 文档编号:562117910 上传时间:2023-08-04 格式:DOC 页数:3 大小:28.50KB
返回 下载 相关 举报
网络矿工采集器数据加工操作详解.doc_第1页
第1页 / 共3页
网络矿工采集器数据加工操作详解.doc_第2页
第2页 / 共3页
网络矿工采集器数据加工操作详解.doc_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《网络矿工采集器数据加工操作详解.doc》由会员分享,可在线阅读,更多相关《网络矿工采集器数据加工操作详解.doc(3页珍藏版)》请在金锄头文库上搜索。

1、网络矿工采集器数据加工操作详解网络矿工采集器提供了强大的数据编辑功能,在采集数据的同时即可完成数据加工操作,最终输出高质量的数据结果,下面对数据编辑的操作进行详细解释:1、 输出时去掉网页符号很容易理解,如果采集的数据含有网页符号,则会自动删除,何为网页符号,系统定义为一个完成的标签,或标签。2、 输出时附加前缀也很容易理解,在采集的数据前面增加字符串;3、 输出时附加前缀在采集的数据尾增加字符串;4、 左起去掉字符从采集的数据起始位置开始,删除指定数量的字符;5、 右起去掉字符从采集的数据尾开始,删除指定数量的字符;6、 替换其中符合条件的字符 OldValue:原有字符;NewValue:

2、新字符譬如采集的数据是:网络矿工数据采集软件,需要将“数据采集软件”替换成“采集器”,最终字符串味:网络矿工采集器如果替换成空字符,则等同于删除某些字符。注意:此方式不支持通配符;7、 去掉字符串的首尾空格不解释;8、 输出时采用正则表达式进行替换也是字符串替换,但支持正则,意味着替换的字符换可以更加灵活和方便。 OldValue:原有字符匹配的正则;NewValue:新字符。可以全部替换,全部替换则意味着可以输入一个固定值。替换成空字符也等同于删除。9、 根据指定的条件删除整行采集数据的时候,规则相同,数据就全部采集下来了,但有时有些数据我们并不一定全部需要,就可以通过此进行处理,譬如:如果

3、为空的数据我们可以删除,指定此选项即可,或者包含某些字符的数据我们也不需要,也可以指定条件删除即可。10、 必须包含指定的条件原理同上,只是换了一种条件的指定方式,必须包含某个字符串,不包含的全部删除。11、 将符合条件的数据置为空实际就是第5项的选择,直接将指定的字符串替换成空。更容易理解。12、 将Unicode码转换成汉字U码转汉字,如果网页源码中的汉字使用U码显示,可以用此来转换。譬如:u7f51u7edcu77ffu5de5,代表的就是“网络矿工”13、 需进行HTML解码严格讲不是解码,是转码,网页中有可能存在很多字符在网页中都是以编码后的形式显示,浏览器在展示数据的时候会自动转换

4、成字符,但采集的时候,就需要此选项进行转换了。譬如:" 代表的是 “ 0代表的是 0 ,如果不转换,我们是无法识别的。14、 去除网页代码,但保留段落换行符号保留段落,可以还原原文,但去掉网页符号,实际相当于去掉了对文章的格式化处理,同时也去掉了无用的数据。15、 去除网页符号,但将段落换行符号替换成rn同上,只是换行不是网页符号了,是文本符号;16、 自动编号 起始值对采集的数据增加一列输出自动编号;17、 将指定的符号替换成分行符号,并进行拆分行处理对采集的数据,按照标记进行拆行处理,但为何要进行拆行处理呢?可以实现数据一对多的采集,也可以对无明确标记的数据进行统一采集并进行分拆。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号