如何实现新浪微博博主微博信息采集与监控

上传人:mg****85 文档编号:34835084 上传时间:2018-03-02 格式:DOCX 页数:12 大小:3.28MB
返回 下载 相关 举报
如何实现新浪微博博主微博信息采集与监控_第1页
第1页 / 共12页
如何实现新浪微博博主微博信息采集与监控_第2页
第2页 / 共12页
如何实现新浪微博博主微博信息采集与监控_第3页
第3页 / 共12页
如何实现新浪微博博主微博信息采集与监控_第4页
第4页 / 共12页
如何实现新浪微博博主微博信息采集与监控_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《如何实现新浪微博博主微博信息采集与监控》由会员分享,可在线阅读,更多相关《如何实现新浪微博博主微博信息采集与监控(12页珍藏版)》请在金锄头文库上搜索。

1、新浪微博博主微博信息采集与监控 随着大数据和社交网络的火爆发展,社交网络上产生的数据也越来越有价值,特别是微博 微信作为时下最火热的社交平台,如果能对这两个平台上的数据进行深入分析挖掘,那么价值 将非常巨大,但是在采集过程中,很多朋友也因为新浪的防采集很是头痛,笔者通过多方比 较尝试, 笔者最终顺利完成了整个数据采集过程, 要采集的数据为指定城市的所有微博用户的 相关信息。比如微博内容、微博评论数、微博转发数等等,进入正题,看看具体一步一步怎么 操作来实现的。 此次的教程需要用到的是熊猫采集软件,这是新一代的智能采集器,操作非常简单容 易,不需要专业基础,新手首选。且功能特别强悍复杂,只要是浏

2、览器能看到的内容,都 可以用熊猫批量的采集下来。如各种电话号码邮箱,各种网站信息搬家,网络信息监控、 网络舆情监测、股票资讯实时监控等等。 如果有兴趣的看官们,可以百度熊猫采集软件下载即可,熊猫的免费版就已经包含我 下面演示所以功能。 好了,下面进入我们的采集微博环节吧! 首先,我们打开我们这次采集需要的工具,也就是熊猫采集器,点击新建项目(标准) 这个时候是进入我们的基础设置,在这里,我们可以给我们创建的项目命名一个名称 已方便我们以后好区分我们之前设置过的项目,当然,我们不设置也是可以的,因为我这 里是采集新浪微博的信息,我就去了一个新浪采集的名称。进入到标题列表页及其翻页设置,列表页是包

3、含我们要采集内容的链接网址的页面, 比如百度搜索一个关键词,会列出来很多网页,这些网页我们就可以认为是标题列表页面。 在这里,其实我们见到的每一个博主发的微博就是我们要的标题列表页面,但是我们不能 将上面的网址拷贝到熊猫中,因为真正的内容是 js 加载进来的,我们需要通过第三方软件, 也就是抓包工具,找到我们要采集的这些数据真实存在的地方(目前大部分浏览器是自带 抓包的,不是很明白看客可以百度查看一下抓包的说明) 。 这里我就利用浏览器抓包来获取我们要采集的部分数据了:右击浏览器空白地方会有 一个审查元素。点击进入,如图: 然后 我们刷新一下这个内容页面,也就是我们的模板页面,会发现出现很多网

4、址,这 时候我们要采集的东西就可以在这些网址里面进行查找;在新浪上面,我们通过抓包找到真实页面的网址是下面我们看到的网址 当然,这样的网址后面有太多参数,看起来很不舒服,有些参数对我们来说是没有作 用的,所以我们可以适当的去删除一些没有作用的参数,下面是我简化过后的网址因为这个网址是特殊的网页,里面的内容都被进行了编码,所以我们在配置项目的时 候到熊猫软件的高级项目设置里面勾选上一个功能即可处理,就可以将这些编码还原成正 常文字。点击确认出来即可,将我们刚刚抓包抓到的网址放入到熊猫中, 点击开始运行分析:这个提示框的意思是,如果我们需要采集多页,也就是翻页采集,那么我们选择是即 可(注意,选择

5、是的时候再极少情况下可能将我们的翻页设置设置的并不准确,这个时候 我们就选择否,然后自行进行翻页设置) ,如果不需要,则选择否即可,这个可以根据我们 的需要进行设置。这里面的翻页设置很特殊,由于这里的信息我们是用来监控用的,所以 没必要采集后面一些比较旧的信息,暂且就不在这里做分页了。所以选择否,这个时候, 我们突然发现分析什么都没分析出来,原因是因为新浪的访问需要带上 cookie 去访问,我 们去做一个模拟登录就可以了。如图: 放入到熊猫模拟登录再次去运行我们这个网址,发现出来内容了,如下图 这个时候出现了、 n 、 / 等一些转义字符,这个时候我们就需要将源码进行一个修 缮了,将这些东西

6、都恢复到一个我们看起来很正常的状态下面附上我的详细修缮图,做完这些工作,我们再去分析,发现已经没有任何问题了,如下图 这个时候再点击下一步设置,进入到选择内容页的设置,因为我们要进去采集的每一 个博主每发的一个博客,我们都是通过点击时间才能进去看,也就是所我们在选择内容页 的地方应该将时间框选起来,如下图再选中下面的需要同时采集改链接所斜内容, 这里我们要采集的内容页链接都被正确的包含起来,那么我们就直接下一步,进入到 内容页面模板管理,这里系统默认会把我们在上一步选中的链接作为模板,在这里,我们 也可以自己选择一个链接作为模板,只要把网址粘贴到添加新模板按钮左边的文本框里, 点击添加新模板即

7、可,但是这里我们就不要自己去找模板了,直接使用上一级传过来的就 可以了。如下图:进入之后,我们就能里面看见刚刚父页面的内容了,有正文内容,有转发 有评论,这 个时候我们就可以将我们需要的内容框选住,采集下来即可 这样,我们的博主微博的采集就全部设置完毕,我们点击出来运行一下我们的项目, 这里你可以采集的是任何一个博主,不必非和我这个一样。可以看出,我们的信息已经全部爬下来了。这样,我们整个教程也就结束了,有兴趣 的看官们也可以自己试试,我这里以后也会持续更新更多的采集案例。 教程注意:1.因为采集的新浪网站,所以速度不宜太快,不然会容易封号,我们也可 以多准备几个账号,然后换下 cookie 即可继续采集 2.如果我们需要监控多个博主,我们首先要字段博主的 id ,也就是我们网址 id 后面的 那些数字,最后利用熊猫的翻页方式 2 里面的方法 2 进行多个博主的监控,如下图 这样就实现了对多个博主博客的监控了。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号