文档详情

小白爬虫 一个Python小白5个小时爬虫经历

pu****.1
实名认证
店铺
DOCX
16.04KB
约3页
文档ID:488507936
小白爬虫 一个Python小白5个小时爬虫经历_第1页
1/3

小白爬虫 一个Python小白5个小时爬虫经历   序言  最近业余在做一个基于.NET Core的搜索项目,奈何基层代码写好了,没有看起来很华丽的数据供测试很巧的也是博客搜索,于是乎想到了博客园C#也能做做页面数据抓取的,不过在博客园看到的大部分全部是python实现,因此就暂时想了一下看看python到底是什么东东,不看基础语法,不看语言功效,直接上代码,哪里不会搜哪里代码完成总共用时大约4个小时,其中搭建环境加安装BeautifulSoup大约1个小时解析HTML用时间最多了,边看demo边解析,大约2个小时,剩下的时间就是调试加保留数据了  环境搭建  既然用python,那么自然少不了语言环境于是乎到官网下载了版本的安装完以后,随机选择了一个xx器叫PyCharm,话说pythonxx器还真挺多的因为本人是小白,因此安装事项不在过多赘述  建好项目,打开xx器,直接开工原来之前用C#写的时候,大致思绪就是获取网页内容,然后正则匹配以后发觉网上的帖子也很多不过在搜索过程中发觉,不提议用正则来匹配HTML有恰好我的正则不太好,因此我就搜了一下HTML解析工具,果不其然,人家全部做好了,直接拿来用吧。

没错就是这个东东:BeautifulSoup 安装也很简单,不过中间出了个小插曲,就是bs4没有继续搜,然后需要用pip安装一下就好了  思绪分析  博客吗,我当然就对准了博客园,于是乎,进入博客园首页,查看请求  发送请求  当然我不知道python是怎么进行网络请求的,其中还有什么和的不一样,中间曲曲折折了不少,最终还是写出了最简单的一段请求代码  其实博客园这个请求还是挺标准的,哈哈恰好适合抓取因为她返回的就是一段html  数据解析  上文已经提到了,用到的是BeautifulSoup,好处就是不用自己写正则,只要依据她的语法来写就好了,在数次的测试以后最终完成了数据的解析先上一段HTML然后在对应下面的代码,可能看起来更轻松部分  经过上文的HTML代码能够看到几点首先每一条数据全部在 div下然后 div下有用户信息,标题,链接,介绍等信息逐一依据样式解析即可代码以下:  上边一堆代码下来,着实花费了我不少时间,边写边调试,边baidu~~不过还好最终还是出来了等数据全部整理好以后,然后我把它保留到了txt文件里面,以供其它语言来处理原来想写个put直接put到ElasticSearch中,奈何没成功。

后边在试吧,毕竟我的关键只是导数据,不在抓取这里  上边呢,我取了一百页的数据,也就是大约2021条做测试  结果验收  废了好大劲最终写完那些代码以后呢,就能够享受胜利的果实了,即使是初学者,代码写的很渣,这参考一下,那参考一下,不过还是有些收获的运行效果以下:  生成的文件:  文件内容:  总结  一个简单的抓取程序就写完了,python还真是TM的好用以后有空再研究研究吧代码行数算上空行和注释总共 100  行凑个整数好看点~~现在认识字我感觉就能够上手写程序了。

下载提示
相似文档
正为您匹配相似的精品文档