小白爬虫一个Python小白5个小时爬虫经历

pu****.1

实名认证

店铺

DOCX

16.04KB

约3页

文档ID:488507936

1/3页

点击查看更多>>

文本预览下载提示常见问题

小白爬虫一个Python小白5个小时爬虫经历　　序言　　最近业余在做一个基于.NET Core的搜索项目，奈何基层代码写好了，没有看起来很华丽的数据供测试很巧的也是博客搜索，于是乎想到了博客园C#也能做做页面数据抓取的，不过在博客园看到的大部分全部是python实现，因此就暂时想了一下看看python到底是什么东东，不看基础语法，不看语言功效，直接上代码，哪里不会搜哪里代码完成总共用时大约4个小时，其中搭建环境加安装BeautifulSoup大约1个小时解析HTML用时间最多了，边看demo边解析，大约2个小时，剩下的时间就是调试加保留数据了　　环境搭建　　既然用python，那么自然少不了语言环境于是乎到官网下载了版本的安装完以后，随机选择了一个xx器叫PyCharm，话说pythonxx器还真挺多的因为本人是小白，因此安装事项不在过多赘述　　建好项目，打开xx器，直接开工原来之前用C#写的时候，大致思绪就是获取网页内容，然后正则匹配以后发觉网上的帖子也很多不过在搜索过程中发觉，不提议用正则来匹配HTML有恰好我的正则不太好，因此我就搜了一下HTML解析工具，果不其然，人家全部做好了，直接拿来用吧。

没错就是这个东东：BeautifulSoup 安装也很简单，不过中间出了个小插曲，就是bs4没有继续搜，然后需要用pip安装一下就好了　　思绪分析　　博客吗，我当然就对准了博客园，于是乎，进入博客园首页，查看请求　　发送请求　　当然我不知道python是怎么进行网络请求的，其中还有什么和的不一样，中间曲曲折折了不少，最终还是写出了最简单的一段请求代码　　其实博客园这个请求还是挺标准的，哈哈恰好适合抓取因为她返回的就是一段html　　数据解析　　上文已经提到了，用到的是BeautifulSoup，好处就是不用自己写正则，只要依据她的语法来写就好了，在数次的测试以后最终完成了数据的解析先上一段HTML然后在对应下面的代码，可能看起来更轻松部分　　经过上文的HTML代码能够看到几点首先每一条数据全部在 div下然后 div下有用户信息，标题，链接，介绍等信息逐一依据样式解析即可代码以下：　　上边一堆代码下来，着实花费了我不少时间，边写边调试，边baidu~~不过还好最终还是出来了等数据全部整理好以后，然后我把它保留到了txt文件里面，以供其它语言来处理原来想写个put直接put到ElasticSearch中，奈何没成功。

后边在试吧，毕竟我的关键只是导数据，不在抓取这里　　上边呢，我取了一百页的数据，也就是大约2021条做测试　　结果验收　　废了好大劲最终写完那些代码以后呢，就能够享受胜利的果实了，即使是初学者，代码写的很渣，这参考一下，那参考一下，不过还是有些收获的运行效果以下：　　生成的文件：　　文件内容：　　总结　　一个简单的抓取程序就写完了，python还真是TM的好用以后有空再研究研究吧代码行数算上空行和注释总共 100 行凑个整数好看点~~现在认识字我感觉就能够上手写程序了。

下载提示

点击查看常见问题

相似文档

正为您匹配相似的精品文档

小白爬虫 一个Python小白5个小时爬虫经历

小白爬虫一个Python小白5个小时爬虫经历