Python网络爬虫实习报告.doc

上传人:s9****2 文档编号:558500060 上传时间:2023-03-19 格式:DOC 页数:14 大小:474KB
返回 下载 相关 举报
Python网络爬虫实习报告.doc_第1页
第1页 / 共14页
Python网络爬虫实习报告.doc_第2页
第2页 / 共14页
Python网络爬虫实习报告.doc_第3页
第3页 / 共14页
Python网络爬虫实习报告.doc_第4页
第4页 / 共14页
Python网络爬虫实习报告.doc_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《Python网络爬虫实习报告.doc》由会员分享,可在线阅读,更多相关《Python网络爬虫实习报告.doc(14页珍藏版)》请在金锄头文库上搜索。

1、优选文档Python网络爬虫实习报告.优选文档目录一、选题背景.-2-二、爬虫原理.-2-三、爬虫历史和分类.-2-四、常用爬虫框架比较.-2-五、数据爬取实战(豆瓣网爬取电影数据).-3-1解析网页.-3-2爬取数据.-3-3数据整理、变换.-4-4数据保存、显现.-9-5技术难点要点点.-10-六、总结.-13-.优选文档一、选题背景二、爬虫原理三、爬虫历史和分类四、常用爬虫框架比较Scrapy框架:Scrapy框架是一套比较成熟的Python爬虫框架,是使用Python开发的快速、高层次的信息爬取框架,能够高效的爬取web页面并提取出结构化数据。Scrapy应用范围很广,爬虫开发、数据挖

2、掘、数据监测、自动化测试等。Crawley框架:Crawley也是Python开发出的爬虫框架,该框架致力于改变人们从互联网中提取数据的方式。Portia框架:Portia框架是一款赞同没有任何编程基础的用户可视化地爬取网页的爬虫框架。newspaper框架:newspaper框架是一个用来提取新闻、文章以及内容解析的Python爬虫框架。Python-goose框架:Python-goose框架可提取的信息包括:文章主体内容;文章主要图片;文章中嵌入的任heYoutube/Vimeo视频;元描述;元标签.优选文档五、数据爬取实战(豆瓣网爬取电影数据)1 解析网页# 获取html源代码def_

3、getHtml():data=pageNum=1pageSize=0try:while(pageSize=125):#headers=User-Agent:Mozilla/5.0(WindowsNT6.1)AppleWebKit/537.11(KHTML,likeGecko)Chrome/23.0.1271.64Safari/537.11,#Referer:None#注意若是仍旧不能够抓取的话,这里能够设置抓取网站的host# # opener=urllib.request.build_opener()# opener.addheaders=headersurl=https:/ datahtm

4、l%s%i =urllib.request.urlopen(url).read().decode(utf-8).优选文档data.append(urllib.request.urlopen(url).read().decode(utf-8)pageSize+=25pageNum+=1print(pageSize,pageNum)exceptExceptionase:raiseereturndata2 爬取数据def_getData(html):title=#电影标题#rating_num=#评分range_num=#排名#rating_people_num=#议论人数movie_author=

5、#导演data=#bs4解析htmlsoup=BeautifulSoup(html,html.parser)forliinsoup.find(ol,attrs=class:grid_view).find_all(li):.优选文档title.append(li.find(span,class_=title).text)#rating_num.append(li.find(div,class_=star).find(span,class_=rating_num).text)range_num.append(li.find(div,class_=pic).find(em).text)#spans=

6、li.find(div,class_=star).find_all(span)#forxinrange(len(spans):# ifx=2:# pass# else:#rating_people_num.append(spansx.string-len(spansx.string):-3)str=li.find(div,class_=bd).find(p,class_=).text.lstrip()index=str.find(主)if(index=-1):index=str.find(.)print(li.find(div,class_=pic).find(em).text)if(li.f

7、ind(div,class_=pic).find(em).text.优选文档=210):index=60# print(aaa)# print(str4:index)movie_author.append(str4:index)datatitle=title#datarating_num=rating_numdatarange_num=range_num#datarating_people_num=rating_people_numdatamovie_author=movie_authorreturndata3 数据整理、变换def_getMovies(data):f=open(F:/douban_movie.html,w,encoding=utf-8)f.write()f.write(Inserttitlehere)f.write()f.write(爬取豆瓣电影)f.write(作者:刘文斌).优选文档f.write(时间:+nowtime+)f.write()f.write()f.write()f.write()f.write(电影)#f.write(评分)f.write(排名)#f.write(fonts

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号