基于Python的电影票房信息数据的爬取及分析

资源描述

《基于Python的电影票房信息数据的爬取及分析》由会员分享，可在线阅读，更多相关《基于Python的电影票房信息数据的爬取及分析（42页珍藏版）》请在金锄头文库上搜索。

1、广东东软学院本科毕业设计（论文）本科毕业设计（论文）基于Python的电影票房信息数据的爬取及分析 Crawling and Analysis of Movie Box Office Information Data Based on Python 院（系）计算机科学与技术学院专业软件工程班级软件工程7班学号16210120710学生姓名李泽斌指导教师吴瑞然提交日期年月日1中文摘要现如今，人民群众对物质生活水平的要求已不再局限于衣食住行，对于精神文化有了更多的需求。电影在我国越来越受欢迎，电影业的发展越来越迅猛，为了充分利用互联网技术的发展，掌握电影业的态势，对信息进行挖掘和处理

2、、提高数据库的利用率，本文采用文献分析法，对网络爬虫的相关内容以及发展现状进行简单介绍，并利用网页抓取技术爬取电影票房网站的相关数据，进行分析，为票房分析提供数据支撑。关键词：Python 网络爬虫电影票房AbstractNowadays, the peoples requirements for material living standards are no longer limited to clothing, food, housing and transportation, and there is more demand for spiritual culture. Movies

3、 are becoming more and more Fashionable in China, and the movie industry is growing rapidly. In order to make full use of the development of Internet technology, grasp the situation of the movie industry, mine and process information, and improve the utilization rate of the database, This paper intr

4、oduces the content and development of web crawler by literature analysis, and use web page crawling technology to crawl and analyze the box office data related to movie websites, which provides powerful data support for box office analysis.Keywords: Python web crawler movie box office目录摘要1Abstract1

5、一、绪论31.1研究背景41.2研究现状41.3研究方法4二、系统开发工具与相关技术52.1 Python网络爬虫52.2系统开发工具52.2.1 pycharm工具52.2.2 MySQL数据库52.2.3 Hbuilder X工具62.3系统后台技术62.4 系统前端技术6三、系统分析83.1 系统功能分析83.2 系统功能性需求分析103.2.1 系统用户功能性需求分析103.2.2 系统管理员功能性需求分析123.3 数据获取143.4 数据分析133.5 数据展示13四、系统设计154.1文件结构图154.1.1前端demo文件结构图154.1.2后端爬虫系统文件结构图154.2前端

6、功能模块164.3登录与注册模块设计164.4数据库表设计174.5数据展示模块设计18五、系统实现205.1解决网站反爬机制205.2 实现网络爬虫235.2.1找出url变化规则并获取链接265.2.2解析并获取网页数据265.2.3将数据存储至数据库275.3 登录注册模块实现285.4 数据展示模块实现28六、票房网站信息数据爬取结果及分析326.1以2019年的票房榜单Top20为例分析326.2结果分析32七、结论与建议367.1结果分析367.2不足点367.3对未来的展望37参考文献38致谢39一、绪论1.1研究背景近几年，在网络Python语言强势的发展背景下，数据思

7、维及数据分析方法也逐渐被运用到各个领域当中，成为人们进行分析数据，传播内在规律的有效途径。要是我们只借助人力下载有关信息，不仅需要花费很多时间，而且得到的消息也非常少。网络爬虫是个可以自己获取网页的次序，它会在拥有大量信息的信息库里十分有效率地提取有用的信息，这就让解决和剖析数据变成了现实。网络爬虫会持续提取网页上的数据储存进本地，通过剖析和筛选，在缓存完成的数据中创建好指引并且把它们储存到体系里，可以协助之后要用的人更方便地查询以及搜索。爬虫系统很好的提取出藏匿在众多数据后的信息十分有效率地搜索，在很大程度上更好地运用了信息数据库。爬虫系统节约了很多人力阅读以及储存数据信息的时间，协助研究人

8、员以及储存众多信息，因此可以更加便捷地获取藏匿在数据之后的知识。中国的爬虫技能探究虽然开始研发时期比国外晚，但是发展的势头十分迅猛，成果显著。对爬虫技术的研究可以追溯到2003年，一些以数据探索为主题的学界研讨会渐渐在中国传播开来。从此之后，国内的研究人员开始慢慢涉足爬虫领域，并逐渐深入。直到2007年，一名研究人员在爬虫领域取得了新的突破。他就是浙大的罗兵教授。他的研究基于对古版互联网爬虫技能的精通，对剖析领域与支撑领域分别深入调研，使下载内容的分解过程得以完善。在此基础上，越来越多的学者在爬虫领域取得了新的突破。他们已经可以获取流动的互联网信息，提高了爬虫领域的使用效能。与此同时，也减轻了

9、使用户进行下载的压力。让下载的工作更加高效便捷。因此，更新换代之后的爬虫工具已经成为人们工作时用来信息查找，信息整理，数据分析的一大利器。爬虫工具的使用与发展不仅仅推动了爬虫技术的探究与发展，还十分有利于专家学者研究反爬虫技术。而电影行业的发展越来越快，越来越深入。电影行业的不断发光发热也引起了大量企业和国家统计部门的广泛关注。大数据的新基建的建设同时也加快了电影行业的发展，但是目前关于电影数据的采集和挖掘的技术方案还是不够完善。本文基于网络爬虫理论，开展电影票房相关数据的采集挖掘和分析，而如何从猫眼电影票房网站相爬取需要的数据，是本次项目的核心所在。本文通过python编写爬虫脚本以实现获取

10、票房数据的方案，并找出猫眼电影网的反爬机制，根据相关的反爬机制进行破解。最后把爬取到的数据以图表的形式进行分析介绍。1.2研究现状网络爬虫在消息探索与数值整理进程中发挥着关键作用，上世纪初，就已有科学家对爬虫开启探究模式，现今，爬虫技能已处于成熟阶段。网络爬虫可主动获取网络界面，从而自行下载主人所需要的东西，基本实现了大幅度的数据下载模式，也更便于人们利用其进行高效工作。在我国，爬虫技能发展的有关探究开启速度比较慢，但其后续的发展却非常迅猛。2003年该技能得到正式发展，国内数据探索的学论会越来越常态化，在该区域中的探究也随之扩展。2007年，浙大教授罗兵在旧版网络爬虫的基准上，增添了分析模型

11、，使对该内容的分析越发完善。近几年，经过我国学界的专家、学者们的积极探讨与破除障碍，使得我国流动性网络消息的获得能力不断提升，爬虫体系的效能也随之增强。既减弱了人工完成的压迫感，也逐步实现了高效率的下载任务，成为了大众查找、分解与融合信息中不可或缺的手段。1.3研究方法著作了解法撰写程序语言：Python语言、HTML语言、JS语言、css语言信息库技能：MySQL信息库技能二、系统开发工具与相关技术本章节主要表述该课题所开发的猫眼电影票房数据爬取系统开发所用到的工具及相关技术，还有技术介绍。2.1 Python网络爬虫Python语言是一种开源编程的语言，其强大的功能、简洁易懂的语法、系统兼

12、容性广以及学习上手成本低的优势受到许多开发者的青睐。Python具有高效率且简单地实现面向对象编程的优势。对于数据库也能直接方便的进行操作，在处理一些规模较大的数据分析上具有很高的效率。而网络爬虫，简言之，就是进行网页爬取，模拟普通用户去浏览网页却实际在爬取数据的过程。综合来说，python网络爬虫就是利用python这个程序语言来编写爬虫程序或者脚本。基于python的网络爬虫程序开发分为三个步骤：首先，做充分调研确立爬虫对象，然后深入调查该网站的反爬虫机制，然后编写爬虫程序并开展爬虫工作获取数据。将获取的数据经过清洗过滤，以png、excel、mp4等文件类型或者保存着数据库等方式，保存爬

13、取的数据。常见的网络爬虫有两种，分别是广度优先爬虫和聚焦爬虫。其中广度优先爬虫主要适用一般网络搜索引擎的网络爬虫对象，类似百度、谷歌以及搜狗搜索之类的搜索引擎，采用的网络爬虫主要是广度优先爬虫技术。而聚焦爬虫主要适用于垂直搜索引擎的网络爬虫对象。类似需要搜索某一领域的内容。本课题所采用的的也是这一类型的聚焦爬虫技术。综上可知，若想依据使用者自身的意见来获取目的网络界面的内容，满足自身的要求，最佳的办法便是以自身需要为主来编写爬虫次序。此探究驻足于猫眼电影网页的体系分解，对爬虫进程中会碰到的各种难题，以Python语言为基准撰写了对猫眼电影网电影信息数据获得的互联网爬虫程序。2.2系统开发工具2

14、.2.1.pycharm工具PyCharm是一款高效简洁的Python开发工具，代码分析能力强，用户在打代码的过程中可以快速补全pycharm所建议的代码，而且自带了多项编辑器。功能十分强大。2.2.2 MySQL数据库 MySQL数据库是一款强大的数据库，体积占比不大、学习成本低且系统兼容性十分优秀。在使用上方便易懂。2.2.3. Hbuilder X工具Hbuilder是一款HTML的编辑器，同时也结合了IDE。从外观上看，该工具界面清爽，而且性能敏捷使用起来很轻巧。2.3系统后台技术1. flask-web框架技术 Flask是一个的基于python的web框架。2.requests库r

15、equests库基于 urllib，在本系统里，requests库主要功能是请求目标网站、各种请求方法等方式。3. Beatifulsoup 库 BeautifulSoup一种解析器，是借助于Python进行开发的。该解析器将不规则标签进行整理，并且进一步建立分析树。Beautifulsoup组件的功能相当强大，其主要功是能够检索当前页的内容，按照需要选取有用的部分，且输出时能够自动校对格式。4. Numpy 库Numpy 库主要用于数组运算，在本系统中，破解猫眼电影字体反爬里有用到该库来计算欧氏距离配对字体。5. lxml库lxml库是一款解析器，在解析网页内容中发挥着不可或缺的角色。2.4系统前端技术1.layui框架技术layui是一款前端UI框架，高度模块化的独特设计，

展开阅读全文

基于Python的电影票房信息数据的爬取及分析

最新文档