《python爬虫程序设计》课程标准

资源描述

《《python爬虫程序设计》课程标准》由会员分享，可在线阅读，更多相关《《python爬虫程序设计》课程标准（15页珍藏版）》请在金锄头文库上搜索。

1、深圳信息职业技术学院软件学院 1 Python 爬虫程序设计课程标准爬虫程序设计课程标准课程名称：Python 爬虫程序设计适用专业：软件技术课程编码：参考学时：56 一、课程概述一、课程概述随着互联网技术的飞速发展，以及国家产业信息化进程的大力推进下，在大数据时代背景下，产生了对基于 Web 网站的数据的大量需求。快速、稳定、健壮、分布式的爬虫程序呼之欲出，业界对于爬虫程序的开发人员需求很大，而此类人才在目前的人才市场上比较稀缺，造成爬虫程序工程师等职位的需求缺口较大。本门课程旨在通过学习与实践培养学生的爬虫程序开发能力，为社会输送急需人才；课程对应的网页爬虫

2、开发工程师岗位有着相对较高的薪酬水平和较为广阔的发展前景，可以为参加学习的学生提供良好职业预期发展。本课程主要面向岗位为网页爬虫开发工程师，能力辐射岗位有：Web 开发工程师、数据分析师、测试工程师、文档工程师、售前/售后工程师等。 1.课程性质课程性质本课程注重对学生职业能力和创新精神、实践能力的培养。本课程旨在对学生的程序设计思想和技能进行，培养学生利用主流 scrapy 框架进行爬虫项目的设计与开发。 Python 爬虫程序设计课程是软件技术专业 Python 方向的专业核心课程，是融理论与实践一体化，教、学、做一体化的专业课程，是基于设计的工作过程系统化学习领域课

3、程，是工学结合课程。本课程的前续课程安排为：“Python 程序设计基础”、“ HTML5 基础”、“数据库技术”；与本课程可以平行开展的课程为 web 后台技术类课程如: “PHP 开发基础”、“Web 应用开发技术”等相关课程；本课程的后续课程为“Python 数据分析技术”。深圳信息职业技术学院软件学院 2 2 设计思路设计思路课程开发遵循的基于工作过程导向的现代职业教育指导思想，课程的目标是网页爬虫程序开发职业能力培养。课程教学内容的取舍和内容排序遵循以工作需求为目标原则，务求反映当前网页爬虫开发的主流技术和主流开发工具，同时重视软件工程的标准规范，重视业内

4、工作过程中的即成约定，努力使学生的学习内容与目标工作岗位能力要求无缝对接。本课程采用了“项目引领，任务驱动”的教学模式。在充分分析深圳市行业发展的特点与方向的基础上，分别选取了“Quotes to Scrapy”网站、“京东商城”等网站具有发展前景的行业中的知名互联网系统，在由浅入深、循序渐进的过程中要求学生设计实现目标项目，并将目前爬虫程序必备功能组件如用网页数据下载、数据分析、数据存储、网页递归爬取等技术作为项目中的系列任务。课程章节的演进则按照爬虫程序技术知识点的难易程度和之间的关联关系进行组织。在授课过程中，项目的主要开发阶段模块化，特定的功能任务化，学生在完

5、成各个“任务” 的同时，学习并掌握项目开发过程中所需的技能和应遵守的业内规范，为学生职业能力发展奠定良好的基础等。课程设计的总体原则是“基于课程对应的就业岗位工作过程”，基于此原则课程组进行了充分的调研，过程如下：第一步：岗位需求调研；第二步：确定课程对应的岗位能力需求；第三步：根据岗位能力需求确定教学目标；第四步：明确课程的学习任务；第五步：并根据任务设计学习活动二、课程目标二、课程目标本课程内容涵盖了对学生在“基本理论”、“基本技能”和“职业素质”三个层次的培养。以网页爬虫开发岗位必备的开发技能为重点并具备相应的理论基础的同 HTML5 基础 Python 程

6、序基础数据库技术 Python 爬虫程序技术 PHP 开发基础 Web 应用开发技术 Python 数据分析技术深圳信息职业技术学院软件学院 3 时，注重综合职业素质的养成，课程采用启发诱导式教学，鼓励学生“勤于思考，勤于动手”。 1)基本理论要求：掌握爬虫程序设计理念；掌握数据提取与存储思想掌握 scrapy 爬虫框架设计思想。 2)基本技能要求：熟练掌握 ullib 网页下载方法；熟练掌握正则表达式选取数据的规则；熟练掌握 BeautifulSoup 工具选择数据的方法；熟练掌握 xpath、css 选择数据的方法；熟练掌握 scrapy 网页爬取的工作流程；熟练掌

7、握 scrapy 中 Item、Pipeline 数据的序列化输出方法；熟练掌握 scrapy 中 Spider 的网页递归爬取技术；熟练掌握 scrapy 中中间件的使用方法； 3)职业素质要求：能够完成真实业务逻辑向代码的转化；能够独立分析解决技术问题；自学能力强，能够快速准确地查找参考资料；能够按照规范编写技术文档；沟通能力强，能够与小组其他成员通力合作。本门着重培养学生独立完成交互式爬虫程序项目的设计、开发以及测试等能力。课程对学生专业能力的培养及要求学生达到的水平目标如下表所示：编号编号能力目标能力目标知识水平目标知识水平目标 1使用 ullib 实现网页下载

8、能够通过 ullib 网页下载函数方法下载网页能够实现编码的转换 2使用正则表达式获取网页数据能够根据功能组件的不同实现需求，使用正则表达式匹配并提取网页中的数据 3使用 BeautifulSoup 工具选择数据能够使用 BeautifulSoup 工具选择数据掌握 find_all 等常用方法 4使用 xpath、 css 选择数据能够 xpath、css 选择复杂的数据 5使用 scrapy 编写网页爬能够使用 scrapy 网页爬取的工作流程爬取单个网页的某几个特深圳信息职业技术学院软件学院 4 虫程序征数据 6使用 Item、Pipeline 实现数据序列化与存

9、储能够使用 scrapy 中 Pipeline 进行数据提取与数据存储。 7使用 scrapy 实现网页递归爬取能够使用 scrapy 中 Spider 的网页递归爬取循环，能实现数据的提取与存储 8网站爬虫程序综合开发能够使用 scrapy 框架开发爬虫程序，爬取 Quotes Scrapy 网站的作者信息三、能力解析表三、能力解析表能力目标能力目标使用 ullib 实现网页下载编号编号1 具体描述能够通过 ullib 网页下载函数方法下载网页，实现编码的转换步骤1.搭建前端开发环境 2. 搭建后端静态网页 3.例用 urllib 下载后端网页 4.编写程序实现编码（GBK

10、,UTF-8)的自动识别与转换 5.存储网页到文件或者数据库工具与设备1.PC 2.Python 开发工具、PyCharm 等主流 IDE 3. Web 后台服务器，例如 IIS,Tomcat 等 4.互联网环境知识基础1.html 标准 2.GBK 、UTF8 编码规则 3. Python 程序基础 4. 数据文件或者数据库基础态度、素质1.负责任的态度 2.有进取心 3.遵守标签书写规范 4.自学能力强考核标准1.熟记 HTML 常用标签 2.GBK、UTF8 识别与转换知识与技能 3.Web 网站的访问与网页数据下载知识与技能 4.网页文件的存储知识与技能 5.urllib 库的

11、使用方法积件素材网站、教案、教学 PPT、经典案例、案例源代码、电子书、网络技术社区支持、图片深圳信息职业技术学院软件学院 5 能力目标能力目标使用正则表达式获取网页数据编号编号2 具体描述能够根据功能组件的不同实现需求，使用正则表达式匹配并提取网页中的数据步骤1. 搭建前端开发环境 2. 搭建 Web 后台静态网页 3.使用 urllib 函数方法下载网页 4.使用正则表达式匹配并提取网页的数据工具与设备1.PC 2.Python 开发工具、PyCharm 等主流 IDE 3. Web 后台服务器，例如 IIS,Tomcat 等 4.互联网环境知识基础1.html 标准 2.正则表

12、达式匹配符号 3. 匹配字符串的提取 4. 匹配字符串的存储态度、素质1.负责任的态度 2.有进取心 3.良好的代码习惯 4.自学能力强考核标准1.熟记正则表达式基本语法 2.熟记正则表达式匹配函数的使用 L 3.能够独立完成数据的匹配与提取 4.能够独立完成功能测试，并能够根据测试结果改进程序设计积件素材网站、教案、教学 PPT、经典案例、案例源代码、电子书、网络技术社区支持、图片能力目标能力目标使用 BeautifulSoup 工具选择数据编号编号3 具体描述能够使用 BeautifulSoup 工具选择数据，掌握 find_all 等常用方法步骤1. 搭建前端开发环境 2. 搭

13、建 Web 后台静态网页 3.使用 urllib 函数方法下载网页 4.使用 BeautifulSoup 提取网页的数据深圳信息职业技术学院软件学院 6 5.存储提取的数据工具与设备1.PC 2.Python 开发工具、PyCharm 等主流 IDE 3. Web 后台服务器，例如 IIS,Tomcat 等 4.互联网环境知识基础1.Select 选择器的使用 2.DOM 树的构建 3. Beautiful Soup 常用函数态度、素质1.负责任的态度 2.有进取心 3.良好的代码习惯 4.自学能力强考核标准1.掌握 DOM 树的构建方法 2.能够独立完成 BeautifulSoup

14、插件的下载与配置，使得插件在网页中正常运行。 3.能熟练使用 Beautiful Soup 常用函数提取网页数据积件素材网站、教案、教学 PPT、经典案例、案例源代码、电子书、网络技术社区支持、图片能力目标能力目标使用 xpath、css 选择数据编号编号4 具体描述能够 xpath、css 选择复杂的数据。步骤1. 搭建前端开发环境 2. 搭建 Web 后台静态网页 3.使用 urllib 函数方法下载网页 4.使用 BeautifulSoup 提取网页的数据 5.存储提取的数据工具与设备1.PC 2.Python 开发工具、PyCharm 等主流 IDE 3. Web 后台服务器

15、，例如 IIS,Tomcat 等 4.互联网环境知识基础1.DOM 树结构 2.xpath 选择器选择数据的规则 3.css 选择器选择数据的规则深圳信息职业技术学院软件学院 7 态度、素质1.负责任的态度 2.有进取心 3.良好的代码习惯 4.自学能力强考核标准1.DOM 树结构 2.xpath 选择数据的规则 3.css 选择器选择数据的规则积件素材网站、教案、教学 PPT、经典案例、案例源代码、电子书、网络技术社区支持、图片能力目标能力目标使用 scrapy 编写网页爬虫程序编号编号5 具体描述能够使用 scrapy 网页爬取的工作流程爬取单个网页的某几个特征数据步骤1. 搭

16、建 scrapy 开发环境 2. 搭建 Web 后台网页 3.使用 scrapy 爬取网页文件 4. 使用 xpath,css 获取特征数据工具与设备1.PC 2.Python 开发工具、PyCharm 等主流 IDE 3. Web 后台服务器，例如 IIS,Tomcat 等 4.互联网环境知识基础1.scrapy 框架知识与工作流程 2.spider 程序编写 3. xpath,css 数据提取 4. Python 的生成器态度、素质1.负责任的态度 2.有进取心 3.良好的代码习惯 4.自学能力强考核标准1.scrapy 框架知识与工作流程 2.spider 程序编写 3. xpath,css 数据提取 4. Python 的生成器的使用深圳信息职业技术学院软件学院 8 积件素材网站、教案、教学 PPT、经典案例、案例源代码、电子书、网络技术社区支持、图片能力目标能力目标使用Item、Pipeline 实现数据序列化与存储编号编号6 具体描述能够使用 scrapy 中 Pipeline 进行数据提取与数据存储。步骤1. 搭建

展开阅读全文