《python爬虫程序设计》课程标准

上传人:suns****4568 文档编号:60803857 上传时间:2018-11-18 格式:PDF 页数:15 大小:551.01KB
返回 下载 相关 举报
《python爬虫程序设计》课程标准_第1页
第1页 / 共15页
《python爬虫程序设计》课程标准_第2页
第2页 / 共15页
《python爬虫程序设计》课程标准_第3页
第3页 / 共15页
《python爬虫程序设计》课程标准_第4页
第4页 / 共15页
《python爬虫程序设计》课程标准_第5页
第5页 / 共15页
点击查看更多>>
资源描述

《《python爬虫程序设计》课程标准》由会员分享,可在线阅读,更多相关《《python爬虫程序设计》课程标准(15页珍藏版)》请在金锄头文库上搜索。

1、深圳信息职业技术学院软件学院 1 Python 爬虫程序设计课程标准爬虫程序设计课程标准 课程名称:Python 爬虫程序设计 适用专业:软件技术 课程编码: 参考学时:56 一、课程概述一、课程概述 随着互联网技术的飞速发展, 以及国家产业信息化进程的大力推进下, 在大 数据时代背景下,产生了对基于 Web 网站的数据的大量需求。快速、稳定、健 壮、分布式的爬虫程序呼之欲出,业界对于爬虫程序的开发人员需求很大,而此 类人才在目前的人才市场上比较稀缺, 造成爬虫程序工程师等职位的需求缺口较 大。 本门课程旨在通过学习与实践培养学生的爬虫程序开发能力, 为社会输送急 需人才; 课程对应的网页爬虫

2、开发工程师岗位有着相对较高的薪酬水平和较为广 阔的发展前景,可以为参加学习的学生提供良好职业预期发展。 本课程主要面向岗位为网页爬虫开发工程师,能力辐射岗位有:Web 开发 工程师、数据分析师、测试工程师、文档工程师、售前/售后工程师等。 1.课程性质课程性质 本课程注重对学生职业能力和创新精神、 实践能力的培养。 本课程旨在对学 生的程序设计思想和技能进行,培养学生利用主流 scrapy 框架进行爬虫项目的 设计与开发。 Python 爬虫程序设计 课程是软件技术专业 Python 方向的专业核心课程, 是融理论与实践一体化,教、学、做一体化的专业课程,是基于设计的工作过程 系统化学习领域课

3、程,是工学结合课程。 本课程的前续课程安排为:“Python 程序设计基础”、“ HTML5 基础”、“数 据库技术”;与本课程可以平行开展的课程为 web 后台技术类课程如: “PHP 开 发基础”、“Web 应用开发技术”等相关课程;本课程的后续课程为“Python 数 据分析技术”。 深圳信息职业技术学院软件学院 2 2 设计思路设计思路 课程开发遵循的基于工作过程导向的现代职业教育指导思想, 课程的目标是 网页爬虫程序开发职业能力培养。 课程教学内容的取舍和内容排序遵循以工作需求为目标原则, 务求反映当前 网页爬虫开发的主流技术和主流开发工具, 同时重视软件工程的标准规范, 重视 业内

4、工作过程中的即成约定, 努力使学生的学习内容与目标工作岗位能力要求无 缝对接。 本课程采用了“项目引领,任务驱动”的教学模式。在充分分析深圳市行业发 展的特点与方向的基础上,分别选取了“Quotes to Scrapy”网站、“京东商城”等网站 具有发展前景的行业中的知名互联网系统, 在由浅入深、循序渐进的过程中要求 学生设计实现目标项目, 并将目前爬虫程序必备功能组件如用网页数据下载、 数 据分析、数据存储、网页递归爬取等技术作为项目中的系列任务。课程章节的演 进则按照爬虫程序技术知识点的难易程度和之间的关联关系进行组织。 在授课过 程中,项目的主要开发阶段模块化,特定的功能任务化,学生在完

5、成各个“任务” 的同时, 学习并掌握项目开发过程中所需的技能和应遵守的业内规范, 为学生职 业能力发展奠定良好的基础等。 课程设计的总体原则是“基于课程对应的就业岗位工作过程”, 基于此原则课 程组进行了充分的调研,过程如下: 第一步:岗位需求调研; 第二步:确定课程对应的岗位能力需求; 第三步:根据岗位能力需求确定教学目标; 第四步:明确课程的学习任务; 第五步:并根据任务设计学习活动 二、课程目标二、课程目标 本课程内容涵盖了对学生在“基本理论”、“基本技能”和“职业素质”三个层次 的培养。 以网页爬虫开发岗位必备的开发技能为重点并具备相应的理论基础的同 HTML5 基础 Python 程

6、序基础 数据库技术 Python 爬虫程序技术 PHP 开发基础 Web 应用开发技术 Python 数据分析技术 深圳信息职业技术学院软件学院 3 时,注重综合职业素质的养成,课程采用启发诱导式教学,鼓励学生“勤于思考, 勤于动手”。 1)基本理论要求: 掌握爬虫程序设计理念; 掌握数据提取与存储思想 掌握 scrapy 爬虫框架设计思想。 2)基本技能要求: 熟练掌握 ullib 网页下载方法; 熟练掌握正则表达式选取数据的规则; 熟练掌握 BeautifulSoup 工具选择数据的方法; 熟练掌握 xpath、css 选择数据的方法; 熟练掌握 scrapy 网页爬取的工作流程; 熟练掌

7、握 scrapy 中 Item、Pipeline 数据的序列化输出方法; 熟练掌握 scrapy 中 Spider 的网页递归爬取技术; 熟练掌握 scrapy 中中间件的使用方法; 3)职业素质要求: 能够完成真实业务逻辑向代码的转化; 能够独立分析解决技术问题; 自学能力强,能够快速准确地查找参考资料; 能够按照规范编写技术文档; 沟通能力强,能够与小组其他成员通力合作。 本门着重培养学生独立完成交互式爬虫程序项目的设计、 开发以及测试等能 力。课程对学生专业能力的培养及要求学生达到的水平目标如下表所示: 编号编号能力目标能力目标知识水平目标知识水平目标 1使用 ullib 实现网页下载

8、能够通过 ullib 网页下载函数方法下载网页 能够实现编码的转换 2使用正则表达式获取网 页数据 能够根据功能组件的不同实现需求, 使用正则表达式匹配并提取 网页中的数据 3使用 BeautifulSoup 工具 选择数据 能够使用 BeautifulSoup 工具选择数据 掌握 find_all 等常用方法 4使用 xpath、 css 选择数据 能够 xpath、css 选择复杂的数据 5使用 scrapy 编写网页爬 能够使用 scrapy 网页爬取的工作流程爬取单个网页的某几个特 深圳信息职业技术学院软件学院 4 虫程序征数据 6使用 Item、Pipeline 实现 数据序列化与存

9、储 能够使用 scrapy 中 Pipeline 进行数据提取与数据存储。 7使用 scrapy 实现网页递 归爬取 能够使用 scrapy 中 Spider 的网页递归爬取循环,能实现数据的 提取与存储 8网站爬虫程序综合开发 能够使用 scrapy 框架开发爬虫程序,爬取 Quotes Scrapy 网站的 作者信息 三、能力解析表三、能力解析表 能力目标能力目标使用 ullib 实现网页下载编号编号1 具体描述能够通过 ullib 网页下载函数方法下载网页,实现编码的转换 步骤1.搭建前端开发环境 2. 搭建后端静态网页 3.例用 urllib 下载后端网页 4.编写程序实现编码(GBK

10、,UTF-8)的自动识别与转换 5.存储网页到文件或者数据库 工具与设备1.PC 2.Python 开发工具、PyCharm 等主流 IDE 3. Web 后台服务器,例如 IIS,Tomcat 等 4.互联网环境 知识基础1.html 标准 2.GBK 、UTF8 编码规则 3. Python 程序基础 4. 数据文件或者数据库基础 态度、素质1.负责任的态度 2.有进取心 3.遵守标签书写规范 4.自学能力强 考核标准1.熟记 HTML 常用标签 2.GBK、UTF8 识别与转换知识与技能 3.Web 网站的访问与网页数据下载知识与技能 4.网页文件的存储知识与技能 5.urllib 库的

11、使用方法 积件素材网站、教案、教学 PPT、经典案例、案例源代码、电子书、网络技术社区支持、图片 深圳信息职业技术学院软件学院 5 能力目标能力目标使用正则表达式获取网页数据编号编号2 具体描述能够根据功能组件的不同实现需求,使用正则表达式匹配并提取网页中的数据 步骤1. 搭建前端开发环境 2. 搭建 Web 后台静态网页 3.使用 urllib 函数方法下载网页 4.使用正则表达式匹配并提取网页的数据 工具与设备1.PC 2.Python 开发工具、PyCharm 等主流 IDE 3. Web 后台服务器,例如 IIS,Tomcat 等 4.互联网环境 知识基础1.html 标准 2.正则表

12、达式匹配符号 3. 匹配字符串的提取 4. 匹配字符串的存储 态度、素质1.负责任的态度 2.有进取心 3.良好的代码习惯 4.自学能力强 考核标准1.熟记正则表达式基本语法 2.熟记正则表达式匹配函数的使用 L 3.能够独立完成数据的匹配与提取 4.能够独立完成功能测试,并能够根据测试结果改进程序设计 积件素材网站、教案、教学 PPT、经典案例、案例源代码、电子书、网络技术社区支持、图片 能力目标能力目标使用 BeautifulSoup 工具选择数据编号编号3 具体描述能够使用 BeautifulSoup 工具选择数据,掌握 find_all 等常用方法 步骤1. 搭建前端开发环境 2. 搭

13、建 Web 后台静态网页 3.使用 urllib 函数方法下载网页 4.使用 BeautifulSoup 提取网页的数据 深圳信息职业技术学院软件学院 6 5.存储提取的数据 工具与设备1.PC 2.Python 开发工具、PyCharm 等主流 IDE 3. Web 后台服务器,例如 IIS,Tomcat 等 4.互联网环境 知识基础1.Select 选择器的使用 2.DOM 树的构建 3. Beautiful Soup 常用函数 态度、素质1.负责任的态度 2.有进取心 3.良好的代码习惯 4.自学能力强 考核标准1.掌握 DOM 树的构建方法 2.能够独立完成 BeautifulSoup

14、 插件的下载与配置,使得插件在网页中正常运行。 3.能熟练使用 Beautiful Soup 常用函数提取网页数据 积件素材网站、教案、教学 PPT、经典案例、案例源代码、电子书、网络技术社区支持、图片 能力目标能力目标使用 xpath、css 选择数据编号编号4 具体描述能够 xpath、css 选择复杂的数据。 步骤1. 搭建前端开发环境 2. 搭建 Web 后台静态网页 3.使用 urllib 函数方法下载网页 4.使用 BeautifulSoup 提取网页的数据 5.存储提取的数据 工具与设备1.PC 2.Python 开发工具、PyCharm 等主流 IDE 3. Web 后台服务器

15、,例如 IIS,Tomcat 等 4.互联网环境 知识基础1.DOM 树结构 2.xpath 选择器选择数据的规则 3.css 选择器选择数据的规则 深圳信息职业技术学院软件学院 7 态度、素质1.负责任的态度 2.有进取心 3.良好的代码习惯 4.自学能力强 考核标准1.DOM 树结构 2.xpath 选择数据的规则 3.css 选择器选择数据的规则 积件素材网站、教案、教学 PPT、经典案例、案例源代码、电子书、网络技术社区支持、图片 能力目标能力目标使用 scrapy 编写网页爬虫程序编号编号5 具体描述能够使用 scrapy 网页爬取的工作流程爬取单个网页的某几个特征数据 步骤1. 搭

16、建 scrapy 开发环境 2. 搭建 Web 后台网页 3.使用 scrapy 爬取网页文件 4. 使用 xpath,css 获取特征数据 工具与设备1.PC 2.Python 开发工具、PyCharm 等主流 IDE 3. Web 后台服务器,例如 IIS,Tomcat 等 4.互联网环境 知识基础1.scrapy 框架知识与工作流程 2.spider 程序编写 3. xpath,css 数据提取 4. Python 的生成器 态度、素质1.负责任的态度 2.有进取心 3.良好的代码习惯 4.自学能力强 考核标准1.scrapy 框架知识与工作流程 2.spider 程序编写 3. xpath,css 数据提取 4. Python 的生成器的使用 深圳信息职业技术学院软件学院 8 积件素材网站、教案、教学 PPT、经典案例、案例源代码、电子书、网络技术社区支持、图片 能力目标能力目标使用Item、Pipeline 实现数据序列化与存储编号编号6 具体描述能够使用 scrapy 中 Pipeline 进行数据提取与数据存储。 步骤1. 搭建

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 其它文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号