基于python的Web数据挖掘技术

上传人:碎****木 文档编号:220862818 上传时间:2021-12-09 格式:DOCX 页数:3 大小:14.52KB
返回 下载 相关 举报
基于python的Web数据挖掘技术_第1页
第1页 / 共3页
基于python的Web数据挖掘技术_第2页
第2页 / 共3页
基于python的Web数据挖掘技术_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《基于python的Web数据挖掘技术》由会员分享,可在线阅读,更多相关《基于python的Web数据挖掘技术(3页珍藏版)》请在金锄头文库上搜索。

1、基于 python 的 Web 数据挖掘技术摘要:本文对 python 数据挖掘简要说明,并对其对 Web 数据挖掘环节的框架构造以及 python 库的进展介绍,明确其数据挖掘流程。关键词:python;数据挖掘;Web 数据引言:python 为当前程序设计过程运用的脚本语言,因其具有良好的交互性、面对对象以及解释性,因此使用此语言完成代码编写可读性良好,程序的开发方面更加高效,维护便利,可 以用其开放数据挖掘。一、python 数据挖掘概述python 性价比较高,初学者易于学习,因其使用环境活泼,据统计,python 渐渐超过Java 和 c 语言,成为排名第一的热门设计语言。随着投入

2、增加,python 代码库以及社区等功能日益完善。当前,数据挖掘成为计算机行业热议话题,数据挖掘环节可与python 语言严密结合,借助其代码库,为用户供给强大计算力量,利用python 功能完成 Web 数据的挖掘。二、python 的 Web 数据挖掘技术一爬虫框架spider 称为网络爬虫,即设定规章,通过网络抽取信息的程序。网络之中信息种类丰富, 为猎取精准数据,爬虫渐渐成为各行业必修课程,加速搜寻引擎的进展。在Web 网页当中含有大量数据源,爬虫程序的设计,可为数据挖掘奠定根底。网络爬虫的设计环节,运用python 语言优势独特,scrapy 框架即为其中之一,利用 Python 社

3、区库中的功能,简化 scrapy 框架,在其中参加定制爬虫规章,即可运行,猎取对应网页数据。二python 库介绍数据采集完毕之后,需要进入分析、建模等,python 在整合、开发过程,工具库较为完善,常用的 python 库有如下几种:第一,pymongo 库,借助其可连接本地效劳器以及远程效劳器的 mongoDB 数据库,数据猎取之后,将价值信息通过文档形式存储于其中,利于使用者机敏增加或者删改数据。使用 pymongo 对数据库开放操作前,仅需假设干代码,即可实现。可呈现出 python 语言运用便利的特点。其次,numpy 工具库,基于 python 语言而开发出的数据运算库,能够对矩

4、阵数据开放大规模运算,同时供给各类计算工具,实现线性代数类运 算功能。第三,pandas 库,属于数据分析的工具包,将数据分析各项功能集合一起,通过pandas 库,能够汇总二维数据表,进而猎取平均数最值以及正态分布信息。第四,matplotlib 库,可处理简洁代码,并对折线图、散点图或者直方图等开放数据分析,以简洁操作完成可 视化分析。第五,sklearn 库,其中封装各类算法,包括回归、分类、降维等算法,同时还具备预处理和模型选择各项功能。三实现流程结合上文介绍,利用 python 开放数据挖掘,主要通过对信息的采集、处理、建模和评估等流程实现,下文以聘请数据的挖掘为例,具体介绍实现流程

5、。1. 数据采集先介绍爬取动作,依据爬虫规律开放推断,选取初始页面,在“聘请”属性当中将页面 URL 值添加其中,之后定位爬取页数,通过init 添加爬取页数,循环爬虫环节仅需在当前页 码完成p 值修改,即可开放后续爬取操作。利用parse 完成指定 URL 恳求数据的猎取,并和详情页之间进展连接,发送恳求数据,此恳求可指定callback 返回数据,利用 fetch data 回调函数完成数据解析。返回的数据,可依据xpath 路径,通过 response 提取信息,经简洁处理之后和 item 属性共同绑定,并返回 pipelines 组件当中,步入下一处理流程。待全部页面总 链接信息被猎取

6、完毕之后,通过 pipelines 完成格式重组。利用 spider 模块,将恳求数据传输给 pipelinenes,整合数据,并和数据库相连,将数据处理恳求添加至items 属性当中,建立数据库构造。之后开放连接操作。利用pypongo 库,和 mongodb 库相连,使用简洁代码完成远程数据库增减。并利用 pipelines 当中 process item 方法,存储格式化数据,完成爬虫设置, 利用 scrapy 指令操作数据采集。2. 数据预处理处理过程,主要检查采集数据准确性,检验其和初始设计属性是否全都,利用mongodb 将数据导出,利用 mango shell 语句实现,之后通过

7、 pandas 当中 read_csv 将数据变量 data 载 入其中,分别对数据总数和列数开放校验,并输出结果,采集和校验属性全都那么代表校验成 功。对于离散点的检测需要依据以下流程进展:第一,先猎取职位类别数据,通过data position describe 能够查询对应列数据分布,由于职位分析环节过程相像,因此,此次抽取仅对“软件工程师”这一消灭频率最高的职位开放描述;其次,猎取 “软件工程师”全部聘请数据, 通过 pandas 当中 data Frame 以及 value counts 能够统计出此职位薪资分布的数据状况,在全部聘请信息中,频数消灭为 1 的信息占据比例 0.09%

8、,因此呈现出单列特性,难以将数据分布规律呈现出来,这类离群特性数据应进展删除。3. 数据建模使用决策树完成建模,预备训练集和测试集,利用训练集生成数据模型,使用从测试集中分别出来的数据,开放决策树测试。数据处理之后,从剩余数据当中分别出训练集与测试集,将 test size 值设置为 0.2,依据数据比例 4:1 划分训练集、测试集数据,并使用knn 算法,完成决策树模型建立。此算法同样需要抽取数据集。4. 评估模型针对决策树的模型评估,利用 sklearn 当中,decision tree classifier 决策树建模,通过xtest 和 ytest 开放测试与操作,运行流程为:#推测

9、pre=neigh.predictx-test。上述运行流程,pre 代表测试集当中推测结果,利用混合矩阵开放结果分析。在sklearn 当中封装了此方法,因此可用该代码完成混淆矩阵生成,针对模型分类开放结果评估。在混淆矩阵下,能够猎取模型识别率以及误分类率,准确率高达96.94%,错误率为 3.06%。和决策树模型评估方式一样,使用 knn 分析模型,同样通过推测结果猎取混淆矩阵,结果说明模型识别准确率为89.05%,失误率为 10.95%。完毕语:数据挖掘为热门应用,借助 python 计算力量和技术库作为工具,开放数据挖掘,并分析建模,可获得信息的分类模型。在 python 开发环境下,实现对数据采集、分析、处理和建模等,准确率较高,可为相关行业信息猎取供给巨大支持。参考文献:1 杨迎.基于 Python 语言的 Web 数据挖掘与分析争辩J.现代信息科技,2021,323:63-65.2 韦建国,王建勇.基于 Python 的 Web 数据挖掘应用J.浙江水利水电学院学报,2021, 3104:79-82.3 王志俊.试论数据挖掘技术在 Web 预取中的应用J.科技资讯,2021,1721:19-20.作者简介:赵伟,男,汉族,陕西凤县,本科,广西桂林,争辩方向:计算机科学与技术。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 教育/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号