基于大数据文本聚类关联的网络招聘信息挖掘

资源描述

《基于大数据文本聚类关联的网络招聘信息挖掘》由会员分享，可在线阅读，更多相关《基于大数据文本聚类关联的网络招聘信息挖掘（21页珍藏版）》请在金锄头文库上搜索。

1、教学单位湖北工程学院学生学号 012301124127 本科毕业论文(设计) 题目基于大数据文本聚类关联的网络招聘信息挖掘学生姓名郑小乐专业名称统计学指导教师张学新 2016年4月5日目录1、引言11、引言12、网络招聘信息挖掘综述12.1文本挖掘定义及特点12.1.1文本挖掘的定义12.1.2文本挖掘的特点12.2文本挖掘及其网络招聘信息挖掘的现状23、网络招聘信息挖掘步骤33.1读取网页招聘信息文本文件33.2招聘信息文本分词43.2.1分词43.2.2设置频繁出现的领域干扰词53.3词频统计与词云63.4招聘信息文本聚类分析73.4.1特征词权重73.4.2TF-IDF法

2、计算关键词权重83.4.3相似度计算83.4.4创建文本词条矩阵93.4.5K-均值聚类94、招聘信息文本Web图分析125、建议13参考文献15附录16致谢18基于大数据文本聚类关联的网络招聘信息挖掘摘要：随着计算机网络技术的迅速发展，网络招聘信息平台已成为招聘者发布信息和应聘者获取职位的主要途径。大量的网络招聘信息蕴含着用人单位丰富的需求知识，诸如对人才的能力、素质等方面的要求。本文自行爬取2015年11月-2016年4月拉钩网24万5千多条企业招聘信息，使用R语言编程，通过中文分词，设置频繁出现的领域干扰词，词频统计，文本向量化，应用k-均值聚类及网状Web图方法分析社会各行业对人才的

3、能力及素质要求，描绘企业基本信息、薪资水平、工作经验要求间的关联强度，给高校及时了解社会对人才的需求变化，有针对性的调整人才培养方案以及应届毕业生求职提出有益建议。关键词：大数据；网络招聘信息；聚类分析；Web图；R语言编程Online recruitment information mining by vast amounts of text clustering and associatingAbstract：Companying with computer network technology rapid development, network recruitment informat

4、ion platform has become a main way for recruiter to release information and for job seeker to get job. A large number of network recruitment information contains the knowledge of demand of units for employees, such as the requirement of talents ability and quality, etc. In this paper, more than 24,

5、5 thousands enterprises net recruitment information, from November 2015 to April 2016 in Lagou net are crawled out. through setting frequent field disturbance terms, Chinese word segmentation, word frequency statistics, text vectorization, k-means clustering using R language programming and Web diag

6、ram method are applied to excavate ability and quality requirements from social various industries for talents, to describe the correlation strengths among enterprise basic information, wages, job experience requirements for employees .Finally, some beneficial suggestions are put forward for college

7、s and universities to timely understand of the social demand for talents and targeted adjust the talent training scheme ,and some reference are provided for the fresh graduates to apply for a job.Key words: Big data; Network recruitment information; Clustering analysis; Web graph;R language programm

8、ing1、引言随着互联网技术的迅速发展，网上信息呈爆发式增长，这种增长超过了创造机器的速度，甚至超过了人们的想象。数据库中以文本形式存储的信息越来越多，包含各种数据源的文本，如研究报告、研究论文、数字图书馆、电子邮件和页面等。这些信息的存储方式分为两大类：一是可以用数字、符号等表示的结构化数据，另一类则是非结构化数据。其中非结构化数据的挖掘更难。当今，众多用户开始显示出对文本挖掘的兴趣，希望挖掘出有用的信息、规则。例如，企业把人才招聘信息越来越多的发布到互联网上，这些招聘信息含有用人单位对人才的需求及能力要求，在一定程度上代表了人才需求的未来走向。高校希望利用现代技术手段从互联网上获取有用信息

9、，分析用人单位对人才的需求特点，及时了解社会对人才的需求变化情况，有针对性的调整人才培养方案和设置相关课程，培养出更多的优秀人才以满足社会的需求。应聘者也需要从网络招聘信息平台获取信息，做好求职前的准备工作。本文利用八爪鱼采集器自行爬取拉勾网24万多海量企业招聘信息，应用R语言编程挖掘出一些有用的知识。 2、网络招聘信息挖掘综述2.1文本挖掘定义及特点2.1.1文本挖掘的定义网络招聘信息挖掘是一种文本挖掘。文本挖掘是指从大量文本数据中获取先前未知的模式，这种发现必须是可理解的、潜在有用的。分析文本数据，抽取文本信息，目标是发现文本知识。文本挖掘的主要难点在于它必须处理那些本来就模糊而且非结构

10、化的文本数据，是一个多学科混杂的领域，涵盖了统计学、机器学习、数据库技术以及专业软件使用等技术。2.1.2文本挖掘的特点1. 面对的是大量文本集合。2. 文本挖掘发现的知识是以前未发现的。3. 文本挖掘的知识具有潜在价值，是用户感兴趣的直接可用的。4. 文本挖掘算法具有较高的复杂度。5. 文本挖掘涉及多个学科交叉，包括模式识别、统计学、自然语言处理、可视化技术、数据库技术等。2.2文本挖掘及其网络招聘信息挖掘的现状文本挖掘最近几年在国外发展迅速，广泛应用于电子会议、邮件分类、垃圾信息过滤等多个方面1- 3。国内文本挖掘研究则较晚。早期主要是对Web文本挖掘技术研究的介绍 4。稍后主要聚焦于对

11、各种改进的k-均值聚类算法的精度进行实验研究。王智勇5应用基于词条互信息的统计降维和Kohonen网络相结合的文本聚类算法，测试搜狐网下载的已知类别的486篇文本的聚类精度。李伯阳6在网格聚类算法基础上进行文本聚类，将其应用于14524个垃圾邮件的甄别。蔡坤7基于topN特征词的文本聚类算法，采用复旦大学国际数据库中心自然语言处理小组公开提供的测试语料，从中随机抽取了五大类共200篇文本实证聚类效果。现在的研究则关注中文分词及应用。曾路平8采用中科院开发的ICTCLAS2009共享版进行中文分词，利用单词间的语义相关性，对公安情报系统中的舆情信息聚类分析。钟晓旭9-10先后对2010年的3家招

12、聘网站的78481条招聘信息及新安人才网上计算机类专业招聘信息进行聚类，统计各个职位的需求量，计算职位间的相关系数。王静11选择2011年的4家招聘网站，包括六种职业的2262个招聘网页，采用伪二维隐马尔可夫模型来分割，抽取其中的职位名、机构名等信息。马力12对302个浏览页面聚类分析，获得用户兴趣序列的频繁模式。王盛明，卢秉亮13从校图书馆读者借阅量表中抽取200名学生的记录，应用加权聚类算法划分读者群体。刘玉华等人14对某城市若干高校历年毕业生的就业数据进行聚类分析、关联分析，开发毕业生和企业间的双向推荐系统。总的来说，国内以上文本挖掘的研究深度有限，所用数据不是真正意义上的网络招聘数据，

13、各种改进的聚类算法的精度可信度不高。鲜见对网页里大量非结构化的招聘数据的挖掘研究。统计分析方法简单，特别的，很少使用软件编程。本文自行爬取2015年11月-2016年4月拉勾网（http:/ 网络招聘信息挖掘流程图3、网络招聘信息挖掘步骤3.1读取网页招聘信息文本文件本文首先通过八爪鱼采集器抓取拉钩网的招聘信息，然后汇总到一张csv表格，数据格式如图2所示：图2 网络招聘信息原始数据样例3.2招聘信息文本分词3.2.1分词为了统计分析，必须对获取的大量非结构化数据进行中文分词，提取有意义的中文单词。所谓中文分词指的是将一个汉字序列切分成单独的有意义的词条，以便为其建立索引。经过中文分词后，句子按照一定的规范重新组合成词序列。分词的准确性直接影响着文本挖掘结果的有效性，词分的越准确，对文本的挖掘与分析越能有效提取文本中蕴含的有用信息。本文采用ICTCLAS分词软件包对csv文本中的文本数据进行中文分词。ICTCLAS的分词速度快，精度高，具有词性标注、未登录词识别等功能，是当前世界上最好的汉语词法分析器。为了提高切词的准确率，在分词之前需要导入一些与文本数据相关的自定义词典。本文中文分词示例图3：图3 网络招聘信息文本分词3.2.2设置频繁出现的领域干扰词在分词结果中存在很多连

展开阅读全文