职场新人识别－金锄头文库

资源描述

《职场新人识别》由会员分享，可在线阅读，更多相关《职场新人识别（22页珍藏版）》请在金锄头文库上搜索。

1、B 题：职场新人识别题：职场新人识别职场新人识别摘要摘要本文以层次分析方法为基础，解决了职场新人识别和职场新人教育背景的识别以及预测数据不全的职场新人职业类型的问题，并对作了分析，以方法检验了模型的准确性和方法的可靠性。对于问题（1），为了识别该城市的职场新人，首先筛选出 15 至 30 岁的手机用户群体，再在这些群体中选择，消费金额，流量费，市话费，长话费，通话费，短信费，上网流量，上网时长 9 个因素为主要影响因素，控制各个影响因素合适的标准得到 190 个职场新人，让这 190 个职场新人作为判断综合评分范围。再利用主成分分析法得到主成分 F 与各原始变量 X 的线性组合关系

2、,建立了主成分分析方法的数学模型,同时计算各个主成分的贡献率和累加贡献率，得到主成分的关系表达式。然后计算 190 个职场新人的综合得分和所有手机用户的综合得分，如果属于职场新人的得处分处在得分区间就可以得到该城市的职1场新人。对成分分析模型进行了求解，得到的结果是一共有 7058 职场新人，结合附件 4 的区号，可以知道该结果比较符合安徽省合肥市实际的就业情况，误差较小。对于问题（2），基于筛选出的职场新人，这些职场新人中，有一部分的职场新人信息不详，为了补全这些信息不详的职场新人，我们建立了 BP 神经网络模型, 利用训练网络来预测这些信息，并对 BP 神经网络模型进行了求解

3、，由于神经网络模型的不稳定性，多次运行程序进行训练就可以得到这些手机价格的稳定值。对于问题（3），由于问题已经筛选出了职场新人，并且这些职场新人的职业类型有 50 类，对于其他职业信息不详的手机用户，我们不考虑这些手机用户属于其他职业，采用距离判别分析模型，将这些职业作为总体,各个职业类型不详的手机用户作为样本，计算各个样本与总体之间的马氏距离，将马氏距离最小的与总体归为一类，就可以预测出这些职业信息不详的职场新人的职业类型。对于问题（4），为了确定该城市职场新人的教育背景，在问题一筛选出来的所有职场新人的基础上，我们将所有的职场新人分为硕博生，本科生，专科生，以及专科以

4、下四类人，建立距离判别模型，再通过 SPSS 得到 4 类聚类中心，计算每一类偏离聚类中心的距离，偏离聚类中心越小的手机用户其学历越高，即偏离聚类中心最远的为专科及以下学历。关键词：主成分分析法，BP 神经网络模型，聚类分析法，马氏距离，SPSS 因子分析法。一问题重述一问题重述职场新人，通常指处于毕业前的实习阶段或刚毕业离开校园（专科或专科以上）工作不到 1 年的年轻群体。他们虽然收入不高，但暂时也没有太多压力，经常追求新鲜事物、乐于且敢于消费。他们有着各自的职业追求，是社会的潜在精英，将成为运营商未来的高端用户。职场新人正处于人生的十字路口，在各方面即将进入全面转型。根据

5、以上数据，请建立数据模型并解决以下问题：根据附表中的数据，识别该城市的职场新人；对于手机信息不详的职场新人，请估算其终端大致的价格范围；对于职业类型不详的职场新人，请预测其职业类型；请识别职场新人的教育背景，如重点院校、非重点院校、专科本科、硕博等；二问题分析二问题分析2问题一主要研究该城市职场新人的识别问题，首先用 Excel 筛选出 15 至 30 岁大约 10 万个手机用户年轻群体，由于问题可能的影响因素较多，我们只考虑套餐档次，消费等 9 个主要影响因素，然后根据实际情况确定职场新人的标准，筛选出理想的职场新人，最后用主成分分析法得到各个主要影响因素的贡献率，利用所有手机

6、用户年轻群体的综合得分就可以筛选得到该城市的职场新人。问题二主要研究信息不详的职场新人的终端大致价格范围，利用 BP 神经网络模型对这些影响因素多次进行训练得到稳定的价格值。问题三主要研究信息不祥的职场新人的职业类型，将职场新人分为 27 类职业，在这里我们假定职业信息不详的人只属于这 27 类职业，不存在属于其他职业的情况，采用距离判别法，这些手机用户离哪个职业最近就可以得到信息不全的人属于哪一个职业。问题四主要研究职场新人的教育背景问题，正常情况下，重点院校对学历要求较高，因此我们考虑硕士以上学历的为重点院校的。我们将所有职场新人分为硕博生，本科生，专科生，专科以下四类职场新人

7、，再用聚类分析法将每一类的聚类中心偏离初始聚类中心的大小进行分类，离聚类中心越近，该职场新人的学历越高，反之越低。三模型的假设三模型的假设1假设这些手机用户在这个月中没有更换手机号。 2假设这些手机用户使用手机行为在很常一段时间内没有异常。 3假设该城市的职场新人年龄范围为 15 至 30 岁。 4假设附表所给数据真实可靠。 5. 假设这些手机用户在这个月中不改变行业. 6假设本网手机用户没有较大范围的人口迁移。四符号说明：第 i 个指标第 j 个样本的原始数据ijx：第 i 标的样本均值ix：第 i 指标的标准差i：第 i 个指标第 j 个样本的相关系数ijr：贡献率ieE ：累计贡献率

8、i五模型的建立与求解5.1问题一35.1.1.主成分分析模型的建立：主成分分析法是利用降维的思想，通过线性组合把原来众多指标转化为少数几个互相无关的指标，而保持原指标大量信息的一种多元统计分析方法。主成分分析去除了一般赋值方法中的主观因素，因而此方法更为合理科学，具体操作步骤如下： 1）为了排除数量级和量纲不同带来的影响首先对原始数据进行标准化处理：iiij ijxxxni, 2 , 1L式中，为第个指标第个样本的原始数据；和分别为第个指标的样本ijxijixii均值和标准差。（2）根据标准化数据表，为简单起见，将标准化数据表仍记为npijx)( npijx )(，计算相关系数矩

9、阵，其中npijx)(npijrR)( nkjijkjiki ijxxxxnr1)(1 （3）根据特征方程，计算的特征根，并使其从小到大排列：0 IRRi同时可得对应的特征向量，它们标准正交。称为主pL21paaaL,21轴。其中paaaL,21pppppppaaaaaaaaaaaaMLMM21222122121111,说明：，这表明第一主成分方差最大，也说明了为什么主成分的名次iiVarF是按特征值的大小顺序排列的。（4）计算贡献率和累计贡献率贡献率 pkkiie1/累计贡献率pmEpkkmkmm, 2 , 1/11L 当时，前 m 个主分量称为公共因子，此时可以选用前 m 个主分量代替

10、mE7 . 0原来 n 个变量，n 个向量在第个公共因子的载荷向量为4.,.,3 , 2 , 1,),.,(1312111miaaaaaaT niiii第 j 个变量在全部 m 个公共因子上荷载的平方和叫做变量的公共性.,.,3 , 2 , 1,122njahmiijj从而有.12 miijjah它的大小反映了变量 j 在公共性部分的作用或重要性层度。把每个变量公共性的方根作为该变量的权重。jh第一主成分的贡献率就是第一主成分的方差在全部方差中的比值。 pkke111/这个值越大，表明第一主成分综合的信息越强。pXXXL,21（5）写出主成分piXaXaXaFppiiii, 2 , 12211

11、LL5.1.1 主成分分析模型的求解（1）数据处理，基于所给样本数据，首先用 MATLAB 筛选出符合职场新人标准的一共 21599 个用户群体，由于这其中有很大一部分用户群体的信息不全，对问题的研究将会产生很大影响，继续进行筛选 15-30 岁手机用户得到 7058 个职场新人。我们通过计算各个影响因素的均值，偏差来确定评价标准。用用户户资资料料套餐档套餐档次（元）次（元）消费金消费金额（元）额（元）流量费流量费（元）（元）市话费市话费（元）（元）长途费长途费（元）（元）通话费通话费（元）（元）短信费短信费（元）（元）上网上网流量流量（M M）时长时长 ( (分

12、分) )标标准准100100105010501050100表 5.1 职场新人的评定标准我们取套餐档次，消费金额，流量费，市话费，长话费，通话费，短信费，上网流量，上网时长 9 个因素为主要影响因素，控制如上表各个影响因素合适的范围，确定职场新人的标准得到 132 个职场新人，用这 132 个职场新人作为判断综合评分范围。以上述 9 个因素为分析变量，运用主成分分析法对数据进行分析，得到如下结果：（1）将数据标准化，标准化结果如附表(1) (2)指标间的相关系数矩阵,如附表(2) (3)R 的特征值，如附表(3) (4)R 特征向量,如附表(4)，由附表(4)可以看出，前 5 个

13、特征值累计贡献率已达到 85%，说明前 5 个主成分基本包含了全部指标具有的信息。（5）主成分载荷，如附表（5）5（6）分别以前 5 个主成分的贡献率为权重，求得综合因子得分如附表（6）我们取这 190 名职场新人的综合区间得分来判断所有职场新人的标准,标准为 3,187,用这个标准我们一共得到 7058 名职场新人,由附件提供的数据我们可以知道区号 0551 的用户占到所有用户的 57.89%，而区号为 0551 的是安徽省合肥市，由中国统计年鉴安徽省合肥市的就业率和得到的结果比较接近，效果很好。问题一模型的评价：优点：（1）本文采用主成分分析模型，该模型的主成分并不是人为确

14、定的，而是根据各影响因素的方差贡献率的大小确定的，克服了人为的主观因素，使得综合评价结果唯一，客观合理，有说服力。（2）该方法用较少的指标来代替原来较多的指标，并使这些较少的指标尽可能地反映原来指标的信息，从根本上解决了指标间的信息重叠问题，又大大简化了原指标体系的指标结构。不足：（1）为了使问题简化，我们忽略了很多可能影响的因素，比如停机次数，号码变更次数，身份证，性别等. （2）此方法的计算过程比较繁琐，且对样本量的要求较大，评价的结果跟样本量的规模有关系。 (3)在筛选的过程中，由于部分手机用户的年龄信息不祥，剔除了很多可能的职场新人。5.2问题二5.2.1 .BP 神

15、经网络模型的建立我们建立了一般的 BP 神经网络模型来预测信息不详的职场新人的手机价格范围所谓 BP 神经网络,就是指采用 Widrow-Hoff 学习算法和非线性可微转移函数的多层网络。典型的 BP 算法采用梯度下降法。如图 1 所示，BP 神经网络包括以下单元：处理单元(神经元)（图中用圆圈表示），即神经网络的基本组成部分。输入层的处理单元只是将输入值转入相邻的联接权重，隐层和输出层的处理单元将它们的输入值求和并根据转移函数计算输出值。联接权重(图中如 V,W)。它将神经网络中的处理单元联系起来，其值随各处理单元的联接程度而变化。层,神经网络一般具有输入层 x、隐层 y 和输出层 o。阈值。其值可为恒值或可变值，它可使网络能更自由地获取所要描述的函数关系。转移函数 F。它是将输入的数据转化为输出的处理单元，通常为非线性函数。 BP 算法主要包含 4 步，分为向前传播和向后传播两个阶段： 1）向前传播阶段（1）从样本集中取一个样本（Xp，Yp），将 Xp 输入网络；（2）计算相应的实际输出 Op。在此阶段，信息从输入层经过逐级的变换，传送到输出层。这个过程也是网络在完成训练后正常运行时的执行过

展开阅读全文

职场新人识别

最新文档