职场新人识别

上传人:j****9 文档编号:47083636 上传时间:2018-06-29 格式:DOC 页数:22 大小:638.50KB
返回 下载 相关 举报
职场新人识别_第1页
第1页 / 共22页
职场新人识别_第2页
第2页 / 共22页
职场新人识别_第3页
第3页 / 共22页
职场新人识别_第4页
第4页 / 共22页
职场新人识别_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《职场新人识别》由会员分享,可在线阅读,更多相关《职场新人识别(22页珍藏版)》请在金锄头文库上搜索。

1、B 题:职场新人识别题:职场新人识别职场新人识别摘要摘要本文以层次分析方法为基础,解决了职场新人识别和职场新人教育背景的识别 以及预测数据不全的职场新人职业类型的问题,并对作了分析,以方法 检验了模型的准确性和方法的可靠性。对于问题(1),为了识别该城市的职场新人,首先筛选出 15 至 30 岁的手 机用户群体,再在这些群体中选择,消费金额,流量费,市话费,长话费,通 话费,短信费,上网流量,上网时长 9 个因素为主要影响因素,控制各个影响 因素合适的标准得到 190 个职场新人,让这 190 个职场新人作为判断综合评分 范围。再利用主成分分析法得到主成分 F 与各原始变量 X 的线性组合关系

2、,建立 了主成分分析方法的数学模型,同时计算各个主成分的贡献率和累加贡献率,得 到主成分的关系表达式。然后计算 190 个职场新人的综合得分和所有手机用户 的综合得分,如果属于职场新人的得处分处在得分区间就可以得到该城市的职1场新人。对成分分析模型进行了求解,得到的结果是一共有 7058 职场新人,结 合附件 4 的区号,可以知道该结果比较符合安徽省合肥市实际的就业情况,误 差较小。对于问题(2),基于筛选出的职场新人,这些职场新人中,有一部分的职 场新人信息不详,为了补全这些信息不详的职场新人,我们建立了 BP 神经网络 模型, 利用训练网络来预测这些信息,并对 BP 神经网络模型进行了求解

3、,由于 神经网络模型的不稳定性, 多次运行程序进行训练就可以得到这些手机价格的 稳定值。 对于问题(3),由于问题已经筛选出了职场新人,并且这些职场新人的职业类 型有 50 类,对于其他职业信息不详的手机用户,我们不考虑这些手机用户属于 其他职业,采用距离判别分析模型,将这些职业作为总体,各个职业类型不详的 手机用户作为样本,计算各个样本与总体之间的马氏距离,将马氏距离最小的 与总体归为一类,就可以预测出这些职业信息不详的职场新人的职业类型。 对于问题(4),为了确定该城市职场新人的教育背景,在问题一筛选出来的所 有职场新人的基础上,我们将所有的职场新人分为硕博生,本科生,专科生, 以及专科以

4、下四类人,建立距离判别模型,再通过 SPSS 得到 4 类聚类中心,计 算每一类偏离聚类中心的距离,偏离聚类中心越小的手机用户其学历越高,即 偏离聚类中心最远的为专科及以下学历。 关键词:主成分分析法,BP 神经网络模型,聚类分析法,马氏距离,SPSS 因子 分析法。一问题重述一问题重述职场新人,通常指处于毕业前的实习阶段或刚毕业离开校园(专科或专科以上) 工作不到 1 年的年轻群体。他们虽然收入不高,但暂时也没有太多压力,经常 追求新鲜事物、乐于且敢于消费。他们有着各自的职业追求,是社会的潜在精 英,将成为运营商未来的高端用户。职场新人正处于人生的十字路口,在各方 面即将进入全面转型。 根据

5、以上数据,请建立数据模型并解决以下问题: 根据附表中的数据,识别该城市的职场新人; 对于手机信息不详的职场新人,请估算其终端大致的价格范围; 对于职业类型不详的职场新人,请预测其职业类型; 请识别职场新人的教育背景,如重点院校、非重点院校、专科本科、硕博等;二问题分析二问题分析2问题一主要研究该城市职场新人的识别问题,首先用 Excel 筛选出 15 至 30 岁大约 10 万个手机用户年轻群体,由于问题可能的影响因素较多,我们只考虑 套餐档次,消费等 9 个主要影响因素,然后根据实际情况确定职场新人的标准, 筛选出理想的职场新人,最后用主成分分析法得到各个主要影响因素的贡献率, 利用所有手机

6、用户年轻群体的综合得分就可以筛选得到该城市的职场新人。问题二主要研究信息不详的职场新人的终端大致价格范围,利用 BP 神经网络 模型对这些影响因素多次进行训练得到稳定的价格值。问题三主要研究信息不祥的职场新人的职业类型,将职场新人分为 27 类职业, 在这里我们假定职业信息不详的人只属于这 27 类职业,不存在属于其他职业的 情况,采用距离判别法,这些手机用户离哪个职业最近就可以得到信息不全的 人属于哪一个职业。问题四主要研究职场新人的教育背景问题,正常情况下,重点院校对学历要 求较高,因此我们考虑硕士以上学历的为重点院校的。我们将所有职场新人分 为硕博生,本科生,专科生,专科以下四类职场新人

7、,再用聚类分析法将每一 类的聚类中心偏离初始聚类中心的大小进行分类,离聚类中心越近,该职场新 人的学历越高,反之越低。三模型的假设三模型的假设1假设这些手机用户在这个月中没有更换手机号。 2假设这些手机用户使用手机行为在很常一段时间内没有异常。 3假设该城市的职场新人年龄范围为 15 至 30 岁。 4假设附表所给数据真实可靠。 5. 假设这些手机用户在这个月中不改变行业. 6假设本网手机用户没有较大范围的人口迁移。四符号说明:第 i 个指标第 j 个样本的原始数据ijx:第 i 标的样本均值ix:第 i 指标的标准差i:第 i 个指标第 j 个样本的相关系数ijr:贡献率ieE :累计贡献率

8、i五模型的建立与求解5.1问题一35.1.1.主成分分析模型的建立: 主成分分析法是利用降维的思想,通过线性组合把原来众多指标转化为少数几 个互相无关的指标,而保持原指标大量信息的一种多元统计分析方法。主成分 分析去除了一般赋值方法中的主观因素,因而此方法更为合理科学,具体操作 步骤如下: 1)为了排除数量级和量纲不同带来的影响 首先对原始数据进行标准化处理:iiij ijxxxni, 2 , 1L式中,为第 个指标第个样本的原始数据;和分别为第 个指标的样本ijxijixii均值和标准差。(2)根据标准化数据表,为简单起见,将标准化数据表仍记为npijx)( npijx )(,计算相关系数矩

9、阵,其中npijx)(npijrR)( nkjijkjiki ijxxxxnr1)(1 (3)根据特征方程,计算的特征根,并使其从小到大排列:0 IRRi同时可得对应的特征向量,它们标准正交。称为主pL21paaaL,21轴。 其中paaaL,21pppppppaaaaaaaaaaaaMLMM21222122121111,说明:,这表明第一主成分方差最大,也说明了为什么主成分的名次iiVarF是按特征值的大小顺序排列的。 (4)计算贡献率和累计贡献率贡献率 pkkiie1/累计贡献率pmEpkkmkmm, 2 , 1/11L 当时,前 m 个主分量称为公共因子,此时可以选用前 m 个主分量代替

10、mE7 . 0原来 n 个变量,n 个向量在第个公共因子的载荷向量为4.,.,3 , 2 , 1,),.,(1312111miaaaaaaT niiii第 j 个变量在全部 m 个公共因子上荷载的平方和叫做变量的公共性.,.,3 , 2 , 1,122njahmiijj从而有.12 miijjah它的大小反映了变量 j 在公共性部分的作用或重要性层度。把每个变量公共性的方根作为该变量的权重。jh第一主成分的贡献率就是第一主成分的方差在全部方差中的比值。 pkke111/这个值越大,表明第一主成分综合的信息越强。pXXXL,21(5)写出主成分piXaXaXaFppiiii, 2 , 12211

11、LL5.1.1 主成分分析模型的求解(1)数据处理,基于所给样本数据,首先用 MATLAB 筛选出符合职场新人标 准的一共 21599 个用户群体,由于这其中有很大一部分用户群体的信息不全, 对问题的研究将会产生很大影响,继续进行筛选 15-30 岁手机用户得到 7058 个 职场新人。我们通过计算各个影响因素的均值,偏差来确定评价标准。用用 户户 资资 料料套餐档套餐档 次(元)次(元)消费金消费金 额(元)额(元)流量费流量费 (元)(元)市话费市话费 (元)(元)长途费长途费 (元)(元)通话费通话费 (元)(元)短信费短信费 (元)(元)上网上网 流量流量 (M M)时长时长 ( (分

12、分) )标标 准准100100105010501050100表 5.1 职场新人的评定标准 我们取套餐档次,消费金额,流量费,市话费,长话费,通话费,短信费,上 网流量,上网时长 9 个因素为主要影响因素,控制如上表各个影响因素合适的 范围,确定职场新人的标准得到 132 个职场新人,用这 132 个职场新人作为判 断综合评分范围。以上述 9 个因素为分析变量,运用主成分分析法对数据进行 分析,得到如下结果: (1)将数据标准化,标准化结果如附表(1) (2)指标间的相关系数矩阵,如附表(2) (3)R 的特征值,如附表(3) (4)R 特征向量,如附表(4),由附表(4)可以看出,前 5 个

13、特征值累计贡献率已 达到 85%,说明前 5 个主成分基本包含了全部指标具有的信息。 (5)主成分载荷,如附表(5)5(6)分别以前 5 个主成分的贡献率为权重,求得综合因子得分如附表(6) 我们取这 190 名职场新人的综合区间得分来判断所有职场新人的标准,标准为 3,187,用这个标准我们一共得到 7058 名职场新人,由附件提供的数据我们可 以知道区号 0551 的用户占到所有用户的 57.89%,而区号为 0551 的是安徽省合 肥市,由中国统计年鉴安徽省合肥市的就业率和得到的结果比较接近,效果很 好。 问题一模型的评价: 优点:(1)本文采用主成分分析模型,该模型的主成分并不是人为确

14、定的,而 是根据各影响因素的方差贡献率的大小确定的,克服了人为的主观因素,使得 综合评价结果唯一,客观合理,有说服力。 (2)该方法用较少的指标来代替原来较多的指标,并使这些较少的指标尽可能 地反映原来指标的信息,从根本上解决了指标间的信息重叠问题,又大大简化 了原指标体系的指标结构。 不足:(1)为了使问题简化,我们忽略了很多可能影响的因素,比如停机次数, 号码变更次数,身份证,性别等. (2)此方法的计算过程比较繁琐,且对样本量的要求较大,评价的结果跟样本 量的规模有关系。 (3)在筛选的过程中,由于部分手机用户的年龄信息不祥,剔除了很多可能的职 场新人。5.2问题二5.2.1 .BP 神

15、经网络模型的建立 我们建立了一般的 BP 神经网络模型来预测信息不详的职场新人的手机价格范围所谓 BP 神经网络,就是指采用 Widrow-Hoff 学习算法和非线性可微转移函数 的多层网络。典型的 BP 算法采用梯度下降法。如图 1 所示,BP 神经网络包 括以下单元: 处理单元(神经元)(图中用圆圈表示),即神经网络的基本组 成部分。输入层的处理单元只是将输入值转入相邻的联接权重,隐层和输出层 的处理单元将它们的输入值求和并根据转移函数计算输出值。 联接权重(图 中如 V,W)。它将神经网络中的处理单元联系起来,其值随各处理单元的联接程 度而变化。 层,神经网络一般具有输入层 x、隐层 y 和输出层 o。 阈值。 其值可为恒值或可变值,它可使网络能更自由地获取所要描述的函数关系。 转移函数 F。它是将输入的数据转化为输出的处理单元,通常为非线性函数。 BP 算法主要包含 4 步,分为向前传播和向后传播两个阶段: 1)向前传播阶段 (1)从样本集中取一个样本(Xp,Yp),将 Xp 输入网络; (2)计算相应的实际输出 Op。 在此阶段,信息从输入层经过逐级的变换,传送到输出层。这个过程也是网络 在完成训练后正常运行时的执行过

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 初中教育

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号