数据分析及数据挖掘

资源描述

《数据分析及数据挖掘》由会员分享，可在线阅读，更多相关《数据分析及数据挖掘（15页珍藏版）》请在金锄头文库上搜索。

1、多元统计分析介绍1.因子分析(Factor Analysis) 因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系，即将相关比较密切的几个变量归在同一类中，每一类变量就成为一个因子（之所以称其为因子，是因为它是不可观测的，即不是具体的变量），以较少的几个因子反映原资料的大部分信息。运用这种研究技术，我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些，以及它们的影响力（权重）运用这种研究技术，我们还可以为市场细分做前期分析。2.主成分分析主成分分析主要是作为一种探索性的技术，在分析者进行多元数据分析之前，用主成分分析来分析数据，让自己对数据有一个大致的了解是非常

2、重要的。主成分分析一般很少单独使用：a，了解数据。(screening the data),b,和 cluster analysis 一起使用，c，和判别分析一起使用，比如当变量很多，个案数不多，直接使用判别分析可能无解，这时候可以使用主成份发对变量简化。（reduce dimensionality）d,在多元回归中，主成分分析可以帮助判断是否存在共线性（条件指数），还可以用来处理共线性。主成分分析和因子分析的区别1、因子分析中是把变量表示成各因子的线性组合，而主成分分析中则是把主成分表示成个变量的线性组合。 2、主成分分析的重点在于解释个变量的总方差，而因子分析则把重点放在解释各变量之间

3、的协方差。 3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括：各个共同因子之间不相关，特殊因子（specific factor）之间也不相关，共同因子和特殊因子之间也不相关。 4、主成分分析中，当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候，的主成分一般是独特的；而因子分析中因子不是独特的，可以旋转得到不同的因子。 5、在因子分析中，因子个数需要分析者指定（spss 根据一定的条件自动设定，只要是特征值大于 1 的因子进入分析），而指定的因子数量不同而结果不同。在主成分分析中，成分的数量是一定的，一般有几个变量就有几个主成分。和主成分分

4、析相比，由于因子分析可以使用旋转技术帮助解释因子，在解释方面更加有优势。大致说来，当需要寻找潜在的因子，并对这些因子进行解释的时候，更加倾向于使用因子分析，并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量（新的变量几乎带有原来所有变量的信息）来进入后续的分析，则可以使用主成分分析。当然，这中情况也可以使用因子得分做到。所以这中区分不是绝对的。总得来说，主成分分析主要是作为一种探索性的技术，在分析者进行多元数据分析之前，用主成分分析来分析数据，让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用：a，了解数据。(screening the data),b,

5、和 cluster analysis 一起使用，c，和判别分析一起使用，比如当变量很多，个案数不多，直接使用判别分析可能无解，这时候可以使用主成份发对变量简化。（reduce dimensionality）d,在多元回归中，主成分分析可以帮助判断是否存在共线性（条件指数），还可以用来处理共线性。在算法上，主成分分析和因子分析很类似，不过，在因子分析中所采用的协方差矩阵的对角元素不在是变量的方差，而是和变量对应的共同度（变量方差中被各因子所解释的部分）。3.聚类分析(Cluster Analysis)聚类分析是直接比较各事物之间的性质，将性质相近的归为一类，将性质差别较大的归入不同的类的

6、分析技术。在市场研究领域，聚类分析主要应用方面是帮助我们寻找目标消费群体，运用这项研究技术，我们可以划分出产品的细分市场，并且可以描述出各细分市场的人群特征，以便于客户可以有针对性的对目标消费群体施加影响，合理地开展工作。 4.判别分析(Discriminatory Analysis)判别分析(DiscriminatoryAnalysis)的任务是根据已掌握的批分类明确的样品，建立较好的判别函数，使产生错判的事例最少，进而对给定的个新样品，判断它来自哪个总体。根据资料的性质，分为定性资料的判别分析和定量资料的判别分析；采用不同的判别准则，又有费歇、贝叶斯、距离等判别方法。费歇（FISHER

7、）判别思想是投影，使多维问题简化为一维问题来处理。选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。对这个投影轴的方向的要求是：使每一类内的投影值所形成的类内离差尽可能小，而不同类间的投影值所形成的类间离差尽可能大。贝叶斯（BAYES）判别思想是根据先验概率求出后验概率，并依据后验概率分布作出统计推断。所谓先验概率,就是用概率来描述人们事先对所研究的对象的认识的程度；所谓后验概率，就是根据具体资料、先验概率、特定的判别规则所计算出来的概率。它是对先验概率修正后的结果。距离判别思想是根据各样品与各母体之间的距离远近作出判别。即根据资料建立关于各母体的距离判别函数式，将各样品数据

8、逐一代入计算，得出各样品与各母体之间的距离值，判样品属于距离值最小的那个母体。 5.对应分析(Correspondence Analysis)对应分析是一种用来研究变量与变量之间联系紧密程度的研究技术。运用这种研究技术，我们可以获取有关消费者对产品品牌定位方面的图形，从而帮助您及时调整营销策略，以便使产品品牌在消费者中能树立起正确的形象。这种研究技术还可以用于检验广告或市场推广活动的效果，我们可以通过对比广告播出前或市场推广活动前与广告播出后或市场推广活动后消费者对产品的不同认知图来看出广告或市场推广活动是否成功的向消费者传达了需要传达的信息。 6.典型相关分析典型相关分析是分析两组随机变

9、量间线性密切程度的统计方法，是两变量间线性相关分析的拓广。各组随机变量中既可有定量随机变量，也可有定性随机变量(分析时须 F6 说明为定性变量)。本法还可以用于分析高维列联表各边际变量的线性关系。注意：1严格地说，一个典型相关系数描述的只是一对典型变量之间的相关，而不是两个变量组之间的相关。而各对典型变量之间构成的多维典型相关才共同揭示了两个观测变量组之间的相关形式。2典型相关模型的基本假设和数据要求要求两组变量之间为线性关系，即每对典型变量之间为线性关系；每个典型变量与本组所有观测变量的关系也是线性关系。如果不是线性关系，可先线性化：如经济水平和收入水平与其他一些社会发展水之间并不是线性关

10、系，可先取对数。即 log 经济水平，log 收入水平。3典型相关模型的基本假设和数据要求所有观测变量为定量数据。同时也可将定性数据按照一定形式设为虚拟变量后，再放入典型相关模型中进行分析。 7.多维尺度分析(Multi-dimension Analysis)多维尺度分析(Multi-dimension Analysis) 是市场研究的一种有力手段，它可以通过低维空间（通常是二维空间）展示多个研究对象（比如品牌）之间的联系，利用平面距离来反映研究对象之间的相似程度。由于多维尺度分析法通常是基于研究对象之间的相似性（距离）的，只要获得了两个研究对象之间的距离矩阵，我们就可以通过相应统计软件做出他

11、们的相似性知觉图。在实际应用中，距离矩阵的获得主要有两种方法：一种是采用直接的相似性评价，先所有评价对象进行两两组合，然后要求被访者所有的这些组合间进行直接相似性评价，这种方法我们称之为直接评价法；另一种为间接评价法，由研究人员根据事先经验，找出影响人们评价研究对象相似性的主要属性，然后对每个研究对象，让被访者对这些属性进行逐一评价，最后将所有属性作为多维空间的坐标，通过距离变换计算对象之间的距离。多维尺度分析的主要思路是利用对被访者对研究对象的分组，来反映被访者对研究对象相似性的感知，这种方法具有一定直观合理性。同时该方法实施方便，调查中被访者负担较小，很容易得到理解接受。当然，该方法的不

12、足之处是牺牲了个体距离矩阵，由于每个被访者个体的距离矩阵只包含 1 与 0 两种取值，相对较为粗糙，个体距离矩阵的分析显得比较勉强。但这一点是完全可以接受的，因为对大多数研究而言，我们并不需要知道每一个体的空间知觉图。纺织企业统计工作应向商业智能方向发展统计工作在企业管理中越来越显得非常重要，统计工作不仅仅是各类数据的收集，而且是数据仓储、数据管理、数据整合、数据分析、数据预测等等商业职能方面的研究。统计工作从企业的产、供、销、人、财、物，企业和职工、企业和企业、企业和社会、企业和国家、企业和世界等方面，通过对各类数据变动趋势分析、市场变动趋势分析、国内经济政策分析、国际经济形势分析、国际政治

13、因素分析等等诸多方面的研究，给决策者提供完善的决策信息，以促进企业经济运行朝着良性方向发展，从而使企业获得更大的经济效益。纺织企业统计工作应向商业智能化方向发展，才有利于统计工作发展。下面就纺织企业统计工作应向商业智能化方向发展谈一谈研究范围：原材料数据研究：（1）从原材料到货情况（数量、时间、品种、规格等）入手，分析对生产的保证程度、影响程度，针对两度提出建议措施。（2）从原材料库存情况（分品级进行统计）入手，研制降低过高库存原料水平的模型，加强调度调剂，加速物质周转，提出最大限度降低原材料占用资金的措施建议。（3）从原材料消耗情况（分品种、规格、数量）入手，研究原材料使用是否物尽其用，是

14、否有浪费现象等等，为节约用原材料提出措施建议。产品产量数据研究：研究产品总量变动趋势:(1)产品价值量数据研究，从价值量变动入手，分析价值量发展变化趋势、影响的原因、影响销售额的程度等等。（2）产品实物量数据研究，从产品分大类入手（例如：纱分为棉纱、混纺纱、纯化纤纱，各类产品生产总量的变化趋势各如何？下一步有何应对措施等等。）研究产品实物量变动趋势，从而进一步研究产品生产、销售结构的变动方向、销售发展趋势等等。（3）产品结构数据研究，从大类产品结构入手，研究产品结构变动趋势，观察各类产品分别占总量比重变动趋势，从中发现市场需求发展变动趋势。（4）产品结构变动趋势进行入手，研究原材料需求变动趋

15、势，原料采购变动方向以及原料的构成结构变动趋势等等，指导和预测产品生产、销售和原料采购。产品质量数据研究：（1）从产品质量变动研究影响产品产量的幅度（分大类品种进行分析）。（2）研究由于产品质量波动对产品价值量的波动影响。（3）从产品质量变动研究影响客户满意度、客户忠诚度、贡献度等的影响。（4）从产品质量波动研究影响销售量波动趋势。（5）从产品质量波动预测客户对产品质量需求发展动向。（6）从产品质量波动研究影响企业效益波动趋势。进而研究影响产品质量的诸因素，并提出建议供领导决策参考。产品销售数据研究：（1）研究产品销售构成比重变动趋势，预测未来产品结构的调整方向及发展方向。（2）从产品

16、价格变动趋势，预测原料价格的变动趋势，给决策层提出建议，在更深层次上制定未来半年内的原料储备量战略、原料结构构成比例等等。（3）从产品销售量（按客户构成编制）变动趋势及占总量比重的变动趋势，分析客户的忠诚度、贡献度等等。存货数据研究：重点研究机物料、零部件存货及产品存货。（1）通过对机物料、零部件分类存货数据波动，寻求规律性的东西，确定适度库存量及购货周期，以节约资金占用。（2）通过对产品分类库存数量及分类库存期研究，搞出产品库存适当期限，并为领导提出建议：滞销产品警报、促销产品警报。把产品库存压缩到最低极限，使产品占压资金日趋合理化。人力资源数据研究：（1）从产品质量定额数据分析入手，调查职工对定额的满意度（高、适中、低），可以用调查问卷的形式进行不定期调查来判断。从而对定额的合理调整提出整改建议。（2）从工资现状数据入手，调查职工对工资额的期望值（根据本单位的实际能力量力而定，分高值、中间值、最低值的具体值），判定职工在劳动及所得方面的满意度及期望值。（3）从职工文化构成比重入手，来研究未来全员教育的发展方向。（4

展开阅读全文