市场调查与预测(修订版) 教学课件 ppt 作者 张举刚 李国柱 第十一章 高级数据分析方法简介

上传人:E**** 文档编号:89155324 上传时间:2019-05-19 格式:PPT 页数:51 大小:1.27MB
返回 下载 相关 举报
市场调查与预测(修订版) 教学课件 ppt 作者 张举刚 李国柱 第十一章 高级数据分析方法简介_第1页
第1页 / 共51页
市场调查与预测(修订版) 教学课件 ppt 作者 张举刚 李国柱 第十一章 高级数据分析方法简介_第2页
第2页 / 共51页
市场调查与预测(修订版) 教学课件 ppt 作者 张举刚 李国柱 第十一章 高级数据分析方法简介_第3页
第3页 / 共51页
市场调查与预测(修订版) 教学课件 ppt 作者 张举刚 李国柱 第十一章 高级数据分析方法简介_第4页
第4页 / 共51页
市场调查与预测(修订版) 教学课件 ppt 作者 张举刚 李国柱 第十一章 高级数据分析方法简介_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《市场调查与预测(修订版) 教学课件 ppt 作者 张举刚 李国柱 第十一章 高级数据分析方法简介》由会员分享,可在线阅读,更多相关《市场调查与预测(修订版) 教学课件 ppt 作者 张举刚 李国柱 第十一章 高级数据分析方法简介(51页珍藏版)》请在金锄头文库上搜索。

1、第十一章 高级数据分析方法简介,第一节 多元线性回归分析,多元线性回归是在简单线性回归基础上推广而来。是用来分析多个自变量对多个因变量如何产生影响的,最常见的是分析多个自变量对一个因变量的影响方向和影响程度。,一、多元线性回归分析在市场调查中的应用,(一)确定市场调查中因变量与自变量之间的关系是否存在,若存在,还要分析自变量对因变量的影响程度是多大,影响方向如何。,(二)确定因变量和自变量之间的联系形式,关键是要找出回归系数。,(三)利用已确定的因变量和自变量之间的方程形式,在已知自变量的情况下,对因变量的取值进行预测。,(四)在众多影响因变量的因素中,通过评价其对因变量的贡献,来确定哪些自变

2、量是重要的或者说是比较重要的,为市场决策行为提供理论依据。,二、多元线性回归分析的基本原理,通过对数据的预分析,确定因变量和自变量之间的线性模型形式,用数学方程式表达,利用最小二乘估计方法确定回归方程的回归系数 。,三、多元线性回归分析的步骤,(一)进行数据的预分析,确定自变量的个数。,(二)确定回归模型。,一般的多元线性模型,即总体回归方程如下:,作为总体回归方程的估计,样本回归方程如下:,是 与其估计 之间的离差,即残差,(三)确定回归系数(主要指样本回归系数),采用最小二乘法来确定样本回归系数,设,根据微积分求极小值的原理,残差平方和 存在极小值,将 对求 偏导数,并令所求偏导数等于零,

3、这时 得最小值。对求偏导数所得方程式整理可得如下 个方程式:,以上个方程式组成方程组,求解方程组可得 的值,(四)回归效果的度量,多元线性回归的效果度量其实就是其拟合程度的评价。评价方法是通过计算可决系数 来进行。,可决系数计算公式为:,衡量回归效果更常见的方法是用修正的可决系数 来评判 。,修正的可决系数计算公式:,(五)回归的显著性检验,包括对回归方程的显著性检验和对回归系数的显著性检验。,1、对回归方程进行显著性检验,设原假设为“所有的总体回归系数都等于零”,即,检验统计量构造为:,给定显著性水平 ,查 分布表,得临界值,当 ,则拒绝原假设 ,认为在显著性水平下, 对 有显著的线性关系,

4、即回归方程是显著的。,反之,当 ,则认为方程不显著。,2、对回归系数进行检验,原假设为:,检验统计量构造为 :,或,式中 是矩阵 对角线上的第 个元素, 表示残差平方和 。,当检验统计量的值大于给定显著性下的临界值时,拒绝原假设,认为回归系数是显著的,(六)利用已通过检验的回归方程进行预测。,第二节 判别分析,一、判别分析在市场调查中的应用,(一)区分消费者中对于某品牌哪些人是忠诚用户,哪些不是,(二)区分消费者中对于某产品哪些是购买者,哪些是非购买者,(三)区分同种产品中的受欢迎品牌和不受欢迎品牌,(四)区分价格敏感型消费者和非敏感型消费者等等,二、判别分析的基本原理,在已经将研究对象分成若

5、干组的情况下,根据收集到的新的观测样品的数据和判别规则,来判断新样品应该属于哪个组 。,三、判别分析的基本步骤,(一)了解总体分组情况,(二)选取判别方法,(三)判别结果检验,四、判别分析的几种方法简介,(一)距离判别,平方马氏距离:设 是从均值为 ,协方差矩阵为 的总体 中抽取的两个样品( 维),则总体内两点 与 之间的平方马氏距离定义为: 点 到总体 的平方马氏距离为:,1、两总体距离判别,设有两总体 和 的均值分别为 和 ,协方差矩阵分别为 和 ( ), 是一个新样本,若 到 和 的距离定义为 和 ,则按如下判别规则进行判断:,当 = 时,判别规则就成为:,其中: , ,,当 时,,判别

6、规则为:,、 多总体距离判别,设有 个总体 ,它们的均值分别是 ,协方差矩阵分别是 ,则样本 到各组的平 方马氏距离是:,,,(二)贝叶斯判别,设 有个总体 ,且 , , 。,又设样本 来自总体 的先验概率为 , , 满足 。,到 的平方马氏距离是:,来自 的 的概率密度为:,根据贝叶斯定理, 属于 的后验概率为:,,,五、判别分析案例,在企业考核中,可根据企业的生产经营状况把企业分成优秀企业和一般企业两类。考核企业生产经营状况的主要指标有三个:资金利润率(利润总额/资金占用总额,%)、产品净值率(净产值/总产值,%)、劳动生产率(总产值/职工平均人数,千元/人)。,假设已知优秀企业和一般企业

7、的这三个指标的均值向量和相同的协方差矩阵如下表。,两类企业的均值向量和协方差矩阵,现有两个企业,三个指标的观测向量分别为 和 ,问这两个企业各应属于哪一类?,首先求出共同协方差矩阵的逆矩阵和两类企业均值向量的离差向量分别为:,由此可求出判别系数为:,两类企业均值向量的平均数向量为,因此可得线性判别函数为:,第一个企业的判别函数值为:,第二个企业的判别函数值为:,由此可以判断,第一个企业属于优秀企业,而第二个企业属于一般企业。,第三节 聚类分析,一、聚类分析在市场调查中的应用:,(一)细分市场,(二)研究消费者行为,(三)市场选择,(四)简化数据,二、聚类分析的基本原理,聚类分析根据分类的对象不

8、同,可以分为Q型聚类分析和R型聚类分析 。Q型聚类是指对样品进行聚类,R型聚类是指对变量进行聚类。,聚类分析的基本原理是在要进行聚类的样品或变量之间,确定一种能够反映它们之间亲疏程度的量,常用的有距离和相似系数。距离主要是用来对样品进行分类,它把样本中的每一个样品看作维空间的一个点,并在空间定义距离,距离近的归为一类,距离远的为不同类。相似系数主要用来对变量进行分类。归类时相似系数大的归为一类,反之归为不同类。,样品(变量)第一次归类后形成一个新的类,再计算新类与其他样品(变量)之间的距离(相似系数),按最小距离(最大相似系数)再进行合并,直至所有的样品(变量)合并为一类为止。接着将合并过程用

9、谱系图表示出来,表明样品(变量)之间的亲疏关系,并将所有的样品(变量)合并成较少的几大类。,三、聚类分析的基本步骤,(一)确定待解决的问题,(二)选择聚类用的距离或相似系数,(三)选择聚类方法,(四)确定类别的个数,(五)描述与解释各个类别,(六)评价聚类分析的效果,四、聚类分析案例(以最短距离法为例),例6.2.1 设有五个样品,每个只测量了一个指标,分别 是1,2,6,8,11,试用最短距离法将它们分类。,(1)样品间采用绝对值距离,计算样品间的距离矩阵 ,列于表6.2.1。,表 6.2.1,(2) 中最小元素是 ,于是将 和 合并 成 ,并利用(6.3.2)式计算 与其他类的距离,列于

10、表6.2.2,表6.2.2,(3) 的最小元素是 ,合并 和 成 , 与其他类之间的距离计算为表6.2.3,表6.2.3,(4) 中的最小元素是 ,将 和 合并 为 ,新的距离矩阵列于表6.2.4,表6.2.4,(5)最后将 和 合并为 ,这时所有五个样品聚 为一类,过程终止。,将上述聚类过程画成一张树形图(或称谱系图,dendrogram),如图6.2.1 所示。,图6.2.1 最短距离法树形图,由图中可以看出,五个样品可以分成两组, 和 可以看作是一组,而由 、 和 则为另一组。,第四节 因子分析,一、因子分析在市场调查中的应用,(一)市场细分,(二)利用因子分析进行产品特性研究,(三)顾

11、客满意度调查,二、因子分析的基本原理,根据原始变量之间的相关性,将相关性较高的变量归为一类,用较少的几个因子去表示具有相互关系的原始变量 ,达到简化数据的目的。,从观测到的p个变量的相关性入手,找出m(mp)个 在相关性紧密的变量背后起主导作用的内在原因 ,称这 p个变量有m个公共因子 。,这样每个观察变量 都可以写成m个 互不相关的公共因子 的线性组合的形 式,即因子分析的数学模式。,其中 为公因子 ,每个公因子至少要对两 个原始变量起作用,否则将列入特殊因子。,为特殊因子,他们都是不可观测的随机 变量,每个特殊因子只对对应的一个原始变量有作用。,因子分析的数学模式用矩阵表示为:,三、因子分

12、析的基本步骤,(一)确定待研究的问题,(二)建立相关系数矩阵,检查变量之间的相关性。变量之间必须具有较强的相关关系,才能适用于因子分析,(三)选择提取因子的方法:主成分法、主因子法、最大似然法、最小二乘法、最小残差法等等,而一般常用的是主成分法和主因子法,(四)确定因子的个数 。常用的确定因子个数的方法有以下三种:(1)根据研究者的设计方案或有关经验或知识事先确定;(2)变量共同度,即原始变量对公因子依赖的程度 (3)因子的累计方差贡献率。,(五)因子旋转。得到初始因子载荷矩阵后,虽然它能反映因子与原始变量之间的关系,但在多数情况下,不便于对因子进行解释,这时就需要将因子载荷矩阵进行旋转,以便

13、对每个因子的含义进行解释 。因子旋转的方法有正交旋转和斜交旋转两类。,(六)解释因子和命名。通过因子旋转后,因子对哪些原始变量有显著的负荷就比较清楚了,这时可以根据这些变量所隐含的意义来对因子进行解释和命名。,试用主成分解法求因子分析模型。,假设某地固定资产投资率 ,通货膨胀率 ,失业率 的相关矩阵为:,四、因子分析案例,相关矩阵的特征多项式为:,由此得特征根和特征向量分别为:,三个主成分分别为:,因子载荷矩阵为:,因子分析模型为:,可取前两个因子 和 为公共因子,第一个因子 为物价就业因子,对 的贡献率为 ,第二个 因子 为投资因子,对 的贡献率为 。,第五节 联合分析,一、联合分析的主要应

14、用,(一)确定消费者在决策过程中产品的哪些属性对他们的偏好影响最大;,(二)估计在某一属性上处于不同水平的品牌的市场份额;,(三)怎样的属性组合是最受消费者欢迎的,(四)对属性水平的偏好相似的消费者归类,进行市场细分,(五)按收集到的信息进行产品营销模拟,二、联合分析的基本步骤,(一)确定研究范围,(二)构建属性组合,(三)收集数据,(四)模型拟合与评估,(五)对结论进行解释,(六)市场占有率模拟,三、联合分析案例,假定XX电脑是一个以中低档电脑为主的品牌,公司计划推出一款新产品,定价在6000元左右,以便与市场上的主要中低档产品抗衡。公司决定采用联合分析对产品配置进行分析。,(一)确定产品特

15、征与特征水平,电脑的价格、品牌、CPU类型和硬盘容量是影响消费者选购电脑的最主要因素。因此确定产品的特征是价格、品牌、CPU速度、硬盘容量。,确定产品特征水平:XX电脑的主要竞争对手有联想电脑和宏基电脑;市场价格多为6000左右,可考虑的定价为5000、6000、7000;CPU的类型上多为赛扬、迅驰、Pentium4;硬盘容量常见的有20G、30G、40G。因此最终选择的特征水平为:,(二)建立虚拟产品,利用上述特征与特征水平可以组合出81种虚拟产品,利用正交设计来减少虚拟产品数量。本例中,通过正交设计,所需要测试的虚拟产品可以减少到9种。以下是正交设计的一个方案:,(三)通过调查收集数据,联合分析通过让受访者回答一些经过精心设计的抉择问题,以揭示出受访者对各特征的重视程度。本例采用如下提问: 请问您有

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号