项目数据分析师在金融数据分析中易犯错误的几个方面

上传人:kms****20 文档编号:40124041 上传时间:2018-05-23 格式:DOC 页数:7 大小:45KB
返回 下载 相关 举报
项目数据分析师在金融数据分析中易犯错误的几个方面_第1页
第1页 / 共7页
项目数据分析师在金融数据分析中易犯错误的几个方面_第2页
第2页 / 共7页
项目数据分析师在金融数据分析中易犯错误的几个方面_第3页
第3页 / 共7页
项目数据分析师在金融数据分析中易犯错误的几个方面_第4页
第4页 / 共7页
项目数据分析师在金融数据分析中易犯错误的几个方面_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《项目数据分析师在金融数据分析中易犯错误的几个方面》由会员分享,可在线阅读,更多相关《项目数据分析师在金融数据分析中易犯错误的几个方面(7页珍藏版)》请在金锄头文库上搜索。

1、CPDA 项目数据分析师整理项目数据分析师整理金融数据分析中易犯错误的几个方面一、回归模型的误用例 1:研究金融发展与贫富差距的关系,认为金融发展先使贫富差距加大(恶化) ,尔后会使贫富差距降低(好转) ,成为倒 U 型。贫富差距用 GINI 系数表示,金融发展用(贷款余额/存款总额)表示。回归结果为:,229. 164. 034. 2tttxxGINI模型参数都可以通过显著性检验。在 x 的有意义的变化范围内,GINI 系数的值总是大于 1,细致分析后模型变的毫无意义;同样的模型还有:GINI 系数的值总是为负231.1412. 734.13tttxxGINI模型构建时缺乏考虑,可以采用成分

2、数据的建模方法。例 2:多元回归模型中的 T 检验问题(主要解释变量与控制变量) 。例 3:利用系数大小来解释被解释变量对被解释变量的影响大小问题。二、实证检验中的原假设的选择问题只能证伪,不能证实。在统计学的假设检验中,对原假设是倾向于保持的,因此假设检验只控制了弃真错误,而CPDA 项目数据分析师整理项目数据分析师整理没有控制取伪错误,因此在原假设不真时,被误认为是真的概率很大。很多时候,我们会遇到这样的情况:如果原假设是 A 为伪,则原假设不能拒绝;如果原假设是 A 为真,那么原假设也不能拒绝。那么,A 究竟是伪还是真?三、主成分分析的误用1、主成分分析介绍主成分分析的工作对象是高维定量

3、变量形成的数据,即的数据,如在上市),(21nkkkxxxL公司综合评价指标构建中、城市综合竞争力排序中、上市公司资本结构的影响因素等许多问题中,都均会遇到类似数据。例:福布斯中国最佳商业城市排行榜很显然,识辨系统在一个低维空间要比一个高维空间容易的多。如英国统计学家斯格特1961 年在对 157 个英国城镇进行发展力水平调查时,原始的测量变量有 57 个。而通过主成分分析发现,只需要 5 个新的综合变量,就可以以 95%的精度表示愿数据的变异情况,这样对问题的研究,一下子就从 57 维降低到 5 维。在统计学中,主成分分析的主要作用是:在尽量减少原始信息损失的条件,将高维问题转化为低维问题,

4、并使转化后的低维数据具有某些良好的统计特征。2、主成分分析的基本原理统计学认为,变异的数据可以提供某种识辨信息,数据之间的变异越大,能够提供的识辨信息就越多。由于统计学通常采用方差来表示数据之间的变异大小,因此数据的方差越大,数据能够提供的识辨信息量就越大。在一个高维数据集中,各分量数据所提供的全部识辨信息量可以用各分量的方差之和来表示。CPDA 项目数据分析师整理项目数据分析师整理很显然,采用一般的去维方法将高维数据降低为低维数据,会使原始数据集损失许多识辨信息。因此一种较好的办法是利用原始数据库建立新的数据库,新数据库能够保持原始数据库的全部识辨信息,并且新数据库所含有的识辨信息能够较多地

5、集中在少数几个分量上,这样我们利用这几个分量就可以在尽量减少原始信息损失的条件,将高维问题转化为低维问题。如何能够做到这点?解释几何中的坐标旋转变换给我们提供了一个启发。依次寻找原始变量的线性组合(旋转坐标) ,使得到的新指标(原始变量构成的综合指标)具有最大的识辨信息。具体寻找这些新指标,可以转化为这样的数据问题:如果 V 为的方差-协方差矩阵,则 V 为非负定的对称矩阵,根据线性代数),(21nkkkxxxL知识可知,其全部特征根均为非负数。假设为 V 的全部非零特征根,对应的特征向量为,则可021kLkaaa,21L以证明就是我们需要寻找的新的综合指标。kixaAii, 1,/L注意,新

6、的综合指标满足条件:各个能够提供的识辨信息量逐步减少,在主成分分析中,这些新的kixaAii, 1,/L综合指标分别称为:第一主成分、第二主成分,前面几个主成分的方差和占原始指标的总方差和比率,就是保留前几个主成分时所保留的识辨信息量的百分比(在一般的主成分分析中,要求这个百分比不低于 85%) ;各个主成分之间相互正交,即各主成分之间的线性相关系数为零。3、主成分分析的 SAS 实现例:对我国 50 家最大市值上市公司的主成分分析(假设用于综合评价)proc princomp data=a out=b;var x1-x7;CPDA 项目数据分析师整理项目数据分析师整理run;SAS 分析后,

7、在数据库 B 中给出每家公司对应的每个主成分的值,在本例中,由于前 5 个主成分所提供的识辨信息量超过了 85%,因此可以将原来的 7 维问题转变为现在的 5 维问题。4、金融研究中对主成分分析的误用利用主成分分析后得到的各个主成分,再构造新的综合变量来进行多指标综合评价。案例:利用企业财务指标提取主成分,再利用回归分析、或直接以各主成分的方差比为权重,构建综合评价指标。错误 1:利用这种方法进行综合评价,违反了科学的综合评价所必须满足的一个条件当评价方法确定后,对两个对象的评价排序结果,不应该受到第三个对象是否也参与评价的影响。例如,福布斯在给出中国最佳商业城市排行榜的同时,也给出了中国数百

8、个城市在各个指标上的取值,福布斯没有公布采取了怎样的办法来通过分析这些指标值来给城市排名,能否利用主成分分析法来给这些城市排名呢?如果去排名,会出现什么结果?我们采用这样的方法来排名,首先对原始数据进行主成分分析,提取识辨信息量超过 85%的主成分构造综合评价指标(以方差比) ,以综合指标为依据来对各城市进行排序,得出中国最佳商业市场的排行榜。这样的做法是我国许多金融、经济研究文献中经常出现的做法。那么这种做法对吗?现在我们需要比较台州、金华与嘉兴这三个属于浙江省的地级市哪个具有更强的商业竞争力。方法 1:分别取浙江省的哪些城市数据,进行主成分分析,再利用以上描述的做法进行三个城市的排序;CP

9、DA 项目数据分析师整理项目数据分析师整理方法 2:分别取江浙沪的城市数据,进行主成分分析,再利用以上描述的做法进行三个城市的排序;方法 3:取福布斯提供的全部城市数据,进行主成分分析,再利用以上描述的做法进行三个城市的排序。三种做法的结果是,每种方法都给出了不同的结果,那么哪中结果才是正确的?例:50 家上市公司的例采用 35 家公司进行综合评价结果为上海机场排在中国石化前;采用全部 50 家公司进行综合评价,则中国石化排在上海机场前。那么到底那家公司应该排序在前?利用主成分作为解释变量,再进行线性回归分析问题在于,主成分的线性组合依然为原指标的一个线性组合,这个线性组合的识辨信息量还不如第

10、一主成分,那么为什么被解释变量可以表示成不如第一主成分的这个线性组合?如果被解释变量可以表示为原始指标的线性组合,哪么最好的组合参数的估计应该采用最小二乘法(最初应该建立普通回归分析模型) 。四、配对抽取样本,再利用最大似然估计方法估计模型参数。在许多问题的研究中,由于两类样本的比率严重失调,因此为了利用较少的一类样本的信息,研究者通常采用配对抽样的方式来抽取研究样本。这样产生的一个问题是,研究样本中的两类样本的比率与总体中的比率严重失调。由于这样的研究往往涉及到预测模型的构建,而许多预测模型的参数估计方法往往采用极大似然估计,而极大似然估计的基本原理是:样本是随机抽取的,因此各类样本点在研究

11、样本中的比率与总体比率保持一致,在这个假设条件下去求使得抽到的样本出现概率最大的参数估计。如果研究样本不是随机抽取的,但利用基于随机样本的极大似然估计来估计CPDA 项目数据分析师整理项目数据分析师整理模型参数,则估计的参数值与对模型的预测准确率检验都会出现系统性的偏差。我们可以在研究样本中逐步调整两类样本比率的方法,来实证检验这种偏差的存在性。五、在没有严格的经济学理论支撑的条件下,利用回归分析(特别是变量可以有较多选择的回归分析)方法来检验理论假设的正确性。前面已经看到,很多时候我们可以建立几个模型(如两个模型) ,这些模型都可以通过 T检验和 F 检验,但同一个解释变量在两个不同模型中对

12、被解释变量的影响方向(系数的符号)恰好相反。对假设的实证检验,不能变成从已有数据中想法挖掘出你希望的结论。六、统计分析中的悖论问题确定事件原则:统计学中的 Simpson 悖论treatment standard newdead 5950 9005alive 5050 109546% 11%A:Treatment standard newDead 950 9000Alive 50 10005% 10%B:CPDA 项目数据分析师整理项目数据分析师整理Treatment standard newDead 5000 5Alive 5000 9550% 95%不仅对统计分析,而且对如何理解人们在不确定条件下的决策行为都有很大启示。条件概率悖论:有可能满足)/()/(/BAPBAP但同时又有)/()/( ),/()/(/CBAPBCAPCBAPBCAP其中,为整个空间的一个分割。/,CC注意:这两个悖论在我们对金融风险的理解中,都具有很重要的作用。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号