大数据分析中数理统计方法的正确使用PPT学习课件

资源描述

《大数据分析中数理统计方法的正确使用PPT学习课件》由会员分享，可在线阅读，更多相关《大数据分析中数理统计方法的正确使用PPT学习课件（29页珍藏版）》请在金锄头文库上搜索。

1、大数据分析中数理统计方法的正确使用PPT学习课件火龙果?uml.1火龙果?uml.?作者所处理的数据属于随机变量的特定样本。 ?作者已经掌握最基本的数理统计学常识，如概率、假设检验、均值、方差、标准差、正态分布、相关分析、回归分析、方差分析。 2火龙果?uml.?在科学研究中，经常会涉及到对随机变量大小、离散及分布特征的描述以及对22个或多个随机变量之间的关系描述问题。地学、环境科学研究也不例外。 ?对随机变量及随机变量之间的关系进行定量描述的数学工具就是数理统计学。 ?在科学研究中，能否正确使用各种数理统计方法关系到所得出结论的客观性和可信性。所以，来稿中使用的数理统计方法是否正确应是

2、学术期刊和作者极为重视的问题。 ?目前，国内科技期刊对稿件中数理统计方法问题的重视程度存在差异。 3火龙果?uml.?统计分析通常涉及大量的数据，需要较大的计算工作量。 ?在进行统计分析时，尽管作者可以自行编写计算程序，但在统计软件很普及的今天，这样做是毫无必要的。 ?出于对工作效率以及对算法的通用性、可比性的考虑，一些学术期刊要求作者采用专门的数理统计软件进行统计分析。 4火龙果?uml.问题作者未使用专门的数理统计软件，而采用Excel这样的电子表格软件进行数据统计分析。 ?由于电子表格软件提供的统计分析功能十分有限，只能借助它进行较为简单的统计分析，故我们不主张作者采用这样的软件进行统计

3、分析。 5火龙果?uml.?目前，国际上已开发出的专门用于统计分析的商业软件很多，比较著名有SPSS(Statistical Packagefor SocialSciences)和SAS(Statistical AnalysisSystem)。此外，还有BMDP和STATISTICA等。 ?SPSS是专门为社会科学领域的研究者设计的，但此软件在自然科学领域也得到广泛应用。 ?BMDP是专门为生物学和医学领域研究者编制的统计软件。 6火龙果?uml.?目前，国际学术界有一条不成文的约定凡是用SPSS和和SAS软件进行统计分析所获得的结果，在国际学术软件进行统计分析所获得的结果，在国际学术交流中

4、不必说明具体算法。由此可见，交流中不必说明具体算法。由此可见，SPSS和SAS软软件已被各领域研究者普遍认可。 ?我们建议作者们在进行统计分析时尽量使用这22个专个专门的统计软件。目前，有关这门的统计软件。目前，有关这22个软件的使用教程在个软件的使用教程在书店中可很容易地买到。 7火龙果?uml.?11）均值（准确的称呼应为）均值（准确的称呼应为“样本均值”）的统计学意义反映随机变量样本的大小特征。 ?22）均值对应于随机变量总体的数学期望总体的数学期望客观上决定着样本的均值，反过来，通过计算样本的均值可以描述总体的数学期望。 8火龙果?uml.?33）在处理实验数据或采样数据时，经

5、常会遇到）在处理实验数据或采样数据时，经常会遇到对相同采样或相同实验条件下同一随机变量的多个不同取值进行统计处理的问题。 ?44）为找到代表这些观测值总体大小特征的代表）为找到代表这些观测值总体大小特征的代表值（统计量，该统计量根据样本数据算出），多数作者会不假思索地直接给出算术平均值和标准差。显然，这种做法是不严谨的不一定总是正确的9火龙果?uml.?在数理统计学中，作为描述随机变量样本的总体大小特征的统计量有算术平均值、几何平均值和中位数等多个。 ?何时用算术平均值？何时用几何平均值？以及何时用中位数？这不能由研究者根据主观意愿随意确定，而要根据随机变量的分布特征确定。 10火龙果?um

6、l.?反映随机变量总体大小特征的统计量是数学期望，而在随机变量的分布服从正态分布时，其数学期望就可以用样本的算术平均值描述。此时，可用样本的算术平均值描述随机变量的大小特征。 ?如果所研究的随机变量不服从正态分布，则算术平均值不能准确反映该变量的大小特征。在这种情况下，可通过假设检验来判断随机变量是否服从对数正态分布。如果服从对数正态分布，则几何平均值就是数学期望的值。此时，就可以计算变量的几何平均值。 ?如果随机变量既不服从正态分布也不服从对数正态分布，则按现有的数理统计学知识，尚无合适的统计量描述该变量的大小特征。此时，可用中位数来描述变量的大小特征。 11火龙果?uml.?在相

7、关分析中，作者们常犯的错误是简单地计算Pearson积矩相关系数，而且既不给出正态分布检验结果，也往往不明确指出所计算的相关系数就是不明确指出所计算的相关系数就是Pearson积矩相关系数。积矩相关系数。 ?在数理统计学中，除有针对数值变量设计的Pearson积矩积矩相关系数（对应于“参数方法”）外，还有针对顺序变量（即“秩变量”）设计的）设计的Spearman秩相关系数和Kendall秩相关系数（对应于“非参数方法”）等。 ?Pearson积矩相关系数可用于描述22个随机变量的线性相关个随机变量的线性相关程度，程度，Spearman或Kendall秩相关系数用来判断两个随机秩相关系数用来判

8、断两个随机变量在二维和多维空间中是否具有某种共变趋势。 12火龙果?uml.?在相关分析中，计算各种相关系数是有前提条件的。 ?在相关分析中，对于秩变量，一般别无选择，只能计算能计算Spearman或Kendall秩相关系数。秩相关系数。 ?对于数值变量，只要条件许可，应尽量使用检验功效最高的参数方法，即计算用的参数方法，即计算用Pearson积矩相积矩相关系数。只有计算关系数。只有计算Pearson积矩相关系数的前提积矩相关系数的前提不存在时，才考虑退而求其次，计算专门为秩变量设计的量设计的Spearman或Kendall秩相关系数（秩相关系数（尽管这样做会导致检验功效的降低）。 13

9、火龙果?uml.?对于数值变量，相关系数选择的依据是变量是否服从正态分布，或变换后的数据是否服从正态分布。 ?对于二元相关分析，如果22个随机变量服从二元正态分布个随机变量服从二元正态分布假设，则应该用假设，则应该用Pearson积矩相关系数描述这22个随机变个随机变量间的相关关系。 ?如果样本数据不服从二元正态分布，则可尝试进行数据变换，看变换后的数据是否符合正态分布？如果是，则可以针对变换后的数据计算针对变换后的数据计算Pearson积矩相关系数；否则，就积矩相关系数；否则，就不能计算不能计算Pearson积矩相关系数，而应改用检验功效较低积矩相关系数，而应改用检验功效较低的的Spearm

10、an或Kendall秩相关系数（此时，如果强行计算秩相关系数（此时，如果强行计算Pearson积矩相关系数有可能会得出完全错误的结论）。积矩相关系数有可能会得出完全错误的结论）。 14火龙果?uml.?相关分析和回归分析是极为常用的相关分析和回归分析是极为常用的22种数理统计方法，种数理统计方法，在环境科学及其它科学研究领域有着广泛的用途。然而，由于这而，由于这22种数理统计方法在计算方面存在很多相种数理统计方法在计算方面存在很多相似之处，且在一些数理统计教科书中没有系统阐明这22种数理统计方法的内在差别，从而使一些研究者不种数理统计方法的内在差别，从而使一些研究者不能严格区分相关分析与回

11、归分析。 15火龙果?uml.11）最常见的错误是:用回归分析的结果解释相关性问用回归分析的结果解释相关性问题。例如，作者将“回归直线（曲线）图”称为“相关性图”或“相关关系图”；将回归直线的R22(拟合度，或称拟合度，或称“可决系数”)错误地称为错误地称为“相关系数”或“相关系数的平方”；根据回归分析的结果宣称果宣称22个变量之间存在正的或负的相关关系。个变量之间存在正的或负的相关关系。 16火龙果?uml.22）相关分析与回归分析均为研究22个或多个变量间个或多个变量间关联性的方法，但关联性的方法，但22种数理统计方法存在本质的差种数理统计方法存在本质的差别，即它们用于不同的研究目的。

12、 33）相关分析的目的在于检验两个随机变量的共变趋）相关分析的目的在于检验两个随机变量的共变趋势（即共同变化的程度），回归分析的目的则在于试图用自变量来预测因变量的值。 17火龙果?uml.44）在相关分析中，两个变量必须同时都是随机变量，）在相关分析中，两个变量必须同时都是随机变量，如果其中的一个变量不是随机变量，就不能进行相关分析。这是相关分析方法本身所决定的。 18火龙果?uml.55）对于回归分析，其中的因变量肯定为随机变）对于回归分析，其中的因变量肯定为随机变量（这是回归分析方法本身所决定的），而自变量则可以是普通变量（有确定的取值）也可以是随机变量。 19火龙果?uml.66）如

13、果自变量是普通变量，即模型回归分析，采用的回归方法就是最为常用的最小二乘法。 77）如果自变量是随机变量，）如果自变量是随机变量，即模型回归分析，所采用的回归方法与计算者的目的有关。 ?在以预测为目的的情况下，仍采用“最小二乘法”（但精度下降最小二乘法是专为模型设计的，未考虑自变量的随机误差）；?在以估值为目的（如计算可决系数、回归系数等）的情况下，应使用相对严谨的方法（如“主轴法”、“约化主轴法”或“Bartlett法”）。 20火龙果?uml.88）显然，对于回归分析，如果是模型回归分析，鉴于两个随机变量客观上存在“相关性”问题，只是由于回归分析方法本身不能提供针对自变量和因变量之间相关关

14、系的准确的检验手段，因此，若以预测为目的，最好不提“相关性”问题；若以探索两者的“共变趋势”为目的，应该改用相关分析。 99）如果是模型回归分析，就根本不可能回答变量的“相关性”问题，因为普通变量与随机变量之间不存在“相关性”这一概念（问题在于，大多数的回归分析都是模型回归分析！）。此时，即使作者想描述回归分析！）。此时，即使作者想描述22个变量间的个变量间的“共变趋势”而改用相关分析，也会因相关分析的前提不存在而使分析结果毫无意义。 21火龙果?uml.10）需要特别指出的是，回归分析中的R2在数学上恰好是Pearson积矩相关系数r的平方。因此，这极易使作者们错误地理解R2的含义，认

15、为R2就是“相关系数”或“相关系数的平方”。问题在于，对于自变量是普通变量（即其取值有确定性的变量）、因变量为随机变量的模型回归分析，析，22个变量之间的个变量之间的“相关性”概念根本不存在，又何谈“相关系数”呢？11）更值得注意的是，一些早期的教科书作者不是用R2来描述回归效果（拟合程度，拟合度）的，而是用述回归效果（拟合程度，拟合度）的，而是用Pearson积矩积矩相关系数来描述。这就更容易误导读者。 22火龙果?uml.5.1假设检验基本思想?统计推断是根据样本数据推断总体特征的一种方法。 ?假设检验是进行统计推断的途径之一（另一种途径是参数估计，如点估计和区间估计）。 ?假设检验中的关键问题11）在原假设成立的情况下，如何）在原假设成立的情况下，如何计算样本值或某一极端值发生的概率？计算样本值或某一极端值发生的概率？22）如何界定小概率）如何界定小概率事件？23火龙果?uml.基本思路首

展开阅读全文