数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第1章 数据的描述性分析

上传人:E**** 文档编号:89184688 上传时间:2019-05-20 格式:PPT 页数:36 大小:711KB
返回 下载 相关 举报
数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第1章  数据的描述性分析_第1页
第1页 / 共36页
数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第1章  数据的描述性分析_第2页
第2页 / 共36页
数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第1章  数据的描述性分析_第3页
第3页 / 共36页
数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第1章  数据的描述性分析_第4页
第4页 / 共36页
数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第1章  数据的描述性分析_第5页
第5页 / 共36页
点击查看更多>>
资源描述

《数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第1章 数据的描述性分析》由会员分享,可在线阅读,更多相关《数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第1章 数据的描述性分析(36页珍藏版)》请在金锄头文库上搜索。

1、第1章 数据的描述性分析,1.1 数据的数字特征 数据分析研究的对象是数据,一元数据是 个观测值 要研究数据的数字特征,分析数据的集中位置、分散程度、数据的分布是正态还是偏态。对于多元数据,要分析数据各个分量的相关性等等 . 1.1.1 均值、方差等数字特征 1.均值 2.方差 标准差 变异系数,阶原点矩 阶中心矩 偏度 偏度是刻画数据对称性的指标,右侧更分散的数据偏度为正,左侧更分散的数据偏度为负,关于均值对称的数据偏度为0. 峰度 当总体分布为正态时,峰度近似为0;当分布较正态分布的尾部更分散,峰度为 正,否则峰度为负.,当数据是某些总体随机取出的样本时,数据数字特征即是样本的数字特征.与

2、样本数字特征对应的是总体的数字特征.样本数字特征是相应的总体数字特征的矩估计. 例1.2 某单位对100名女学生测定血清总蛋白含量(g/L),数据如下: 74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.5 79.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.0 75.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.0 73.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.5 75.8 75.8 68.8 76.5 70.

3、4 71.2 81.2 75.0 70.4 68.0 70.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.3 73.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.7 67.2 76.5 72.7 70.4 77.2 68.8 67.5 67.5 67.3 72.7 75.8 73.5 75.0 73.5 73.5 73.5 72.7 81.6 70.3 74.3 73.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4,计算均值、方差、标准差、变异系数、偏度、峰度

4、解 用SAS系统PROC UNIVARRIATE 过程计算,得 偏度、峰度的绝对值皆较小,可以认为数据是来自正态总体的样本. 1.1.2 中位数、分位数、三均值与极差 这些数字特征适合总体分布未知或有偏态的数据.设 是 个观测值,将它们按由小到大排为: 称为次序统计量.最小次序统计量 与最大次序统计量 分别为,中位数与极差 中位数 中位数位于数据中心位置,中位数具有稳健性,受异常值影响较小. 极差 2. 分位数 对 , 分位数 其中 是 的整数部分,当 定义 . 分位数又称第100 百分数.大体上有100 %的观测值不超过 分位数. 即中位数.,上四分位数 下四分位数 下列分位数经常用到: 四

5、分位极差 四分位标准差 总体标准差 的稳健估计 三均值 描述数据集中位置的稳健估计 下截断点 小于下截断点的数据为特小值 上截断点 大于上截断点的数据为特大值 特小值、特大值合称异常值. 用PROC UNIVARIATE过程计算分位数、四分位极差;用 PROC IML过程计算三均值、四分位标准差,下、上截断点.,例1.8(续例1.2) 用PROC UNIVARIATE 过程,PROC IML过程计算得到: 下、上截断点分别为64.3和82.7,故数据84.3是异常值(特大值). 将异常值84.3剔除,在进行计算分析,得 可见, 更为接近, 与 与原数值相等,说明有稳健性,而 原数据的值为3.9

6、40,现为3.810说明 对异常值无稳健性.,1.2 数据的分布 对数据的总体情况作全面描述要研究数据的分布。 1.2.1 直方图、经验分布函数与QQ图 1. 直方图 数据取值范围分成若干区间,区间长度称为组距,每个区间上画一矩形,宽度是组距,高度是频率/组距,每一矩形的面积是数据落入区间的频率.SAS系统根据样本容量和样本取值范围自动确定合适的分组方式.PROC CAPABILITY过程可以做出直方图. 直方图可以对总体概率密度 的估计,这就是拟合分布曲线.SAS系统用PROC CAPABILITY 过程做直方图与拟合参数分布密度曲线.,SAS系统中分布类型: 1)正态分布; 2) 对数正态

7、分布; 3)指数分布; 4) 分布(Gamma分布); 5)Weibull分布; 6)Bata分布. 2. 经验分布函数 设来自总体分布 的样本是 ,其次序统计量是 .经验分布函数是 是非降阶梯函数, 处跃度是 (若 重复取值 次,则跃度为 ). 是充分大时, .,3. QQ图 设总体分布为正态分布 ,标准正态分布函数 ,其反函数 .QQ图是由以下的点构成的散点图: 若样本数据近似于正态分布,在QQ图上这些点近似地在直线 附近. 例1.10(续例1.2) 利用例1.2的数据 (1)作直方图,并拟合正态分布曲线; (2)做经验分布函数图,并拟合正态分布函数曲线; (3)作正态QQ图,并在直观上鉴

8、别样本数据来自正态总体. 解 利用PROC CAPABILITY 过程可解决上述问题.,直方图,经验分布函数图,QQ图,1.2.2 茎叶图、箱线图及五数总括,茎叶图 例1.11 某班有31个学生,某门课程考试成绩如下: 25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84 84 84 85 86 86 86 87 89 89 89 90 91 91 92 100 作出茎叶图. 解 第一个数25十位数为2,个位数为5.以个位数为单位, 将25用“”分开:25 2 | 5. 这样,得茎叶图. 频数 2 5 1 3 4 5 1 5 0 4 5 3 6 1 4

9、 8 3 7 2 5 5 8 9 5 8 1 3 4 4 4 5 6 6 6 7 9 9 9 13 9 0 1 1 2 4 100 1,特点: 1)直观看出数据分布情况,绝大部分数据在7095之间,在8089之间形成一个高峰,数据没有30余分,数据有间隙. 2)自然显出数据排序.可看出原数据次序统计量. 例1.12 铅压铸件硬度数据如下: 53.0 70.2 84.3 55.3 78.5 63.5 71.4 53.4 82.5 67.3 69.5 73.0 55.7 85.8 95.4 51.1 74.4 54.1 77.8 52.4 69.1 53.5 64.3 82.7 55.7 70.5

10、 87.5 50.7 72.3 59.5 作出茎叶图. 解 利用PROC UNIVARIATE过程,可作茎叶图.为简化,将小数点后数据四舍五入,以十位数为茎,个位数为叶,并把每茎分裂成两行:一行的叶取0,1,2,3,4,另一行取5,6,7,8,9.计算结果数据从大到小排列.,频数 9 5 1 9 8 6 8 2 8 2 3 4 3 7 8 8 2 7 0 0 0 1 2 3 4 7 6 7 9 2 6 0 4 4 3 5 5 6 6 3 5 1 1 2 3 3 4 4 7 2. 箱线图 画一个矩形,两个端边分别是 ,中间两道线,处于 位置.两端向外各画一道直线,分别到上截断点 ,下截断点 .异

11、常值用“”号表示.,例1.15 作例1.11的箱线图. 解 下、上截断点:36.5,120.5.异常值25. 3.五数总括,1.2.3 正态性检验与分布拟合检验 检验的 值方法 设检验问题的显著水平为 .检验统计量为 .当假设 成立时,有样本算得的检验统计量的值为 . 设 (双侧检验),则当 , 拒 绝 ;当 ,接受 . 检验法 样本容量 分组数 落入第i组频数, 落入第 组理论频数 待估参数数 充分大,假设检验问题 不是 其中 为指定的总体分布 值方法: 则对给定的显著水平 ,当 ,拒绝 ,当 ,接受 2. Kolmogorov-Smirnov检验法 假设检验问题仍如上, 经验分布函数 设由

12、样本 算得的 值为 ,又 则对给定显著水平 ,当 , 拒绝 ,当 ,接受 . 用PROC CAPABILITY 过程可进行 检验与Kolmogorov-Smirnov检验.,3.正态性W检验方法 设样本观测值为 ,其次续统计量为 当n偶, 当n奇 , ( 系数) :总体为正态分布 总体非正态分布 总有 , 成立时,W值接近于1. 当 ;拒绝 ;当 ,接受 . 用PROC UNIVARIATE 过程可得W值与p值,从而完成正态性W检验.,例1.19(续例1.2) 对例1.2数据,作 (1) 正态性W检验; (2) 关于正态分布假设的 检验; (3) 关于正态分布假设的Kolmogorov-Smirnov检验 解 (1) 由PROC UNIVARIATE 过程,算得 W=0.9827 p=pW0.98

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号