分布特征测度

上传人:ji****72 文档编号:50642840 上传时间:2018-08-09 格式:PPT 页数:63 大小:717.50KB
返回 下载 相关 举报
分布特征测度_第1页
第1页 / 共63页
分布特征测度_第2页
第2页 / 共63页
分布特征测度_第3页
第3页 / 共63页
分布特征测度_第4页
第4页 / 共63页
分布特征测度_第5页
第5页 / 共63页
点击查看更多>>
资源描述

《分布特征测度》由会员分享,可在线阅读,更多相关《分布特征测度(63页珍藏版)》请在金锄头文库上搜索。

1、 第4章 分布特征测度 第一节 分布中心 第二节 离散程度 第三节 偏度与峰度 第四节 相关程度1中央财经大学统计学院 2006 数据的特征和测度分布的形状集中趋势离散程度众 数中位数均 值离散系数方差和标准差峰 度平均差极差偏 态LocationDispersionShape2中央财经大学统计学院 2006 4.1 分布中心(集中趋势的测度)l分布中心测度的意义l分布中心测度指标l均值、中位数和众数的关系3中央财经大学统计学院 2006 一、分布中心测度的意义l随机变量的分布中心是随机变量一切取值的一 个代表,可以用来反映其数值的一般水平。l随机变量的分布中心可以揭示随机变量一切取 值的次数

2、分布在直角坐标系内的集中位置,可 以用来反映随机变量分布密度曲线的中心位置 ,即对称中心或尖峰位置。4中央财经大学统计学院 2006 二、集中趋势的侧度指标l常用的集中趋势的测度指标:l算术平均数l调和平均数l几何平均数l中位数l众数l集中趋势:一组数据向其中 心值靠拢的倾向和程度。l集中趋势测度:寻找数据水 平的代表值或中心值。5中央财经大学统计学院 2006 1 算术平均数(均值,Arithmetic Mean)l总体均值:常用 表示。l 简单平均数(未分组数据):l加权平均数(分组数据) :设Xi为各组组中值,各组 权数为Fi ,则6中央财经大学统计学院 2006 样本均值l简单算术平均

3、数:l对分组资料:(常常简记为 )7中央财经大学统计学院 2006 影响平均数大小的因素l简单算术平均数的大小只与变量值的 大小有关。l加权算术平均数受各组组中值(变量值)大小 ,以及各组变量值出现的频数(权数)的影响 。l权数也可以看作各组次数比重大小:以及8中央财经大学统计学院 2006 算术平均数(例子)l某企业的工会随机调查了20名工人2005 年6月加班的小时数,结果如下:l该组数据算术平均数等于 (13+18+ +12)/20=11.6(小时)。13181215715512177121091312196711129中央财经大学统计学院 2006 加权算术平均数(例子)l在前面的例子

4、中,假设我们只得到了分组后 的资料:l该组数据算术平均数等于 245/20=12.25(小时)。分组组人数5-106 10-159 15-205 合计计20分组人数组中 值xf5-1067.545 10-15912.5112.5 15-20517.587.5 合计20-24510中央财经大学统计学院 2006 关于计算结果的说明l根据原始数据和分组资料计算的结果一般不会 完全相等,根据分组数据只能得到近似结果。l只有各组数据在组内呈对称或均匀分布时,根 据分组资料的计算结果才会与原始数据的计算 结果一致。11中央财经大学统计学院 2006 算术平均数的性质l1、所有的定量数据都有算术平均数。l

5、2、计算算术平均数时使用了所有数据。l3、一组数只有一个均值。l4、各变量值与均值的离差之和等于零。假设4个股票经纪 人的年收入分别为 62900,62500, 60800,1200000美 元l缺点:l易受极端值的影响。l严格来说无法根据有开口 组 的分组数据计算算术平均数。12中央财经大学统计学院 2006 2 调和平均数 (Harmonic mean)l也称倒数平均数,等于 变量值倒数的算术平均数的倒数。l以 加权的公式: 13中央财经大学统计学院 2006 l例 某种水果的价格为:早上3.0元/公斤 ,中午2.0元/公斤,晚上1.6元/公斤。某 人早中晚各买1元和各买1斤,该种水果的

6、平均价格相同吗? 14中央财经大学统计学院 2006 调和平均数:例子批次购进价格(元/公斤) x购买金额(元)M第一批 第二批2.50 3.001500 1200 合计2700某大型超市购进了两批苹果,价格和购买金额 如下,计算苹果的平均价格。15中央财经大学统计学院 2006 3 几何平均数( geometric mean )l等于n 个变量值乘积的 n 次方根。l常用于计算平均的比率、增长率等。简单几何平均数 加权几何平均数 可看作是均值的一种变形16中央财经大学统计学院 2006 几何平均数(例子)某化肥生产企业2000年-2003年的水 泥产量的年增长率为9%,12%,15%, 18

7、%,求4年的年平均增长率。年平均增长率113.5%-1=13.5%17中央财经大学统计学院 2006 4 中位数(Median)l一组数据按大小顺序排列后,处在数列中点位 置的数值,典型的位置平均数。l特点:l对一组数据是唯一的。l不受极端值的影响。l对开口组可以计算(若中位数不在开口组) 。l主要用于顺序数据,也可用数值型数据, 但不能用于分类数据。18中央财经大学统计学院 2006 中位数计算:原始数据ln为奇数时等于第(n+1)/2个数。ln为偶数时等于第n/2和n/2+1个数的平均 值1,2 ,5,9 ,11中位数 =51,2 ,5 , 9,11,18中位数=(5+9 )/2=719中

8、央财经大学统计学院 2006 中位数的计算:分组资料*l对分组资料的一种计算方法是:20中央财经大学统计学院 2006 中位数的计算:例子*l根据考试成绩的数据计算考试成绩 的中位数。成绩绩频频数累计频计频 数 60以下33 60-70811 70-801223 80-901538 90以上442 合计计42-第21个 数所在 的组21中央财经大学统计学院 2006 5 众数(Mode)l一组数据中出现次数最多的变量值, 也是一种位置平均数。l主要特点:l不受极端值的影响。l对有开口组的数据可以计算。l有的数据无众数或有多个众数。l对未分组定量资料很少使用。22中央财经大学统计学院 2006

9、众数的不惟一性众数无众数众数 1众数223中央财经大学统计学院 2006 l计算等距分组数据的众数有两种方法:l1、lL:众数所在组的下限l1:众数组与前一组频数的差l2:众数组与后一组频数的差ld:众数组的组距l2、也可以用众数所在组的组中值估计分组数据的众数 。众数的计算:分组资料*L12Mo24中央财经大学统计学院 2006 众数的计算:分组资料* ,例子l1、众数所在的组:80-90。l2、或者:众数等于众数所在组的组中值85。成绩频数 60以下3 60-708 70-8012 80-9015 90以上4 合计4225中央财经大学统计学院 2006 三、众数、中位数和算术平均数的关系对

10、称分布均值 = 中位数 = 众数分配为钟形、轻微不对称的经验公式:左偏分布均值 中位数众数 0;偏态系数的 绝对值越大,偏斜越严重。数据向右边 延伸得更多对称分布:偏态系数=0。 46中央财经大学统计学院 2006 直观偏度系数l利用描述随机变量分布中心的不同指标之间的 直观关系而确定的测度随机变量分布偏斜程度 的指标。 1)皮尔逊偏度系数算术平均数与众数之间的离差对标准差的比率 ,称为皮尔逊偏度系数。公式为:47中央财经大学统计学院 2006 直观偏度系数l皮尔逊偏度系数的数值在-33的范围内。l皮尔逊偏度系数的绝对值越接近3,随机变量分 布的偏斜程度越大;皮尔逊偏度系数的绝对值 越接近0,

11、随机变量分布的偏斜程度就越小。48中央财经大学统计学院 2006 直观偏度系数2)鲍莱偏度系数l公式为:其中, 和 分别为下四分位数和上四分位 数, 为中位数。l鲍莱偏度系数的数值在-11之间。其绝对值越 接近于1,随机变量分布的偏斜程度越大;其绝 对值越接近于0,随机变量分布的偏斜程度越小 。49中央财经大学统计学院 2006 矩偏度系数l矩偏度系数是利用随机变量分布的矩而确定的 测度随机变量分布偏斜程度的指标。l随机变量分布的矩有原点矩和中心矩两种。 1)简单平均法的矩偏度系数计算公式为:l原点矩 l中心矩50中央财经大学统计学院 2006 矩偏度系数2)加权平均法的矩偏度系数计算公式为:

12、l原点矩l中心矩51中央财经大学统计学院 2006 2 峰度及峰度系数(Kurtosis)l峰度:数据分布的扁平或尖峰程度。l峰度系数:数据分布峰度的度量值,对数据分 布尖峰或扁平程度的测度,一般用K表示。l峰度系数的构造,需要利用观测变量取值的四 阶中心矩来进行。将随机变量的四阶中心矩与 其标准差的四次方相除,所得比率即为峰度系 数,其计算公式为:l统计软件(如Excel等)中常用以下公式计算:52中央财经大学统计学院 2006 峰度系数的含义扁平分布尖峰分布峰度系数K0,与正 态分布相比该分布一 般为尖峰、肥尾,肩 部较瘦。均值和方差 相同的正态 分布注意:由于采用了不同的计算公式,有的软

13、件的计算结果为: 正态分布K=3,扁平分布K3。53中央财经大学统计学院 2006 数据类型与离散程度测度值数据类型和所适用的离散程度测度值数据类型定类数据 定序数据数值型数据适 用 的 测 度 值异众比率四分位距 方差或标准差 异众比率 离散系数(比较时 用) 平均差 全距 四分位距 异众比率54中央财经大学统计学院 2006 4.4 相关程度1 协方差l协方差是两个随机变量成对观测值偏差乘积的算 术平均数。l协方差可以反映所考察的两个随机变量之间相关 关系的方向和密度程度。l计算公式为:l举例见P9655中央财经大学统计学院 2006 2 相关系数 l相关系数是两个随机变量的协方差对其两标

14、准 差之积的比率,是专门用来测定两个随机变量 线形相关方向和密切程度的相对指标。l对于两个变量的理论分布,相关系数通常用 表示,其计算公式为:l对于样本观测资料,相关系数通常用 表示, 公式为:56中央财经大学统计学院 2006 Z值和异常值检测Z Score and Outliers 1 Z值l也称标准化值,等于变量值与其平均数的离差除 以标准差,用Z表示。 Z值的均值等于0,标准差 等于1。l是对某一个值在一组数据中相对位置的度量。lz0说明观测值大于均值。l z0说明观测值小于均值。lz=1.2说明观测值比均值大1.2倍的标准差 。57中央财经大学统计学院 2006 工人加班时间的标准化

15、值加班 小时数1300.00 1851.23 12-1-0.25 1520.49 7-6-1.48 工人加班时间 的数据, 均值等于13, s=4.06。58中央财经大学统计学院 2006 切比雪夫定理 (Chebyshevs Theorem)l对于任意分布形态的数据,至少有1-1/k2的数据 落在均值加减k个标准差的范围内。其中k是大 于1的任意值,但不一定是整数。l对于k=2,3,4,该不等式的含义是l至少有75%的数据落在均值加减2个标准差的范围 内l至少有89%的数据落在均值加减3个标准差的范围 内l至少有94%的数据落在均值加减4个标准差的范围 内59中央财经大学统计学院 2006

16、数据为钟型对称分布时的经验法则l经验法则:当一组数据为钟型对称分布时,l约有68%的数据在均值加减1个标准差的范围内l约有95%的数据在均值加减2个标准差的范围内l几乎所有数据(99.7%)都在均值加减3个标准差 的范围内l例如,如果数据的均值=100,标准差=10,则: 60中央财经大学统计学院 2006 2 异常值检测与处理l一组数据中特别大或特别小,与其他数据不 相一致的数值称异常值或离群点(outliers) 。lZ值可以用于检测异常值:在均值加减3个标 准差范围外的数据点为异常值或离群点。l对异常值应根据具体情况,区别对待:l可能是录入错误 ,应该加以修正;l这个数据值可能不应该包括在样本中 ;l可能是完全由随机因素造成的,应该保留该数 据。61中央财经大学统计学院 2

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号