第3章:数据的初步统计分析

上传人:公**** 文档编号:571160725 上传时间:2024-08-09 格式:PPT 页数:26 大小:697KB
返回 下载 相关 举报
第3章:数据的初步统计分析_第1页
第1页 / 共26页
第3章:数据的初步统计分析_第2页
第2页 / 共26页
第3章:数据的初步统计分析_第3页
第3页 / 共26页
第3章:数据的初步统计分析_第4页
第4页 / 共26页
第3章:数据的初步统计分析_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《第3章:数据的初步统计分析》由会员分享,可在线阅读,更多相关《第3章:数据的初步统计分析(26页珍藏版)》请在金锄头文库上搜索。

1、第三章第三章 统计数据的初步分析统计数据的初步分析第一节第一节: :统计特征数统计特征数一、集中趋势的测度一、集中趋势的测度集中趋势描述统计数据分布的集中度和分布中心,通常用以下统计特征数来测度:均值均值(mean):是描述统计数据分布集中度最常用的统计特征数。几何平均数几何平均数(geometric mean):适合于诸如指数、百分比和增长速度的平均。中位数中位数(median):把统计数据按从小到大的顺序排列后,其位置处于中间的观测值。众数众数(mode):在一系列统计数据当中频率出现最高的数值。1lL表示中位数(众数)所在组的下限;ln表示总频数;lfc表示中位数所在组前所有各组的累积频

2、数;lfm表示中位数所在组的频数;lh表示中位数所在所的组距;l1表示众数所在组频数减紧邻众数组的前一组频数的差值;l2表示众数所在组频数减紧邻众数组的后一组频数的差值。2调和平均数调和平均数(reciprocal meanreciprocal mean):):也称倒数平均数,它是对变量的倒数求平均,然后再取倒数而得到的平均数。有两种计算形式:有两种计算形式:简单调和平均数和加权调和平均数。简单调和平均数:简单调和平均数:加权调和平均:加权调和平均:3例例1:2005年中国南方某城镇2800户家庭的平均每一劳动力年收入的频数分布情况如下表所示,请计算其均值、中位和众数。解:解:均值均值:中位数

3、中位数众数众数年收入分组(元)组中值X(元)频数f累积频数7000-1400014000-2100021000-2800028000-3500035000-42000105001750024500315003850080010008001001008001800260027002800总计28004例例2 2:1950年我国总人口为5.5亿,1985年达到了10.5亿,共计增长了1.9倍。(1)测算1950-1985年,我国平均每5年的人口增长速度;(2)测算1950-1975年,我国平均每5年的人口增长速度;(3)如果1975-1985年期间不实行计划生育政策,请测算1985年我国的人口总数

4、解:MG=(1.1141.0771.0961.1441.1441.0681.089)1/7=1.0969.6%MG=(1.1141.0771.0961.1441.144)1/5=1.109610.9%P=92420(1.109)2=113590(万人)年度人口数(万人)增长速度1950195519601965197019751980198555196614656620772538829929242098705104532-1.1141.0771.0961.1441.1141.0681.089计划生育是国策5例例3 3:东方信托投资公司某笔投资的年收益率是按复利计算的,该笔投资的年收益情况如下表

5、所示,请测算该笔投资25年的平均年收益率。解解:用几何平均数求该笔投资的年收益率XG=(103%)1(104%)4(108%)8(110%)10(115%)2(1/25)=(7.6504)(1/25)=108.48%则:该笔投资的年平均收益率为8.48%年收益率(%)环比增长率(%)年数(F)3481015103104108110115148102总计-25诚信是发展之本6例例4 4:德国奔驰汽车公司某年1-12月份生产的平均成本和总成本如下,请测算奔驰S600轿车(1)该公司汽车的月平均生产量;(2)该公司某年汽车的平均生产成本。 解:解:(1)34,45,57,35,56,47,87,34

6、,54,60,56,45(2)41.9885(万元)月份平均成本(万元)生产总成本(亿元)12345678910111241.841.442.741.241.643.742.541.641.142.541.641.31421.218632433.914422329.62053.93697.51414.42219.425502329.61858.5总计256137二、离中趋势的测度二、离中趋势的测度全距全距(range):):又称极差,是统计数据中最大值与最小值之差。 R=X(Maximum)-X(Minimum)四分位差四分位差(quartile deviation):用来反映观测值在中位数周

7、围的集中情况。四分位差越大,统计数据的离散程度也越大。平均差:平均差:指全部数据与平均数之差的绝对值的算术平均值。标准差标准差(standard deviation):):它是测度统计数据离散程度最常用的统计特征数。变差系数:变差系数:通常用来测度计量单位不同的统计数据的离散程度。8三、偏斜度和峰度的测度三、偏斜度和峰度的测度偏斜度偏斜度(Skewness ):):是表征随机变量频数分布不对称程度的统计特征数。1)当偏斜度等于0时,呈现对称分布2)当偏斜度大于0时,呈现正偏态分布3)当偏斜度小于0时,呈现负偏态分布峰度峰度(Kurtosis ):):描述统计分布所呈现的尖顶或平坦程度的统计特征

8、数。1)当峰度等于0时,呈现正态分布2)当峰度大于0时,呈现顶尖峰分布3)当峰度小于0时,呈现平坦分布4)当峰度接近于-2.2时,分布曲线趋向一条水平线9四、中位数、众数和算术平均数关系四、中位数、众数和算术平均数关系K.Pearson研究发现中位数、众数、算术平均数与频数分布之间存在如下特定关系:当算术平均数大于中位数且大于众数时,频数分布呈现右偏态;当算术平均数小于中位数且小于众数时,频数分布呈现左偏态;当频数分布的偏斜度不很明显时,中位数、众数和算术平均数存在如下关系:中位数总是位于众数与算术平均数中间,中位数(Xe)与众数(Xo)之距离约为算术平均数(X)与中位数(Xe)之距离的2倍,

9、即为: Xe-Xo=2(X-Xe) Xe=(Xo+2X)/3 X=(3Xe-Xo)/2 Xo=3Xe-2XXoXeXXXeXo10频数分布的偏斜程度可以用下公式来测定:Sk=(X-Xo)/Sk=3(X-Xe)/1)X为算术平均数;2)Xo为众数;3)Xe为中位数;4)为标准差v当Sk等于零时,频数分布为对称分布;v当Sk大于零时,频数分布为正偏态分布;v当Sk小于零时,频数分布为负偏态分布。例例5 5:通过对大众汽车公司员工月收入的抽样调查,发现该公司员工月收入的众数为3340元,中位数为3800元。如果该公司员工月收入的频数分布的偏斜度不是很明显,且得到员工收入标准差为800,请测算大众汽车

10、公司员工月收入的算术平均数,并判断其频数分布的形态特征,进而计算其偏斜度Sk 。解:解: X=(3Xe-Xo)/2=(3*3800-3340)/2=4030(元) 因为算术平均数大于中位数且大于众数 所以可判断该频数分布呈现正偏态 Sk=(X-Xo)/=(4030-3340)/800=0.8625(正偏态)我最忧虑是增加农民收入11第二节:统计数据的整理第二节:统计数据的整理例例: :2006年上海某大学管理学院博士研究生报考人数为200人,英语成绩统计如下表所示,请计算相关的统计特征量,并把这些统计数据整理成统计图表。80.0090.0075.0085.0065.0074.0053.0082

11、.0087.0068.0075.0080.0072.0083.0074.0070.0093.0074.0082.0062.0068.0045.0082.0075.0084.0070.0093.0074.0082.0062.0076.0084.0085.0082.0089.0072.0078.0085.0068.0060.0088.0070.0060.0067.0072.0085.0095.0076.0080.0072.0080.0090.0075.0085.0065.0082.0086.0079.0078.0068.0072.0078.0085.0068.0060.0075.0080.0072

12、.0083.0074.0073.0078.0076.0081.0067.0088.0070.0060.0067.0072.0070.0075.0085.0084.0074.0079.0082.0086.0072.0069.0064.0068.0035.0080.0079.0078.0062.0064.0068.0076.0064.0068.0035.0080.0079.0082.0086.0079.0078.0068.0084.0082.0078.0076.0072.0068.0045.0082.0075.0084.0080.0084.0088.0070.0074.0073.0078.0076

13、.0081.0067.0079.0082.0086.0072.0069.0080.0084.0088.0070.0074.0078.0062.0064.0068.0076.0076.0084.0085.0082.0089.0083.0084.0087.0090.0088.0085.0095.0076.0080.0072.0063.0065.0071.0077.0079.0083.0084.0087.0090.0088.0084.0082.0078.0076.0072.0070.0075.0085.0084.0074.0084.0082.0078.0076.0072.0084.0082.0078

14、.0076.0072.0074.0053.0082.0087.0068.0063.0065.0071.0077.0079.0012 Frequency Percent Valid PercentCumulative Percent35.0021.01.01.045.0021.01.02.053.0021.01.03.060.0042.02.05.062.0042.02.07.063.0042.02.09.064.0042.02.011.065.0042.02.013.067.0063.03.016.068.00147.07.023.069.0021.01.024.070.00105.05.02

15、9.071.0021.01.030.072.00126.06.036.073.0021.01.037.074.00105.05.042.075.0084.04.046.076.00105.05.051.077.0021.01.052.078.00105.05.057.079.0084.04.061.080.00126.06.067.081.0021.01.068.082.00147.07.075.083.0042.02.077.084.00126.06.083.085.00105.05.088.086.0042.02.090.087.0042.02.092.088.0063.03.095.08

16、9.0021.01.096.090.0042.02.098.093.0021.01.099.095.0021.01.0100.0Total200100.0100.0 13表2:200个学生英语成绩的统计特征量分析NValid 200Mean 75.6300 Std. Error of Mean .6875 Median 76.5000a Mode 68.00b Std. Deviation 9.7224 Variance 94.5257 Skewness -1.033 Std. Error of Skewness .172 Kurtosis 2.499 Std. Error of Kurtos

17、is .342 Range 60.00 Minimum 35.00 Maximum 95.00 Sum 15126.00 Percentiles 10 64.0000c 20 68.1250 30 71.1429 40 74.1111 50 76.5000 60 79.2000 70 81.6250 80 84.0000 90 86.5000 a Calculated from grouped data.b Multiple modes exist. The smallest value is shownc Percentiles are calculated from grouped dat

18、a.141516171819202122图图9 9:200200名学生英语成绩带线型的频数分布直方图名学生英语成绩带线型的频数分布直方图(histogramshistograms)23第三节:几种典型的统计分布曲线第三节:几种典型的统计分布曲线二项分布(二项分布(Binomial Distribution)如果随机变量X表示n重Bernoulli试验中“成功”事件发生的次数,且有如下分布:则称随机变量服从于二项分布,记为:XB(n,p)E(X)=np ;D(X)=np(1-p)两点分布两点分布如果随机变量X有如下分布:P(X=1)=p, P(X=0)=1-p则称随机变量X服从两点分布,记为:X

19、B(1,p)E(X) =p ; D(X)=p(1-p)泊松分布泊松分布(Poisson Distribution)(Poisson Distribution)当n比较大时(如大于30),p值比较小时(如小于0.1),二项分布接近于泊松分布。如果随机变量X的概率为:则:X服从泊松分布。E(X) = , D(X) = (k=0,1,2,)24例:例:假设MWP公司生产的手机产品不合格率为0.005,试求400台手机中恰有0、1、2、3台手机不合格的概率各是多少?解:解:n很大,p又很小,故手机不合格的台数X服从泊松分布,=nP=400*0.005=2P(X=0)=0.13534;P(X=1)=0.

20、27067;P(X=2)=0.27067;P(X=3)=0.18045;均匀分布均匀分布(Uniform Distribution) 1/(b-a) a x b如果随机变量X的概率密度函数为:f(x)=0其他则随机变量X服从a,b区间上的均匀分布。E(X) =(a+ba+b)/2/2 , D(X) =(b-a(b-a)2 2/12/12正态分布正态分布( Normal Distribution)如果随机变量X的概率密度凼数为:则称随机变量X服从正态分布,记为:XN(, 2)E(X) = ; D(X)=225当=0, =1时,称概率密度涵数为则随机变量X服从标准正态分布,记为:XN(0, 1)26

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号