《《非参数统计分析》18章教案.doc》由会员分享,可在线阅读,更多相关《《非参数统计分析》18章教案.doc(49页珍藏版)》请在金锄头文库上搜索。
1、.引言一般统计分析分为参数分析与非参数分析,参数分析是指,知道总体分布,但其中几个参数的值未知,用统计量来估计参数值,但大部分情况,总体是未知的,这时候就不能用参数分析,如果强行用可能会出现错误的结果。例如:分析下面的供应商的产品是否合格?合格产品的标准长度为(8.50.1),随即抽取n=100件零件,数据如下:表1.18.5038.5088.4988.3478.4948.5008.4988.5008.5028.5018.4918.5048.5028.5038.5018.5058.4928.4978.1508.4968.5018.4898.5068.4978.5058.5018.5008.49
2、98.4908.4938.5018.4978.5018.4988.5038.5058.5108.4998.4898.4968.5008.5038.4978.5048.5038.5068.4978.5078.3468.3108.4898.4998.4928.4978.5068.5028.5058.4898.5038.4928.5018.4998.8048.5058.5048.4998.5068.4998.4938.4948.4908.5058.5118.5028.5058.5038.7828.5028.5098.4998.4988.4938.8978.5048.4938.4947.7808.50
3、98.4998.5038.4948.5118.5018.4978.4938.5018.4958.4618.5048.691经计算,平均长度为x8.4958cm,非常接近中心位置8.5cm,样本标准差n2为sJXix,.n10.1047cm.一般广品的质量服从正态分布,XN(,2)。,i1P(8.4X8.6)(8.6)(8.4)(8.68.4958)(8.48.4958)(0.1047)(0.1047)66%这说明产品有接近三分之一不合格,三分之二合格,所以需要更换供应厂商,而用非参数分析却是另外一个结果以下是100个零件长度的分布表:长度(cm)频率(%)8.4058.408.4608.468
4、.4818.488.50458.508.52458.528.6008.604合计100这说明有90%的零件长度在(8.50.2)cm之间,有9%的零件不合格,所以工厂不需要换供应商。例2哪一个企业职工的工资高?表1.3两个企业职工的工资企业1111213141516171819204060企业23456789103050显然,企业1职工的工资高,倘若假设企业1与企业2的职工工资分别服从正态分布N(a,2),N(b,2),则这两个企业职工的工资比较问题就可以转化为一个参数的假设检验问题,原假设为Ho:ab,备择假设为Ho:ab11o贝UxyN(ab,()mn若Ho为真,则tXVt(mn2)t(2
5、0)*,mnm_n_其中sW1(Xix)2(yiy)2mn2iiii拒绝域为:t0.90(20)(t1.325检测值为:t1.282故不能拒绝原假设,认为两企业的工资水平无差异。也可以用p值检验由于P(t(20)1.282)0.1073故不能拒绝原假设,认为两企业的工资水平无差异。这里我们采用的显著性水平为0.1.但这个统计结论与实际数据不相符合。主要是因为假设工资服从正态分布,这个假设是错误的,用错误的假设结合参数分析白然得出的结论不可靠。这时候有两种方法处理,一种更换其他分布的假设,二是用非参数数据的方法的分析。非参数统计如同光谱抗生素,应用范围十分广泛。参数统计与非参数统计针对不同的情况
6、提出的统计方法,它们各有优缺点,互为补充。第二章描述性统计2.1表格法和图形法表格法主要有列频数分布表和频率分布表例2.1某公司测试新灯丝的寿命,列表如下:10773689776799459985773815465718084799863656679866874618265986371621166479787977868976748573806878897258927888771038863688881647375906289717470856165617562947185848363926881(1) 找到最小值43,最大值116;将组数分为520组,组距(最大值-最小值)/组数,分16组,
7、组距为5表2.2灯丝寿命的频率分布表灯丝寿命(/、时)个数频率(%)40-4410.545-4910.550-5421.055-5984.060-642412.065-692814.070-743015.075-793417.080-842311.585-892211.090-94147.095-9984.0100-10431.5105-10910.5110-11400.0115-11910.5总和200100对应的直方图为:直方图40-频率萩:一.llllll”OLQQLnQLOQLQQLQQLQQhrjOLQO=寸寸L0939Zrx(X866OOIrNWREIRtMIMI-t接收2.2表格
8、法和图形法数值方法主要是用数值来表示数据的中心位置(或者平均大小)和离散程度等。135331323244直方图61f4-弋.,.,.,频率12345其他接收平均2.833333标准误差0.34451中位数3众数3标准差1.193416万差1.424242峰度-0.20317偏度-0.00713区域4最小值1取大值5求和34观测数12它的平均数,中位数,众数差不多大。但大部分情况不是这样的,例如:表2.3某保险公司赔款样本数据频率分布表赔款数赔款次数0-4002400-80032800-1200241200-1600191600-2000102000-240062400-280032800-32
9、0023200-360013600-40001合计10040频率接收平均数,中位数,众数分别为:1224,1000,600,这三者相差较大。左峰的时候:众数中位数平均数,右峰的时候:平均数中位数众数。平均数容易受到异常值的影响,故不能很好地代表中心位。例如某地农户收入增长了2.9%,但减收的农户却是60%,为了更好地反映中心位,所以很多情况采用的切尾平均数。人们熟知的去掉最大值与最小值的平均数也是切尾平均数。2.4经济专业毕业生的月收入数据毕业生月收入毕业生月收入118507189021950821303205091940418801023405175011192061700121880去掉最
10、大值2340,最小值1700,的切尾平均数比总体平均数要小,它为1924,而总体平均数为1940但中位数都一样,均为1905,中位数表现了稳定性。因此我们不仅用平均数表示中心位置,有时候也用中位数描述数据的中心位置。另外,众数也能用来描述数据的中心位置,尤其是定性数据的中心位置,例如:泛.5有缺陷的小巧克力不合格品问题的频数频率分布表代码问题频数频率(%)1外层不够48652.832两个粘在一起434.673被压扁29532.074外层太多849.135破裂121.30这种情况下计算平均数和中位数没有多大意义,相反众数为1,众数值得关注。一般情况,平均数,中位数,众数应该综合考量,这三个数目,
11、使得我们可以从不同角度表达数据的中心位置,给评估对象一个全面的评价,例如:某企业的职工收入的平均数为5700,元,中位数为3000元,众数为2000元,这说明收入2000元的人最多,有一半职工低于3000元,有一半职工高于3000元,平均数5700大于中位数,说明有些员工工资特别高。平均数与中位数为何可以表示数据的中心位置呢?主要是因为:(Xix)min(xa)(2.1)i1i1nnximemin为a(22)这说明用不同的距离标准衡量,平均数与中位数到各点的距离最近。另外平均数的物理意义还有重心的意义,在重心位置,系统可以平衡,在图2.8处,平均数为4,中位数为3,就意味着把树木集中在3这点,
12、所走的路最短。*123456789中位数平均数2.2.2表示离散程度的数值表示离散程度的数值一般有方差,四分位数,而四分位数又分上四分位数与下四分位数。为表示数据的离散程度,我们一般用五个数概括,即最小值,下四分位数,中位数,上四分位数,最大值,分别记为Qo,Qi,Q2,Q3,Q4.例如:将12名经济专业毕业生月收入数据处理结果如下:(用Minitab)数据容量N12平均数Mean1940中位数Median1905切尾平均数TrMean1924标准差StDev170.6标准误SEMean49.3最小值Minimum1700最大值Maximum2340下四分位数Qi1857.5上四分位数Q320
13、25用统计软件Minitab画箱线图(见图2.9)图2.9BoxplotofCl11颂口20001颔1汕1700四分位数的计算分位数是将总体的全部数据按大小顺序排列后,处于各等分位置的变量值.如果将全部数据分成相等的两部分,它就是中位数;如果分成四等分,就是四分位数;八等分就是八分位数等.四分位数也称为四分位点,它是将全部数据分成相等的四部分,其中每部分包括25%勺数据,处在各分位点的数值就是四分位数.四分位数有三个,第一个四分位数就是通常所说的四分位数,称为下四分位数,第二个四分位数就是中位数,第三个四分位数称为上四分位数,分别用Q卞Q2、Q3表示.四分位数作为分位数的一种形式,在统计中有着十分重要的作用和意义,现就四分位数的计算做一详细阐述.一、资料未分组四分位数计算第一步:确定四分位数的位置.Qi所在的位置=i(n+1)/4,其中i=1,2