《数学统计基础及数据处理》由会员分享,可在线阅读,更多相关《数学统计基础及数据处理(33页珍藏版)》请在金锄头文库上搜索。
1、学习目标学习目标事件与概率事件与概率随机变量及其分布随机变量及其分布几种常用分布几种常用分布统计基础知识统计基础知识随机现象和随机事件v在一定条件下,并不总是出现相同结果的在一定条件下,并不总是出现相同结果的现象现象-随机现象随机现象 (1)随机现象的结果至少有两个;)随机现象的结果至少有两个; (2)至于哪一个结果会出现,人们事)至于哪一个结果会出现,人们事先并不知道。先并不知道。随机现象一切可能发生的基本结果,称为样随机现象一切可能发生的基本结果,称为样本点;本点;随机现象一切可能样本点的全体,称为此随随机现象一切可能样本点的全体,称为此随机现象的样本空间。机现象的样本空间。v随机现象是概
2、率论和数理统计的基础。随机现象是概率论和数理统计的基础。v随机现象的某些样本点组成的集合称为随随机现象的某些样本点组成的集合称为随机事件,简称事件。如掷骰子时,机事件,简称事件。如掷骰子时,“出现出现奇数点奇数点”为一个事件,它由为一个事件,它由1点,点,3点和点和5点共点共3个样本点组成。个样本点组成。随机事件的特征随机事件的特征1 任一事件任一事件A是相应样本空是相应样本空 间中的一个子集;间中的一个子集;2 事件事件A发生当且仅当发生当且仅当A中中 某一样本点发生;某一样本点发生;3 任一样本空间都有一个任一样本空间都有一个 最大子集,最大子集, 即即,它对它对 应的事件为必然事件;应的
3、事件为必然事件;4 任一样本空间都有一个任一样本空间都有一个 最小子集,最小子集, 即即,它对它对 应的事件为不可能事件;应的事件为不可能事件;A12维恩(维恩(Venn)图图随机事件的关系随机事件的关系B A A A BB包含互不相容相等随机事件的运算随机事件的运算 A A A ABBBA对立事件A与B的并A与B的交A与B的差随机事件的概率随机事件的概率在一个随机现象中,用来表示任一随机事件的在一个随机现象中,用来表示任一随机事件的A发生可能性大小发生可能性大小的实数的实数-该事件的概率,记为该事件的概率,记为P(A)。1)非负性:非负性:P(A)02)正则性:正则性:P()=13)可加性:
4、可加性:A1, A2, An为互不相容事件,则有为互不相容事件,则有 P(A1 A2 An)=P(A1)+P(A2)+P(An)确定概率的古典方法确定概率的古典方法(略)略)统计方法确定概率的要点:统计方法确定概率的要点:1)与事件)与事件A有关的随机现象是允许大量重复试验的;有关的随机现象是允许大量重复试验的;2)在)在n次重复试验中,次重复试验中, 事件事件A发生发生An次,由次,由A发生的频率为发生的频率为 Pn*(A) = Kn/n =事件事件A发生的次数发生的次数重复试验次数重复试验次数3) Pn*(A) 将会随重复试验次数不断增加而趋于稳定,此稳定值将会随重复试验次数不断增加而趋于
5、稳定,此稳定值即为事件即为事件A的概率。的概率。概率的性质概率的性质1 P(A)=1-P(A)2 P()=03 若若AB, P(B-A)=P(B) - P(A)4 P(AB) = P(A) + P(B) P(AB)5 对任意两个事件对任意两个事件A与与B,有有 P(AB) = P(A B) P(B) = P(B A) P(A)6 P(A B)指事件指事件B已发生的条件下,事件已发生的条件下,事件A再发生的概率,称再发生的概率,称为条件概率。为条件概率。76 若两事件若两事件A与与B相互独立,则相互独立,则A与与B同时发生的概率为同时发生的概率为8 P(AB) = P(A) P(B)7若两事件若
6、两事件A与与B相互独立,则在事件相互独立,则在事件B发生的条件下,事件发生的条件下,事件A的的条件概率等于条件概率等于P(A)。8 独立事件:其中一个事件的发生不依赖另一个事件发生与独立事件:其中一个事件的发生不依赖另一个事件发生与否。否。随机变量及其分布随机变量及其分布 用来表示随机现象结果的变量用来表示随机现象结果的变量-随机变量,一般用随机变量,一般用X,Y,Z等表示,分为离散随机变量和连续随机变量。等表示,分为离散随机变量和连续随机变量。X1 X2 X3 X4 X5Xa bX离散随机变量的可能取值连续随机变量的可能取值 随机变量的取值是随机的,但它有一定的规律性,这个规随机变量的取值是
7、随机的,但它有一定的规律性,这个规律性就是分布。分布包含两方面:律性就是分布。分布包含两方面: (1) X可能取哪些值,或在哪个区间上取值;可能取哪些值,或在哪个区间上取值; (2) X取这些值的概率各是多少,或取这些值的概率各是多少,或X在任一区间上取值的在任一区间上取值的概率是多少?概率是多少?离散随机变量的分布离散随机变量的分布XPx1 x2 xnp1 p2 pn连续随机变量的分布连续随机变量的分布分布的中心位置均值 xi pi X离散分布 E(X) = x p(x) 在在(a,b)区间的积分区间的积分 X连续分布 分布的散布大小方差 xi-E(x)2 pi X离散分布 Var(x) x
8、i-E(x)2 p(x)在在(a,b)区间的积分区间的积分 X连续分布 ii方差的开方即方差的开方即标准差准差 !方差比较离均值E(X)近的值Xi发生的可能性大,远离均值E(X)的值Xi发生的可能性小,方差就小。E(aX+b) = aE(x) +bVar(aX+b)= a2 Var(X)E(X1+X2) = E(X1)+E(X2) Var(X1X2) =E(X1)+E(X2) 标准差不标准差不可以相加可以相加!几种常用分布几种常用分布二项分布二项分布泊松分布泊松分布正态分布正态分布均匀分布均匀分布1.重复进行重复进行n次试验;次试验;2.n次试验间相互独立;次试验间相互独立;3.每次试验仅有两
9、个结果,每次试验仅有两个结果,如如Pass/Fail, Go/NoGo, 统称为成功统称为成功/失败;失败;4.每次试验中成功的概率每次试验中成功的概率均为均为p,失败的概率均为失败的概率均为1-p;5.一般用于不合格品的统一般用于不合格品的统计。计。E(X) = npVar(X) = np (1-p)(X)= np(1-p) 的开方的开方 制造过程中的不合格品率为制造过程中的不合格品率为0.10.1,从成品中随机取,从成品中随机取6 6个,恰有一个个,恰有一个不合格品的概率是多少?不超过一个不合格品的概率是多少?不合格品的概率是多少?不超过一个不合格品的概率是多少?二项二项分布分布二项分布的
10、位置、散布和二项分布的位置、散布和形状与样本数和不合格品形状与样本数和不合格品率有关。率有关。二项二项分布分布泊松泊松分布分布泊松分布与计点过程泊松分布与计点过程相关,计点过程上在相关,计点过程上在一定时间内或一定区一定时间内或一定区域内或一特定单位内域内或一特定单位内进行的。如出错率,进行的。如出错率,缺陷率缺陷率(DPO, DPU,DPMO等等)E(X) = Var(X) = (X)= 的开方的开方表示某特定单位内的平均数;表示某特定单位内的平均数;X表示某特定单位内出现的点数。表示某特定单位内出现的点数。泊松泊松分布分布泊松分布的位置、散布和泊松分布的位置、散布和形状与均值形状与均值有关
11、。有关。p a) = 1-(a)(-a) = 1-(a)P(aZb) = (b)-(a)P(I ZI a) = 2(a) - 1P(Xa) = 1-(a- )/ P(aXb) = (b- )/ (a- ) / 利用正态分布计算不利用正态分布计算不合格品率合格品率PL= P(XTU) = 1-(TU-) / Point of Inflection1 + - 68.27%95.45%99.73%6的的不合格品率不合格品率规格限规格限规格限规格限 合格品率合格品率合格品率合格品率 (%) (%) 不不不不合格品率合格品率合格品率合格品率( (DPPM)DPPM)11 68.27 68.27 3173
12、0031730022 95.45 95.45 45500 45500 33 99.73 99.73 2700270044 99.9937 99.9937 636355 99.999943 99.999943 0.570.5766 99.9999998 99.9999998 0.0020.002合格品率合格品率 = P(I X-I k) =2 (k) 1不合格品率不合格品率 = P(I X-I k) = 2 1- (k) 中心极限中心极限定理定理一个假设一个假设X1, X2, , Xn为为n个相个相互独立同分布的随机互独立同分布的随机变量变量, 即:即:(1)X1, X2, , Xn是是n个相互
13、独立的随机个相互独立的随机变量,如在生产线上随机取变量,如在生产线上随机取n个产品,个产品, 它们的质量特性分别用它们的质量特性分别用X1, X2, , Xn表示。表示。(2)X1, X2, Xn有相同的分布,且分布中有相同的分布,且分布中所含的参数也都相同,如都为正态分所含的参数也都相同,如都为正态分布且都有相同的均值布且都有相同的均值和相同方差和相同方差2。中心极限中心极限定理定理设设X1, X2, , Xn为为n个相互独立同分布个相互独立同分布的随机变量,假如其的随机变量,假如其共同分布为正态分布共同分布为正态分布N(,2), 则样本则样本均值仍为正态分布,均值仍为正态分布,其均值不变仍
14、为其均值不变仍为,而其方差缩小而其方差缩小n倍,倍, 即即Xbar的方差为的方差为2/n。设设X1, X2, , Xn为为n个相互独立同分布个相互独立同分布的随机变量,其共同的随机变量,其共同分布未知,但其均值分布未知,但其均值和方差和方差都存在,都存在,则在则在n较大时,其较大时,其样本均值近似服从正态分布样本均值近似服从正态分布N(, 2/n)。平均值运算使人们从非正态平均值运算使人们从非正态分布获得正态分布分布获得正态分布 ! !统计基础统计基础知识知识研究对象的全体研究对象的全体总体总体构成总体的每个成员构成总体的每个成员个体个体统计学的主要任务统计学的主要任务(1)研究总体是什么分布
15、?研究总体是什么分布?(2)这个总体这个总体(即分布即分布)的均值、方差的均值、方差是多少?是多少?两正态分布混合而形两正态分布混合而形成偏态总体成偏态总体 !要重视研究偏态要重视研究偏态分布产生的原因分布产生的原因 !从总体中抽取部分个体所组成从总体中抽取部分个体所组成的集合的集合样本;样本;样本中的个体样本中的个体样品样品样品的个数样品的个数样本量样本量n样本应满足:样本应满足:1 随机性随机性总体中每个个体均总体中每个个体均有机会入样有机会入样2 独立性独立性从总体中抽取的每从总体中抽取的每个样品对其个样品对其他样本的抽取无任何影响他样本的抽取无任何影响xxxxxxxxxxxxxxxxx
16、xxxxxxxxxxxxxxxxxxxxxxxx样本均值样本均值样本标准差样本标准差总体总体样本样本常用统计常用统计量量设设x1, x2, , xn 是从总体是从总体X中随机抽取的容量为中随机抽取的容量为n的样本,将的样本,将它们的观测值从小到大排列,它们的观测值从小到大排列, x1 x2 xn , 即有序样本。即有序样本。描述样本中心位置的统计量描述样本中心位置的统计量均值均值 x = 1/n xii=1n中位数中位数 x = x (n+1 )/2 n 为偶数为偶数 x(n/2) + x (n+1 )/2 n 为奇数为奇数众数众数: 数据中出现次数最多的数数据中出现次数最多的数, 可能不唯一
17、可能不唯一四分位数四分位数Q:有序样本约有序样本约25%处的值为处的值为Q1,约约75%处的值处的值 为为Q3,50%处的值处的值Q2即中位数即中位数均值与所有观测值相关,即所有值都会对均值产生影响;均值与所有观测值相关,即所有值都会对均值产生影响;均值对极端值非常敏感,一个极端大的值会将均值拉向自己均值对极端值非常敏感,一个极端大的值会将均值拉向自己一边;一边;所有观测值与均值的差相加后为零!所有观测值与均值的差相加后为零!对分组数据而言,样本均值近似为对分组数据而言,样本均值近似为 x = 1/n fixi, 其中其中k为分为分组数,组数,xi是第是第i 组的组中值,组的组中值,fi是第是
18、第i组的频数。组的频数。中位数不受极大和极小值的影响!中位数不受极大和极小值的影响!使用众数最典型的例子就是衬衫制造商使用使用众数最典型的例子就是衬衫制造商使用S,M,L,XL等尺寸投放市场。等尺寸投放市场。当样本中有超过一个众数时,总体中也会有超过一个众数。当样本中有超过一个众数时,总体中也会有超过一个众数。四分位数的四分位数的计算计算例:例:二十个数据按以下升序排列:二十个数据按以下升序排列: 204228252300324444624720816 912 1176 1296 1392 1488 1512 2520 2856 3192 3528 3710请确定请确定Q1, Q2 和和Q3。
19、2016=2)(25201512 +3=Q1044=2()1176912 +=2=Qx384=2()444324 +1=Q描述样本分散程度的统计量描述样本分散程度的统计量极差:极差:R = xmax xmin方差:方差:Var(x) =标准差:标准差:Inter-Quartile Range: IQR = Q3 - Q1对极值很敏对极值很敏感感对极值不敏对极值不敏感感n 1 为自为自由度由度变异系数:变异系数:Cv = s / x测得上海至北京距离为测得上海至北京距离为1463Km, 测量标准差为测量标准差为1Km,而测一张桌子的长度为而测一张桌子的长度为1m, 测量标准差为测量标准差为0.0
20、1m,谁谁的测量精度高?的测量精度高?几种抽样分布几种抽样分布正态样本均值正态样本均值Xbar的分布为正态分布的分布为正态分布N(,2/n)正态样本方差正态样本方差s2除以总体方差除以总体方差2的的n-1倍的分布是自由度倍的分布是自由度n-1的的2分布,记为分布,记为2 (n-1), (n-1)s2/2 = ( xi-x )2/2 2 (n-1)ni=1两个独立的正态样本方差之比的分布是两个独立的正态样本方差之比的分布是F分布分布 1/(n-1) *( xi-x )2s12/s22 = F(n-1, m-1) 1/(m-1) *( yi-y )2ni=1mi=1n-1 n-1 分子分子自由度自
21、由度m-1 m-1 分母分母自由度自由度众数为众数为(n-1)m / n(m+2)和和F F分布均为分布均为正半轴上的偏正半轴上的偏态分布态分布正态总体参数的无偏估计正态总体参数的无偏估计正态均值正态均值的无偏估计:样本均值的无偏估计:样本均值和样本中位数和样本中位数样本均值样本均值总比样本中位数总比样本中位数更有效,因为更有效,因为n3时,时,Var() Var()正态方差正态方差2的无偏估计:样本方差的无偏估计:样本方差:正态标准差正态标准差的无偏估计:一个是对样本极差的无偏估计:一个是对样本极差R进行进行修偏,另一个是对样本标准差进行修偏修偏,另一个是对样本标准差进行修偏: R/d2 = (Xmax-Xmin) / d2 SPC中极差图的应用中极差图的应用 S/c4 = / c4 , S/c4比比 R/d2更有效更有效 无偏估计中最有效的无偏估计中最有效的!