统计学基础培训-2018

上传人:博****1 文档编号:568010097 上传时间:2024-07-23 格式:PPT 页数:51 大小:1.02MB
返回 下载 相关 举报
统计学基础培训-2018_第1页
第1页 / 共51页
统计学基础培训-2018_第2页
第2页 / 共51页
统计学基础培训-2018_第3页
第3页 / 共51页
统计学基础培训-2018_第4页
第4页 / 共51页
统计学基础培训-2018_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《统计学基础培训-2018》由会员分享,可在线阅读,更多相关《统计学基础培训-2018(51页珍藏版)》请在金锄头文库上搜索。

1、统计学基础l在测定阶段中收集材料以分析的方法使用。l把工程的Xs与Ys特性化资料用数值显示。l用以前的工程和执行DATA推定未来时使用。l高级统计性问题解决方法的基础而使用。l基本统计概念不是根据直观而是创出根据事实的语言。基基础统计的必要性的必要性2021/6/162名词解释1. 总体与样本 Population and sample样本:从总体中随机抽取的部分观察单位。如某单位男士的身高总体:根据研究目的确定的同质研究对象的全体(集合)。如成年人的身高。分有限总体与无限总体2021/6/163总体与样本1. CVTE & TV事业部2. TV事业部 & 技术支持部3. 技术支持部 & BT

2、1战队4. 平台支持部 & 订单软件管理组2021/6/164名词解释从总体中得到样本的方法:抽样。 (抽样方法与样本量)从样本推论总体的方法:统计推断(区间估计,假设检验等)请问:计算CVTE的男生的平均身高推算CVTE的女生的平均体重推算从14楼到食堂的平均时间2021/6/165名词解释变量可以测量的任何特征或属性Anycharacteristicorattributethatcanbemeasured。例如:热量值、蛋白质含量、碳水化合物含量。随机变量在概率论中称变量为随机变量变量与随机变量Variableandrandomvariable2021/6/166变量变量(随机变量)的分类

3、p离散型变量(discrete variable):计数资料(15,17,24,)可能取到的值是有限个的随机变量记数变量,只能通过记数的方法来获取,只能以整数为单位p连续性变量(continuous variable):计量资料(1.65, 1.73, 1.77,)可能取到的值是无限个的随机变量计量变量,能用量测手段直接测定p有序变量(ordinal variable):等级资料(优、良、中、差)2021/6/167变量胖子的体重PQ组的出差天数苹果5S手机的待机时间刘畅每月发放订单软件软件个数丽仪跑100米的时间3553软件的编译时间订单软件的重测次数订单软件的重测率2021/6/168名词

4、解释 1. 算术均数(arithmetic mean),简称均值(mean) 2. 几何均数(geometric mean) 3. 中位数 (median) 4. 众数(mode) 5. 调和均数(harmonic mean) 6. 截尾平均值(5% trimmed mean)平均指标总称为平均数(average)反映了资料的集中趋势(centraltendency)2021/6/1691.均值(mean)适用条件:变量呈正态或近似正态分布的情况2021/6/16101.均值(mean)小A和小B是好战友,周日相约去靶场打靶小A前10枪的成绩是:10,10,10,0,10,10,0,10,10

5、,10小B前10枪的成绩是8,7,7,9,8,9,7,8,8,9请问第11枪小A小B的成绩会是多少?2021/6/16111.均值(mean)胖子和浩子都会修板子,下面是两人去年每月的修板数量胖子:77,78,82,81,81,80,81,79,79,81,83,79浩子86,87,65,90,85,96,47,86,86,92,55,85请问可以用平均数来推测下一个月两人的休班量吗?2021/6/16122.中位数(median)中位数是将一批数据从小至大排列后位次居中的数据值,符号为Md,反映一批观察值在位次上的平均水平。适用条件:适合各种类型的资料。尤其适合于大样本偏态分布的资料;参数有

6、不确定数值;参数分布不明等。2021/6/16132.中位数(median)先将观察值按从小到大顺序排列,再按以下公式计算:特点:仅仅利用了中间的12个数据2021/6/1614小A和小B是好战友,周日相约去靶场打靶小A前10枪的成绩是:10,10,10,0,10,10,0,10,10,10小B前10枪的成绩是8,7,7,9,8,9,7,8,8,9请问第11枪小A小B的成绩会是多少?2.中位数(median)2021/6/1615胖子和浩子都会修板子,下面是两人去年每月的修板数量胖子:77,78,82,81,81,80,81,79,79,81,83,79浩子86,87,65,90,85,96,

7、47,86,86,92,55,85请问可以用平均数来推测下一个月两人的休班量吗?2.中位数(median)2021/6/16163.众数(mode)出现次数(或频数)最多的观察值;在频数分布图中对应于高峰所在位置的观察值。适用于大样本;较粗糙。2021/6/1617小A和小B是好战友,周日相约去靶场打靶小A前10枪的成绩是:10,10,10,0,10,10,0,10,10,10小B前10枪的成绩是8,7,7,9,8,9,7,8,8,9请问第11枪小A小B的成绩会是多少?3.众数(mode)2021/6/1618胖子和浩子都会修板子,下面是两人去年每月的修板数量胖子:77,78,82,81,81

8、,80,81,79,79,81,83,79浩子86,87,65,90,85,96,47,86,86,92,55,85请问可以用平均数来推测下一个月两人的休班量吗?3.众数(mode)2021/6/1619均均值、中位数、众数三者关系、中位数、众数三者关系正态分布时: 均值中位数众数正偏态分布时:均值中位数众数负偏态分布时:均值中位数众数2021/6/1620名词解释波动(variation)指标反映数据的离散度(Dispersion)。即个体观察值的波动程度。常用的指标有:1.极差(Range)(全距)2.百分位数与四分位数间距PercentileandQuartilerange3.方差Var

9、iance4.标准差StandardDeviation5.变异系数CoefficientofVariation2021/6/16211.极差(Range)(全距)优点:简便缺点:1. 只利用了两个极端值2. n大,R也会大3. 不稳定2021/6/16221.极差(Range)(全距)胖子、勇琼、高婕、丽仪、晓冉、蝶婷、许云的体重分别是:210,78,83,92,86,83,90请问TA们体重的极差是多少?TA们体重的波动大吗?小麦跑一百米10次的速度分别是:13.6313.4513.8714.2114.0013.7813.9918.7714.2214.12请问小麦的10次100米时间的极差是

10、多少?2021/6/16232.方差(variance)方差(variance)也称均方差(meansquaredeviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。2021/6/16242.方差(variance)已知胖子最近一周抽烟的次数为1,1,2,2,2,4,2求胖子上一周抽烟的波动情况2021/6/16252.标准差(SD) 标准差 (Standard deviation, Std, SD)即方差的正平方根;其单位与原变量X的单位相同。总体标准差2021/6/16263.标准差(SD)已知胖子最近一周抽烟的次数为1,1,2,2,2,4,2求胖子上一周抽烟的

11、波动情况2021/6/1627样本方差为什么要除以(n1)与自由度(degrees of freedom)有关。自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度。若受到k个条件的限制,就只有(nk)个自由度了。例如一个有5个观察值的样本,因为受到统计数的约束,在5个离均差中,只有4个数值可以在一定范围内自由变动取值,而第五个离均差必须满足 这一限制条件。2021/6/1628名词解释正态分布(Normal distribution)正态分布也叫高斯分布(Gaussiandistribution),是最常见、最重要的一种连续型分布。1、正态分布的

12、数学形式2、正态曲线3、标准正态分布4、曲线下面积2021/6/16291.正态分布(Normaldistribution)2021/6/16301.正态曲线(normalcurve)图形特点:1.钟型2.中间高3.两头低4.左右对称5.最高处对应于X轴的值就是均数6.曲线下面积为17.标准差决定曲线的形状X Xf f( (X X) ) 2021/6/16311.正态曲线(normalcurve)正态分布曲线由两个参数决定,即总体均值和总体标准差。在不变的情况下,函数曲线形状不变,若变大时,曲线位置向右移;若变小时,曲线位置向左移,故称为位置参数。在不变的情况下,函数曲线位置不变,若变大时,曲

13、线形状变的越来越“胖”和“矮”;若变小时,曲线形状变的越来越“瘦”和“高”,故称为形态参数或变异度参数。2021/6/16321.正态曲线(normalcurve)X Xf f( (X X) ) 已知胖子最近一周抽烟的次数为1,1,2,2,2,4,2假设胖子抽烟的次数的概率统计符合正态分布,请画出胖子抽烟次数的概率统计正态分布图2021/6/16331.正态曲线(normalcurve)标准正态离差标准正态分布:N(0,1)正态分布: 2021/6/1634 u-累计概率分布函数:1.正态曲线-曲线下面积2021/6/1635曲线下面积分布规律0-11-1.961.96-2.582.5868.

14、27%95.00%99.00%-+-1.96+1.96-2.58+2.5868.27%95.00%99.00%2021/6/1636 2 S2 S对母集团特性的推论对母集团特性的推论母平均母平均 :母分散母分散 :母标准偏差母标准偏差 : 标本平均标本平均 :标本分散标本分散 :标本标准偏差标本标准偏差 : 母数(Parameter) : 表示母集团的特性值 (母平均,母分散等 ) 统计量(Statistic) : 根据从标本中计算的标本特性值,可以推定 母集团的特性。(标本平均, 标本分散等) 抽出抽出(Sampling)AAAAAAABBBBBBCCCCCCDDDDDDDAABDDDCCC

15、CB母集母集母集母集团团标标本本本本母数母数母数母数统计统计量量量量资料的料的测度度2021/6/1637 对资料中心的测度,包括平均,中央值,最频值等。对资料中心的测度,包括平均,中央值,最频值等。. 例 ) 制品完成所需AF 的7个工程。下面测定了每工程所需要的时间。 求每工程所需要的平均时间。极端值极端值 30分对平均分对平均的影响大的影响大! 平均平均(Mean) n 个观测值的平均是, 观测值的总合除于观测值个数 对于 极端值很敏感(outlier) 。 平均 : 2 2 1 3 2 9 30A B C D E F G(单位 :分)观测值总合观测值数=计算)计算) 中心位置中心位置资

16、料的料的测度度2021/6/1638 最频值最频值(Mode) DATA频度数频度数(Frequency)大的大的 少受极端值少受极端值(Outlier) 的影响。的影响。例例 ) 前面问题中最频值是多少前面问题中最频值是多少? 在2, 2, 1, 3, 2, 9, 30中频度数 2值为 3,拥有最多 的频度, 因此最频值是 2 。 中央值,最频值中央值,最频值少受检端值的少受检端值的 影响。影响。 n n 为单数时为单数时 : : n n 为双数时为双数时 : :1 2 2 1 2 2 2 2 3 9 30 3 9 301 2 2 2 3 9 10 301 2 2 2 3 9 10 302和

17、 3的平均2.5资料的料的测度度2021/6/1639显示资料离中心位置分散多少的测度,代表性的有分散、标准偏差、显示资料离中心位置分散多少的测度,代表性的有分散、标准偏差、4 4分位数等。分位数等。B B汽车每汽车每L L 平均行驶距离比平均行驶距离比 A A汽车高,但分布的散布图大,汽车高,但分布的散布图大,所以不能说所以不能说 一定是一定是B B汽车好汽车好!A A 汽车汽车B B 汽车汽车下面是 测定A ,B汽车每L 行驶 距离的DATA分析。 各位喜欢什么样的汽车?AB例例 ) )统计分析中只考虑平均判断会得到错误的结果,应考虑资料分散程度的散布图。 散布图散布图资料的测度2021/

18、6/1640分散和标准偏差是资料离平均值的距离,表示资料分散的程度。可以使用各资料值和平均的差异,即把偏差都合起来的方法,但如下例经常成为0,所以使用距离的 乘方, 即,偏差的乘方。3040506070 假如,从 点到 的乘方距离是 , 分散被定义为平均乘方距离 (按统计理由 分母不是 n,而是使用 n-1)标准偏差取乘方根分散的形态。 分散分散(Variance)与标准偏差与标准偏差(Standard deviation)例例 ) 资料 : 4 8 7 5 2 6 3 平均 5 偏差的合 : (-1) + 3 + 2 + 0 + (-3) + 1+ (-2) = 0 标本分散 : 标准偏差

19、: 资料的测度2021/6/1641 4分位数分位数(Quartile) : 资料按顺序排列时,被资料按顺序排列时,被 4等分的数。等分的数。 4 分位范围分位范围(IQR :Interquartile Range) : Q3-Q1Q1: 第 1/4分位数(First quartile) = 相当于25% 的值Q2: 第 2 /4分位数(Second Quartile : 中央值) =相当于 50% 的值Q3: 第 3 /4分位数(Third Quartile) = 相当于75% 的值例例) 有如下有如下DATA时,求时,求4分位数和分位数和 IQR .2, 8, 20, 4, 9, 5, 4

20、, 3, 计算计算 ) 按顺序排列 : Q1 = 3.25Q2 (中央值) = 4.5Q3 = 8.752 3 4 4 5 8 9 20 范围范围(Range) : 在一组在一组DATA中,把最大值和最小值的间隔用数值表示。中,把最大值和最小值的间隔用数值表示。 = 最大值最大值 最小值最小值资料的测度2021/6/1642Cpk及相关指数的定义:Ca:制程准确度Cp:制程精密度Cpk:制程能力指数2021/6/1643Ca:制程准确度(CapabilityofAccuracy)从制程中所获得的数据其实绩平均值与规格中心值之间偏差的程度,称为制程准确度Cp:制程精密度(Capabilityof

21、Precision)设定工程规格上下限目的在希望制造出各个产品之质量水准能在规格上下限之容许范围内,制程精密度评价之目的,是在衡量产品分散宽度符合公差程度。2021/6/1644Cpk:制程能力指数(PerformanceIndex)是某个工程或制程水准的量化反应,也是工程评估的一类指针。目前制造的标准为:Cpk1.33。注:当计算Cpk值时样本数应大于等于25个2021/6/1645Cpk的相关计算公式(双边规格):的相关计算公式(双边规格): CaX:实绩平均值:实绩平均值:规格中心值:规格中心值USL:规格规格上限(上限(Upper Spec Limit)LSL:规格下限:规格下限 (L

22、ower Spec Limit)2021/6/1646Cpk的相关计算公式(双边规格)的相关计算公式(双边规格) : Cp & Cpk 2021/6/1647Cpk的相关计算公式(单边规格)的相关计算公式(单边规格) : Cp & Cpk 2021/6/1648Cpk及相关指数的解析:及相关指数的解析:Ca: 其值越小越好,当为其值越小越好,当为 0 时为最好。且其值可能为时为最好。且其值可能为负数,代表其实绩中平均值较规格中心值小。负数,代表其实绩中平均值较规格中心值小。Cp:其值越大越好,代表样本分布越集中。其值越大越好,代表样本分布越集中。Cpk: 该值越大越好,代表制程能力越强。该值越大越好,代表制程能力越强。 Ca 代表位置的关系,而代表位置的关系,而Cp代表分布的关系代表分布的关系 2021/6/1649谢谢! 结束束语若有不当之处,请指正,谢谢!若有不当之处,请指正,谢谢!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号