统计学第五版总复习(精)

资源描述

《统计学第五版总复习(精)》由会员分享，可在线阅读，更多相关《统计学第五版总复习(精)（28页珍藏版）》请在金锄头文库上搜索。

1、第4章数据的概括性度量4.1 集中趋势的度量l 集中趋势(central tendency)1、一组数据向其中心值靠拢的倾向和程度2、测度集中趋势就是寻找数据水平的代表值或中心值3、不同类型的数据用不同的集中趋势测度值4、低层次数据的测度值适用于高层次的测量数据，但高层次数据的测度值并不适用于低层次的测量数据l 分类数据：众数(mode)1、一组数据中出现次数最多的变量值2、适合于数据量较多时使用3、不受极端值的影响4、一组数据可能没有众数或有几个众数5、主要用于分类数据，也可用于顺序数据和数值型数据6、(不惟一性)：无众数、一个众数、多于一个众数l 顺序数据：中位数和分位数a中位数(med

2、ian)1、排序后处于中间位置上的值2、不受极端值的影响3、主要用于顺序数据，也可用数值型数据，但不能用于分类数据（中位数）位置确定：中位数位置=（n+1）/2数值确定： Me= X(n+1/2) n为奇数 Me=1/2X(n/2)+1/2X(n/2+1) n为偶数4、各变量值与中位数的离差绝对值之和最小b四分位数(quartile)1、排序后处于25%和75%位置上的值2、不受极端值的影响3、计算公式：QL=n/4 QU=3n/4l 数值型数据：平均数(mean)1.、集中趋势的最常用测度值2、一组数据的均衡点所在3、体现了数据的必然性特征4、易受极端值的影响5、有简单平均数和加权平均数之

3、分6、根据总体数据计算的，称为平均数，记为；根据样本数据计算的，称为样本平均数，记为x分类：简单平均数、加权平均数、几何平均数a几何平均数(geometric mean)1、n 个变量值乘积的 n 次方根2、适用于对比率数据的平均3、主要用于计算平均增长率4、计算公式：5、可看做为平均数的一种变形：l 众数、中位数、平均数的特点和应用众数n不受极端值影响n具有不惟一性n数据分布偏斜程度较大且有明显峰值时应用中位数n不受极端值影响n数据分布偏斜程度较大时应用平均数n易受极端值影响n数学性质优良n数据对称分布或接近对称分布时应用4.2 离散程度的度量l 分类数据：异众比率(variation r

4、atio)1、对分类数据离散程度的测度2、非众数组的频数占总频数的比例3、计算公式为4、用于衡量众数的代表性l 顺序数据：四分位差(quartile deviation)1、对顺序数据离散程度的测度2、也称为内距或四分间距3、上四分位数与下四分位数之差 Qd = QU QL4、反映了中间50%数据的离散程度5、不受极端值的影响6、用于衡量中位数的代表性l 数值型数据：方差和标准差a极差(range)1、一组数据的最大值与最小值之差2、离散程度的最简单测度值3、易受极端值影响4、未考虑数据的分布5、计算公式： R= max(Xi) - min(Xi)b平均差(mean deviation)1、

5、各变量值与其平均数离差绝对值的平均数2、能全面反映一组数据的离散程度3、数学性质较差，实际中应用较少4、计算公式：未分组数据组距分组数据c方差和标准差(varianceand standard deviation)1、数据离散程度的最常用测度值2、反映了各变量值与均值的平均差异3、根据总体数据计算的，称为总体方差(标准差)，记为2()；根据样本数据计算的，称为样本方差(标准差)，记为s2(s)样本方差用自由度n-1去除d样本方差和标准差 (sample varianceand standard deviation)方差的计算公式标准差的计算公式未分组数据组距分组数据e自由度 (degree

6、 of freedom)1、自由度是指数据个数与附加给独立的观测值的约束或限制的个数之差2、从字面涵义来看，自由度是指一组数据中可以自由取值的个数3、当样本数据的个数为n时，若样本平均数确定后，则附加给n个观测值的约束个数就是1个，因此只有n-1个数据可以自由取值，其中必有一个数据不能自由取值4、按着这一逻辑，如果对n个观测值附加的约束个数为k个，自由度则为n-kv 1.样本有3个数值，即x1=2，x2=4，x3=9，则 x (平均)= 5。当 x = 5 确定后，x1，x2和x3有两个数据可以自由取值，另一个则不能自由取值，比如x1=6，x2=7，那么x3则必然取2，而不能取其他值v 2.为

7、什么样本方差的自由度为什么是n-1呢？因为在计算离差平方和时，必须先求出样本均值x ，而x则是附件给离差平方和的一个约束，因此，计算离差平方和时只有n-1个独立的观测值，而不是n个 v 3.样本方差用自由度去除，其原因可从多方面解释，从实际应用角度看，在抽样估计中，当用样本方差s2去估计总体方差2时，它是2的无偏估计量f总体方差和标准差 (Population varianceand Standard deviation)方差的计算公式标准差的计算公式未分组数据组距分组数据l 相对位置的度量：标准分数(standard score)1、也称标准化值2、对某一个值在一组数据中相对位置的度量3、可

8、用于判断一组数据是否有离群点(outlier)4、用于对变量的标准化处理5、计算公式为性质：z分数只是将原始数据进行了线性变换，它并没有改变一个数据在该组数据中的位置，也没有改变该组数分布的形状，而只是使该组数据均值为0，标准差为1经验法则：当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内 l 切比雪夫不等式(Chebyshevsinequality)1、如果一组数据不是对称分布，经验法则就不再适用，这时可使用切比雪夫不等式，它对任何分布形状的数据都适用2、切比雪夫不等式提供的是

9、“下界”，也就是“所占比例至少是多少”3、对于任意分布形态的数据，根据切比雪夫不等式，至少有1-1/k2的数据落在平均数加减k个标准差之内。其中k是大于1的任意值，但不一定是整数l 相对离散程度：离散系数(coefficient of variation)1、标准差与其相应的均值之比2、对数据相对离散程度的测度3、消除了数据水平高低和计量单位的影响4、用于对不同组别数据离散程度的比较5、计算公式为：4.3 偏态与峰态的度量l 偏态(skewness)1、统计学家Pearson于1895年首次提出 2、数据分布偏斜程度的测度2、偏态系数=0为对称分布3、偏态系数 0为右偏分布4、偏态系数 0为左

10、偏分布5、偏态系数大于1或小于-1，被称为高度偏态分布；偏态系数在0.51或-1-0.5之间，被认为是中等偏态分布；偏态系数越接近0，偏斜程度就越低 6、计算公式为：根据原始数据计算 .根据分组数据计算l 峰态(kurtosis)1、统计学家Pearson于1905年首次提出2、数据分布扁平程度的测度3、峰态系数=0扁平峰度适中4、峰态系数0为尖峰分布6、计算公式为：根据原始数据计算根据分组数据计算第5章概率与概率分布5.1 随机事件及其概率a试验(experiment)1、在相同条件下，对事物或现象所进行的观察n 例如：掷一枚骰子，观察其出现的点数2、试验的特点n 可以在相同的条件下

11、重复进行n 每次试验的可能结果可能不止一个，但试验的所有可能结果在试验之前是确切知道的n 在试验结束之前，不能确定该次试验的确切结果b事件1、事件(event)：随机试验的每一个可能结果(任何样本点集合)2、随机事件(random event)：每次试验可能出现也可能不出现的事件3、必然事件(certain event)：每次试验一定出现的事件，用表示4、.不可能事件(impossible event)：每次试验一定不出现的事件，用表示c事件与样本空间1、基本事件(elementary event)n 一个不可能再分的随机事件n 例如：掷一枚骰子出现的点数2、样本空间(sample space

12、)n 一个试验中所有基本事件的集合，用表示n 例如：在掷枚骰子的试验中，=1,2,3,4,5,65.2 概率的性质与运算法则l 概率的古典定义如果某一随机试验的结果有限，而且各个结果在每次试验中出现的可能性相同，则事件A发生的概率为该事件所包含的基本事件个数 m 与样本空间中所包含的基本事件个数 n的比值，记为：l 概率的统计定义在相同条件下进行n次随机试验，事件A出现 m 次，则比值 m/n 称为事件A发生的频率。随着n的增大，该频率围绕某一常数P上下摆动，且波动的幅度逐渐减小，取向于稳定，这个频率的稳定值即为事件A的概率，记为：l 主观概率定义1、对一些无法重复的试验，确定其结果的概率只能

13、根据以往的经验人为确定2、概率是一个决策者对某事件是否发生，根据个人掌握的信息对该事件发生可能性的判断3、例如，我认为2003年的中国股市是一个盘整年l 概率的性质与运算法则1、非负性n 对任意事件A，有 0 P(A) 12、规范性n 必然事件的概率为1；不可能事件的概率为0。即P ( ) = 1； P ( ) = 03、可加性n 若A与B互斥，则P ( AB ) = P ( A ) + P ( B )n 推广到多个两两互斥事件A1，A2，An，有 P ( A1A2 An) = P ( A1 ) + P (A2 ) + + P (An )4、概率的加法法则 (additive rule)a法则

14、一n 1.两个互斥事件之和的概率，等于两个事件概率之和。设A和B为两个互斥事件，则 P ( AB ) = P ( A ) + P ( B )n 2.事件A1，A2，An两两互斥，则有 P ( A1A2 An) = P ( A1 ) + P (A2 ) + + P (An )b法则二n 对任意两个随机事件A和B，它们和的概率为两个事件分别概率的和减去两个事件交的概率，即 P ( AB ) = P ( A ) + P ( B ) - P ( AB ) l 条件概率(conditional probability)在事件B已经发生的条件下，求事件A发生的概率，称这种概率为事件B发生条件下事件A发生的条件概率，记为:l 概率的乘法公式(multiplicative rule)1、用来计算两事件交的概率2、以条件概率的定义为基础3、设A、B为两个事件，若P(B)0，则P(AB)=P(B)P(A|B)，或P(AB)=P(A)P(B|A)l 事件的独立性(independence)1、一个事件的发生与否并不影响另一个

展开阅读全文