统计学复习要点－金锄头文库

资源描述

《统计学复习要点》由会员分享，可在线阅读，更多相关《统计学复习要点（9页珍藏版）》请在金锄头文库上搜索。

1、1。统计学是收集、分析、表述和解释数据的科学（不列颠百科全书）2。按照计量层次分：分类数据、顺序数据、数值型数据3. 按收集方法分：观测数据和实验数据4。按时间状况分：截面数据和时间序列数据5. 总体：所研究的全部个体（数据）的集合，其中的每一个个体也称为元素6。样本：从总体中抽取的一部分元素的集合，构成样本的元素的数目称为样本容量或样本量7。参数：描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值，所关心的参数主要有总体均值（Q、标准差（、总体比例（兀）等8。统计量：用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量，是样本的函数，所关心的样本统计量有

2、样本均值（X）、样本标准差（s）、样本比例（p）等9. 数据的间接来源：系统外部的数据和系统内部的数据10. 二手数据的特点：搜集容易，采集成本低、作用广泛、在研究中应优先考虑11. 二手数据的可靠性评估：数据是谁搜集的？为什么目的而搜集的?数据是怎样搜集的? 什么时候搜集的？12. 数据的直接来源：调查数据、实验数据13. 概率抽样的特点：按一定的概率以随机原则抽取样本，每个单位被抽中的概率是已知的，或是可以计算出来的，当用样本对总体目标量进行估计时，要考虑到每个样本单位被抽中的概率14. 简单随机抽样：从总体N个单位中随机地抽取n个单位作为样本，每个单位入抽样本的概率是相等的，最基本

3、的抽样方法，是其它抽样方法的基础。15. 分层抽样：将抽样单位按某种特征或某种规则划分为不同的层，然后从不同的层中独立、随机地抽取样本16. 整群抽样：将总体中若干个单位合并为组（群），抽样时直接抽取群，然后对中选群中的所有单位全部实施调查17. 系统抽样：将总体中的所有单位（抽样单位）按一定顺序排列，在规定的范围内随机地抽取一个单位作为初始单位，然后按事先规定好的规则确定其它样本单位.先从数字 1 到 k 之间随机抽取一个数字 r 作为初始单位，以后依次取r+k，r+2k等单位18. 多阶段抽样：先抽取群，但并不是调查群内的所有单位，而是再进行一步抽样，从选中的群中抽取出若干个单位进

4、行调查19. 非概率抽样：相对于概率抽样而言。抽取样本时不是依据随机原则，而是根据研究目的对数据的要求，采用某种方式从总体中抽出部分单位对其实施调查.有方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样等方式20. 方便抽样:调查过程中由调查员依据方便的原则，自行确定入抽样本的单位21. 判断抽样：研究人员根据经验、判断和对研究对象的了解，有目的选择一些单位作为样本22. 自愿样本:被调查者自愿参加，成为样本中的一分子，向调查人员提供有关信息23. 滚雪球抽样: 先选择一组调查单位，对其实施调查之后，再请他们提供另外一些属于研究总体的调查对象，调查人员根据所提供的线索，进行此后的调查。这

5、个过程持续下去，就会形成滚雪球效应24. 配额抽样:先将总体中的所有单位按一定的标志（变量）分为若干类，然后在每个类中采用方便抽样或判断抽样的方式选取样本单位25. 概率抽样与非概率抽样的比较:概率抽样依据随机原则抽选样本；样本统计量的理论分布存在可根据调查的结果推断总体非概率抽样:不是依据随机原则抽选样本样本统计量的分布是不确定的无法使用样本的结果推断总体26。问卷调查的方式：自填式问卷调查；面访式问卷调查；电话式问卷调查27. 实验往往将研究对象分为两组：实验组和对照组28. 抽样误差：由于抽样的随机性所带来的误差，它是所有样本可能的结果与总体真值之间的平均性差异。29. 影响抽样误

6、差的大小的因素：样本量的大小，总体的变异性30. 非抽样误差。相对抽样误差而言，除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异。存在于所有的调查之中：有抽样框误差、回答误差、无回答误差、调查员误差、测量误差31. 非抽样误差的控制：调查员的挑选，调查员的培训，督导员的调查专业水平，调查过程控制32. 原始数据审核的要点：完整性审核;准确性审核；适用性审核；时效性审核33. 数据的排序与筛选要用到excel中哪个选项按钮？34. 分类数据的排序:汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序，其中也有笔画多少的升序降序之分35. 数据的整理与显示：对分类数据和顺

7、序数据主要是作分类整理，对数值型数据则主要是作分组整理。36. 适合于低层次数据的整理和显示方法也适合于高层次的数据；但适合于高层次数据的整理和显示方法并不适合于低层次的数据37. 饼图：也称圆形图，是用圆形及圆内扇形的角度来表示数值大小的图形,主要用于表示样本或总体中各组成部分所占的比例，用于研究结构性问题38. 环图与饼图区别：饼图只能显示一个总体各部分所占的比例,环形图则可以同时绘制多个样本或总体的数据系列，每一个样本或总体的数据系列为一个环39. 确定组数：在实际分组时，组数一般为5K 1540. 做图形时,图形的长宽比例大致为10 ：741. 二维散点图展示二个变量之间的关系4

8、2. 气泡图展示三个变量之间的关系43. 雷达图是展示多个变量之间关系的图形44. 众数:一组数据中出现次数最多的变量值.不受极端值的影响。一组数据可能没有众数或有几个众数。主要用于分类数据，也可用于顺序数据和数值型数据。45. 中位数：排序后处于中间位置上的值。不受极端值的影响主要用于顺序数据,也可用数值型数据，但不能用于分类数据46.47. 9个家庭的人均月收入数据原始数据： 1500 750 780 1080 850 960 2000 1250 163048. 10个家庭的人均月收入数据排序: 660 750 780 850960 1080 1250 1500 1630 20004

9、9. 平均数集中趋势的最常用测度值易受极端值的影响有简单平均数和加权平均数之分50. 一位投资者购持有一种股票，在2000、2001、2002和2003年收益率分别为4. 5%、2。 1、25 。 5 1.9。计算该投资者在这四年内的平均收益率51.不同品牌饮料的频数分布饮料品牌频数比例百分比(：果汁60。1212矿泉水100。2020绿茶110。2222其他80.1616碳酸饮料150。3030合计50110052。四分位差上四分位数与下四分位数之差Qd = QU - QL反映了中间50数据的离散程度不受极端值的影响用于衡量中位数的代表性53. 方差和标准差数据离散程度的最常用测度值反映了

10、各变量值与均值的平均差异54. 经验法则表明:当一组数据对称分布时约有68的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内55。离散系数标准差与其相应的均值之比对数据相对离散程度的测度消除了数据水平高低和计量单位的影响用于对不同组别数据离散程度的比较56。概率非负性对任意事件A,有0 P (A) 1规范性必然事件的概率为1;不可能事件的概率为0。即P (。) = 1; P ()=0可加性若 A 与 B 互斥，则 P ( AUB ) = P ( A ) + P ( B )推广到多个两两互斥事件A1,A2,，A

11、n,有P (A1UA2UUAn)= P (A1) + P(A2) +P(An )57. 连续型随机变量的概率分布连续型随机变量可以取某一区间或整个实数轴上的任意一个值它取任何一个特定的值的概率都等于0不能列出每一个值及其相应的概率58. 设XN (0, 1),求以下概率：(1) P(X 2)； (3) P (-1X 3); (4) P (I X | 2)=1 P(X 2) =10.9973=0.0227(3) P(-1X 3)= P(X 3) P(X -1)=(3)-(T)=(3) - 1-(1) = 0.9987-(1-0。8413)=0.84(4) P(|X | 2) = P(-2 X

12、2)=(2)(一2)=0(2)-1(2)=2 0(2)- 1=0。954559。设XN (5, 32),求以下概率(1) P(X 10)； (2)P(2X 10)60. 设X1, X2,Xn是从总体X中抽取的容量为n的一个样本，如果由此样本构造一个函数T(X1,X2,，Xn)，不依赖于任何未知参数，则称函数T(X1, X2,Xn)是一个统计量样本均值、样本比例、样本方差等都是统计量61. 样本统计量的概率分布,是一种理论分布62. ；分布、t分布、F分布，常称之为统计三大分布。63. ；分布的变量值始终为正64. 可加性：若U和V为两个独立的心分布随机变量，U2 (n1), V2(n2)，则

13、U+V这一随机变量服从自由度为n1+n2的2分布65. 从均值为卩,方差为b 2的一个任意总体中抽取容量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为U、方差为。2/n的正态分布66.6.4 设从一个均值为10、标准差为0.6的总体中随机选取容量为36的样本。假定该总体不是很偏的, 要求：(1) 计算样本均值小于9.9的近似概率。(2) 计算样本均值超过9.9的近似概率.(3) 计算样本均值在总体均值10附件0。1范围内的近似概率。P(X 9.9) = PG 9.9 -10)0.1 0.1一 0 1 =P(Z -) = P(Z -1)0.1=1 -P(Z 9.9) = PG-1

14、0 10)0.1 0.1-0.1 =P(Z ) = P(Z -1)0.1=1 - P(Z -1)=0.8413P(9.9 X 10.1) = PG99 I一W )0.1 0.1 0.110.1-9.99.9-10=P(Z ) - P(Z -)0.1 0.1=P(Z 1) - P(Z -1) = 20(1) -1=2 x 0.8413 -1 = 0.682667. 样本比例的数学期望E (p)=“兀(1兀)重复抽样，样本比例的方差为：a=p n68。设XN(9,22),试描述iox的抽样分布。解： X N(9,22)，根据上述性质iox也服从正态分布，由于E(10X) =10E(X) =90D(10X) =100D (X)=100X22=400所以 10X N(90,400)69。常用的置信水平值有99%,95%,90%,相应的a为0.01,0。05, 0.1070。一家食品生产企业以生产袋装食品为主，为对食品质量进行监测，企业质检部门经常要进行抽检，以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了 25袋，测得每袋重量如下表所示。已知产品重量的分布服从正态分布，且总体

展开阅读全文