统计学第一章,第二章讲义

资源描述

《统计学第一章,第二章讲义》由会员分享，可在线阅读，更多相关《统计学第一章,第二章讲义（120页珍藏版）》请在金锄头文库上搜索。

1、数理统计,周丽敏 Tel: 13338616953 2013-9,授课内容,第一章概论第二章试验资料的整理与特征数计算第三章概率与概率分布第四章统计推断第五章方差分析第六章直线回归与相关分析第七章试验设计及数据分析第八章多元统计分析,第一章概论,1统计学的概念 1.1 统计学（statistics）/数理统计学研究随机现象规律性的方法学；是一门关于如何收集、分析、解释和表达数据的科学。,1.2 统计一词在不同的场合可以有3个不同的涵义统计工作，即统计实践活动，是人们对客观事物的数据资料进行搜集、整理、分析的工作活动的总称；统计资料，是统计工作的成果，包括各种

2、统计报表、统计图形及文字资料等；统计科学，是一门收集、整理、描述、显示和分析统计数据的方法论的科学，其目的是探索事物的内在数量规律性，以达到对客观事物的科学认识。,2 统计学的发展过程 2.1 古典统计学时期（17世纪中后期18世纪中后期）政治算术学派：代表人物威廉配第(政治经济学之父)，首次运用数量对比分析法，又称“有名无实”的统计学。记述学派/国势学派：“统计学是研究一国或多国的显著事项之学”，以文字描述为主，又称“有实无名”的统计学。图表学派：用统计图和统计表表现和保存统计资料。,2.2 近代统计学时期（18世纪末19世纪末）数理统计学派：创始人阿道夫凯特勒，第一次将概率论引

3、入社会经济现象的研究中，被誉为“近代统计学之父”。社会统计学派：代表人物恩格尔，采用大量观察法研究社会经济现象总体。,2.3 现代统计学时期（20世纪初至今）主要成果:在随机抽样基础上建立了推断统计学。数理统计学的发展特点与趋势 (1)数学方法的广泛应用。 (2)边缘统计学的形成。 (3)借助计算机手段,统计学的应用日益广泛和深入。,3统计学的基本任务在实际问题中，往往一个随机现象所服从的分布是事先完全不知的，或由于随机现象的某些事实而知道其概型，但不知其分布函数中所含的参数。数理统计学正是要研究如何从对象全体中随机抽取一部分进行观测或试验，依据取得的信息对整体作出推断。因此，数理统计

4、学是对随机现象统计规律性归纳的研究。,4统计学的基本内容统计学研究的内容概括起来可分为两大类：实验的设计和研究。研究如何对随机现象进行观察、试验，以取得有代表性的观测值。这部分内容称为描述统计学。统计推断。研究如何对已取得的观测值进行整理、分析，并作出决策的方法。这部分内容称为推断统计学。包括参数估计、假设检验、方差分析、回归分析和相关分析等。描述统计学是统计学的基础和统计研究工作的前提，推断统计学则是现代统计学的核心和统计工作的关键。,5常用统计学术语 5.1 总体与样本 5.1.1总体统计总体是根据统计研究的任务目的所确定的研究事物的全体，是客观存在的具有共同性质的个体所构成的整

5、体。把组成整体的每一单个成员，称为个体（或样品）。在实际问题中，人们关心的并不是总体中个体的一切方面，而所研究的往往是总体中个体的某种数量指标。例如，一批小麦的蛋白质含量，它是一个随机变量X，假定X的分布函数为F(x)，这个数量指标X的可能取值的全体看做总体，这一总体X为具有分布函数F(x)的总体。,5.1.2 样本从总体X中抽取若干个个体称为样本。通过样本来研究总体的过程，称为抽样（又称取样或采样）研究，这种做法称为抽样法，其基本思想是从研究对象的全体中抽取一小部分进行观察和研究，从而对整体进行推断。从一个整体中，随机抽取的n个个体X1,X2,Xn称为总体X的一个样本。样本中个体的数目n

6、称为样本容量。样本应同时具有独立性和代表性。,样本容量(n)：样本中包含的个体数大样本：n30；小样本：n30,5.2 变量与常数 5.2.1 变量相同性质的事物间表现差异性或差异特征的数据称为变量或变数，它是表示在一个界限内变动着的性状的数值。例如10个人的身高在155-180cm之间，共有158，167，155，180，165，175，178，170，162cm 10个变量值，记作xi (i=1,2,3,.,10),表示x1到xn之间任一数值，亦称xi为随机变量。,变量按其性质分为连续变量和非连续变量。连续变量表示在变量范围内可抽出某一范围的所有值，这种变量之间是连续的、无限的。非

7、连续变量，也称为离散变量，表示在变量数列中，仅能取得固定数值。变量可以是定性的，也可以是定量的。定性的变量往往表示某个体属于几种互不相容的类型中的一种，如果蝇的翅有长翅和残翅，豌豆花的颜色有白色，红色和紫色等。定量的变量是指可测量的，如出栏时猪的重量，电泳酶谱上的带数等。,5.2.2 常数常数表示能代表事物特征和性质的数值，通常由变量计算而来，在一定过程中是不变的。如某样本平均数、标准差、变异系数等。,5.3 参数和统计数参数也称参量，是对一个总体特征的度量。如总体平均数、总体标准差等均为参数。因为总体一般都很大，有的甚至不可能取得，所以总体参数一般不可能计算出来。可以通过对总体抽取样本

8、，计算样本的特征数，来估计总体参数。从样本中计算所得的数值称为统计数，它是总体参数的估计值。,5.4 效应与互作引起试验差异的作用称为效应，如不同饲料使动物的体重增加表现出差异，不同品种的玉米产量不同等。互作，也称连应，是指两个或两个以上处理因素间的相互作用产生的效应。如氮、磷肥共施会对作物产量产生互作效应。互作分正效应和负效应。,5.5 机误与错误机误也叫实验误差，是指实验中由于无法控制的随机因素所引起的差异。如在抽样中会出现较大或较小的数据，这是由于总体中的个体间存在一定的差异，是不可避免的，试验中只能设法减小，而不能完全消灭。增加抽样或试验次数，可降低机误的数值。错误是指在试验过

9、程中，人为的作用所引起的差错。如试验人员粗心大意，使仪器校正不准。药品配制比例不当、称量不准确将数据抄错、计算出现错误等都是因为人为因素造成的，在试验中是完全可以避免的。,观察值(observation):将每次所取样品测定的结果称为一个观察值，记为yi。例如：测定绵农4号小麦品种的株高，得到以下数值(单位：cm)： 90、91.5、93、89、90.8 其中的每一个数值就是一个观察值。如果没有误差，上述观察值就不会出现差异，并始终保持一个恒定的值，这个值称为理论值或真值，以表示。,由于误差是客观存在的，所以：观察值真值误差用代数式表示为： yi i 式中i代表误差，故： i yi 误

10、差(error):观察值与真值之间的差异。,误差的分类：随机误差(random error)：完全是偶然的，找不出确切原因引起的误差，也称偶然性误差(spontaneous)。系统误差(systematic error)：有一定原因引起的误差，也称偏差(bias)。,这里用一个例子说明误差的层次性问题：取100个30g大豆种子的样品测定蛋白质含量。第一层次的误差：来源于抽样引起的误差。第二层次的误差：从30g种子中取2g进行分析，要求测定两次，两次测定结果若相差太大还需进行第三次测定。可见第二层次的误差来源于测定过程的误差。,5.6 准确性与精确性统计工作是用样本的统计数来推断总体

11、参数的。我们用统计数接近参数真值的程度来衡量统计数准确性的高低，用样本中的各个变量间变异程度的大小来衡量该样本精确性的高低。因此，准确性不等于精确性。准确性是说明测量值对真值符合程度的大小，而精确性则是多次测定值的变异程度。,系统误差使数据偏离了其理论值，影响数据的准确性。偶然误差使数据相互分散，影响了数据的精确性。,5.7 统计量样本是总体的一部分，是总体的代表和反映，在抽取样本后，并不直接用样本的n个观测值进行推断，而是对这些观测值进行加工处理，提炼筛选，把样本中所包含的我们关心的主要信息集中起来。在数理统计中，为了不同的推断目的，要对样本进行不同的加工，构造出许多不同的样本函数。

12、我们把这样的样本函数叫做统计量。,本章小结,统计学的概念统计学的基本任务统计学的基本内容常用统计学术语,第二章试验资料的整理与特征数计算,在试验及调查中，能够获得大量的原始数据，这是在一定条件下，对某种具体事物或现象观察的结果，称之为资料。资料在整理前往往是分散、零星和孤立的数字。统计分析就是要依靠这些资料，通过整理分析进行归类，使其系统化，列成统计表，绘出统计图，计算出平均数，变异数等特征数。,第一节试验资料的搜集与整理,1. 试验资料的类型对试验资料进行分类整理时，必须坚持“同质”原则。 1.1数量性状资料数量性状资料一般是由计数和测量或度量得到的。由计数法得到的数据称为计数

13、资料（非连续变量资料）。计数资料的变量值以正整数出现，不能带有小数。由测量或度量得到的数据称为计量资料（连续变量资料），数据通常用长度、重量、体积等单位表示。计量资料不一定是整数，在相邻值之间有微小差异的数值存在。,1.2 质量性状资料质量性状资料也称属性性状资料，是指对某种现象只能观察而不能测量的资料。为了统计分析，一般先需要把质量性状资料数量化，可采取以下两种方法：,1.2.1 统计次数法在一定总体内，根据某一质量性状的类别统计其次数，以次数来作为质量性状的数据。在分组统计时可按质量性状的类别进行分组，然后统计各组出现的次数。 1.2.2评分法此方法用数字级别表示某现象在程度上的差别

14、。如小麦感染锈病的严重程度可划分为0（免疫）、1（高度抵抗）、2（中度抵抗）、3（感染）四级。经过数量化的质量性状资料的处理方法可以参照计数资料的处理方法。,2试验资料的搜集搜集样本资料是统计分析的第一步，也是全部统计工作的基础。资料的来源一是调查，二是试验。,2.1 调查资料的调查方法有两种：普查和抽样调查。普查是对研究对象的每个个体都进行测量或度量的一种全面调查，比如人口普查、土壤普查等。抽样调查是一种非全面调查，是根据一定的原则对研究对象抽取一部分个体进行测量或度量，把得到的数据资料作为样本进行统计处理，然后利用样本特征数对总体进行推断。如某一地区污水处理厂氨氮和总磷的排放量调查

15、，某一保护区生物资源的调查。随机抽样必须满足两个条件：（1）总体中每个个体被抽中的机会是均等的。（2）总体中任意一个体是否被抽中是相互独立的，即个体是否被抽中不受其他个体的影响。,2.2 试验对于理论性的无限总体，一般需要通过设置各种类型的试验获取样本资料。设置试验时要遵循随机、重复和局部控制三项基本原则。常见的试验设计方法有：单因子随机区组试验、复因子随机区组试验、裂区设计试验、正交设计试验等。,3 试验资料的整理 3.1 原始资料的检查与核对通过调查或试验取得原始数据资料后，要对全部数据进行检查与核对后才能进行数据整理。一般从三方面进行：数据本身是否有错误、取样是否有差错、对不合理数

16、据进行校正。,3.2 次数分布表调查或试验所得的数据资料，经过检查核对后，根据样本资料的多少确定是否分组。一般样本容量在30以下的小样本不必分组，可直接进行统计分析。如果样本容量在30以上时，须将数据分成若干组以便进行统计分析。数据进过分组归类后，可以制成有规则的次数分布表，作出次数分布图。,3.2.1 计数资料的整理采用单项式分组法进行，特点是用样本变量自然值进行分组，每组均用一个或几个变量值表示。分组时。可将数据资料中每个变量分别归入相应的组内，然后制成次数分布表。举例说明:,制作成次数分布表,3.2.2 计量资料的整理一般采取组距式分组法。分组时先确定全距组数、组距、各组上下限，然后按观测值的大小来归组。,求全距。全距是样本数据资料中最大观测数与最小观测数的差值，是整个样本的变异幅度。组数和组距。组数是根据样本观测数的多少及组距的大小来确定的同时要考虑对资料要求的精确度及进一步计算是否方便。组数多则组距相应变小，统计越精确，但不便于计算

展开阅读全文