统计学中的几个基本概念

资源描述

《统计学中的几个基本概念》由会员分享，可在线阅读，更多相关《统计学中的几个基本概念（15页珍藏版）》请在金锄头文库上搜索。

1、1统计学中的几个基本概念统计学中的几个基本概念中国药科大学药代中心杨劲目的研究2008年某地7岁男孩的身高情况。假如该地在2008年的7岁男孩有10万人，则最直接的方法就是普查：调查这10万个儿童，测量他们的身高，然后进行统计分析。但是工作量非常大。我们可以通过随机抽样调查了解7岁男孩的身高情况。如调查200个儿童，测量他们的身高，通过分析这200个儿童的身高推断该地 10万个7岁男孩身高情况。研究目的研究目的：2008年某地7岁男孩的身高情况。研究对象研究对象：该地在2008年的10万个7岁男孩。观察单位观察单位(个体个体)：每个7岁男孩。观察指标观察指标：身高(观察指

2、标又称为变量变量)；身高的测量值(观察值)又称为变量取值或变量值。总体总体population：该地2008年的10万个7岁男孩身高观察值的全体(即：10万个身高观察值构成的一个集合)。样本样本sample：随机抽样所得到的200个7岁男孩身高观察值。抽样研究的目的抽样研究的目的就是通过样本的信息了解总体的情况。即：通过分析200个7岁男孩的身高了解10万个7岁男孩身高情况。总体与样本 (population and sample)总体：根据研究目的确定的研究对象的全体。当研究有具体而明确的指标时，总体是指该项变量值的全体。分为有限总体和无限总体。由于调查总体的不可

3、能性、巨大性和没必要。对其中的一部分对象进行调查：样本样本：总体中有代表性的一部分。观察单位（个体）：最基本的研究单位总体均数样本均数总体标准差样本标准差S 总体率样本率 Px总体总体 population population 样本样本samplesample参数参数统计量统计量统计推断抽样2 为了了解某地2029岁健康女性血红蛋白的正常值范围，现随机调查了该地2000名2029岁的健康女性，并对其血红蛋白进行测量，请问本次调查的总体是（） A该地所有2029的健康女性 B该地所有2029的健康女性的血红蛋白测量值 C抽取的这2000名2029岁女性 D抽取的这2000名20

4、29岁女性的血红蛋白测量值对变量数据的描述统计(上)变异总体与样本误差变异同质(homogeneous)事物个体间的差异。来源于一些未加控制或无法控制的甚至不明原因的因素。是统计学存在的基础,从本质上说,统计学就是研究变异的科学。变异的表达离均差平方和devsq 变异(消除自由度不一样)var 标准差(对var开根号)stdev 标准误 Coefficient of variance变异系数stdev/Mean222 2()()var1(1)xxnxxsnn n=222()()devsqxxnxx=1)(2= nxxs/sesn=%100%=MeansCV统计资料的类型计量资料

5、,计数资料,等级资料变量及变量值，研究者对每个观察单位的某项特征进行观察和测量，这种特征称为变量(例如血压)，变量的测得值叫变量值（也叫观察值，例如血压值），称为资料。按变量值的性质可将资料分为定量资料和定性资料。变量的类型变量的类型变量的类型变量的类型只有认识了变量的类型，才能正确地选用统计分析方法按变量测量的精确程度测量的精确程度由低到高，将数据分类为：名义变量（如性别、婚姻状况）、有序变量（如疗效，类别间差别大小难以度量）、区间变量（如摄氏体温，类别间差别有实际意义）、比变量（如身高，除具有区间变量的特征外，还具有真实意义的零点。摄氏温度的零点为水结冰时温

6、度，并非绝对意义的零点，所以它不属于比变量）定量变量定性变量31、定性变量 Qualitative Variable 计数数据（enumeration (counting) data）(质反应) （1）名义变量（Nominal variable）二项分类性别分类，如男性为1，女性为0。多项无序分类血型的A、B、AB、O型多项无序分类（2）有序（等级）变量(Ordinal or ranking variable) 多项有序分类疗效观测分为显效、有效、好转及无效4个类别。等级资料定义：介于计量资料和计数资料之间的一种资料，通过半定量方法测量得到。特点：每一个观察单位没有确切值

7、各组之间有性质上的差别或程度上的不同。例如：无效，有效，显效 - ，+，+，+定性变量定义：将全体观测单位按照某种性质或特征分组，然后再分别清点各组观察单位的个数。特点：没有度量衡单位多为间断性资料（通过枚举或记数得来）半死不活，是死还是活？2、定量变量 Quantitative Variable（1）区间变量（interval variable ）或数值变量（numerical variable ）如：身高，血压，血清胆固醇浓度，体温，脉搏计数、红细胞计数、玫瑰花环计数、住院天数等。（一般有度量衡单位，类别间的差别大小有实际意义）（2）比变量(ratio varia

8、ble) 以上例子中除体温外（具有真实意义的零点）连续型变量（Continuous variable）与离散型变量(Discrete variables)根据观察数据之间有无缝隙（gap），常将数据分类为离散型变量（有缝隙）与连续型变量（无缝隙）两大类，名义变量一定是离散型变量；连续型变量只能是比、区间和有序变量，但比、区间和有序变量也可以是离散型变量例如：体重与身高三、定量变量的离散化与有序分类变量的数量化1、实际年龄、实际年龄-少年、青年、中年、老年少年、青年、中年、老年2、有序疗效等级：显效、有效、好转、无效、有序疗效等级：显效、有效、好转、无效 4 3 2

9、1 丢失信息丢失信息赋值的合理性？赋值的合理性？4定量变量定量变量定性变量定性变量例：一组例：一组2040岁成年人的血压岁成年人的血压以以12kPa为界分为正常与异常两组，统计每组例数为界分为正常与异常两组，统计每组例数单纯随机抽样系统抽样分层抽样（2）增加样本量n （3）选择变异程度较小的研究指标对变量数据的描述统计(下) 概率和频率抛一枚硬币，是否国徽面一定向上？明天的股市升还是降？某患者痊愈的可能性？这些问题的答案都不可能绝对。概率(probability)：描述随机事件发生的可能性大小的数值，常用 P来表示。大小：P的大小在0和1之间，越接近于1，说明发生的可能性越大，越

10、接近于0，说明发生的可能性越小。统计学中的许多结论是带有概率性质的，通常一个事件的发生小于5%，就叫小概率事件。频率(frequency) ：在实际工作中，当观察单位的例数足够实际工作中，当观察单位的例数足够实际工作中，当观察单位的例数足够实际工作中，当观察单位的例数足够多时，可以用频率来代替概率。频率是概率的估计值多时，可以用频率来代替概率。频率是概率的估计值多时，可以用频率来代替概率。频率是概率的估计值多时，可以用频率来代替概率。频率是概率的估计值。6有趣的概率教室中有100个同学，我下个定论：有 99.9999%的把握至少有两个同学的生日在同一天！一个班30个人，73%的把握

11、至少有两个同学的生日在同一天没有相同生日的概率假定一年365天第一个同学生日是365天中的任意一天第二个同学生日是剩下364天中的任意一天，364/365 第三个同学生日是剩下363天中的任意一天，363/365 第100个同学则为265/365 如果这样，每个同学都有不同的生日，则概率为：07-2.23E365265 365363 3653641P=L某动物房110只大鼠体重 (见excel) 请作统计描述。132.8118.3134.5122.6129.1122.5121.5125.2127.6118.8113.5127.0121.3112.3124.4125.1116.3122.

12、5127.1118.3122.7120.0127.2124.1128.2119.4122.7124.8120.1125.8116.8122.8120.0120.5114.4122.1124.8120.4122.1119.9123.2117.4123.0127.8118.3127.2114.2126.4116.9120.3122.4118.0115.2120.4131.1116.9119.1121.0118.4126.4119.2126.1116.3123.5122.0132.5122.0128.6122.8122.2116.7123.8131.3126.1119.7128.1123.5130.

13、0124.9121.8124.5119.0124.0116.3122.7121.7124.5121.8118.8121.7122.0120.2121.6116.8121.7116.7118.2122.3120.3125.5120.1120.9110.2120.2112.8115.0125.0124.7119.2121.4直方图histogram0510152025110 112 114 116 118 120 122 124 126 128 130 132 134 136 体重(g)频数直方图的意义直方图描述数据的整体分布型态包括形状(shape)、中心(center)及离散度(sprea

14、d)等对称资料(Symmetric Data) 偏斜资料(Skewed Data) 右偏斜资料(skewed to the right)：数据中线的右边延伸较长。左偏斜资料(skewed to the left)：数据中线的左边延伸较长。 Kurt和 skew 直方图也呈现数据的偏差(deviation) 离群值(outliers) ：与众不同的个别值直方图的意义7频数、频率、概率-100.00110合计100.001100.91113413699.091091.82213297.271072.73313094.551043.64412890.911009.091012681.8290

15、12.731412469.097619.092112250.005520.002212030.003313.641511816.36189.09101167.2783.6441143.6442.7331120.9110.911110累计频率（%） (5)累计频数 (4)频率（%） (3)频数 (2)重量组段 (1)两个转换 1、直方图到概率密度图的转换频数、频率、概率每个直方条的面积为频率，所有直方条的面积之和为1 如果观察对象的个数(样本量)n增大，而且越来越大时，每个区间的频率趋向一个稳定的数：概率，也就是频率密度直方图的面积趋向稳定值。如这时计算大鼠在118122g的概率就是频率

16、密度直方图中区间118122g的直方条面积。但这时想计算一只体重在118119g的概率就无法计算了。因为直方条的宽度是2g的，对于1g的情况就无法计算了。normdist函数的使用：给出曲线下从- 到0，可利用正态分布的对称性求得曲线下从- 到范围内的面积。例如，若要求从- 到=1.76范围内的面积，可以先查表得曲线下从- 到-1.76的范围内的面积为0.0392，然后据正态分布的对称性可得从1.76到+范围内的面积也是 0.0392，又因为曲线下的总面积为1，故曲线下从- 到1.76 范围内的面积为1- 0.0392=0.9608 00.10.20.30.40.5- 4.9- 4- 3.1- 2.2- 1.3- 0.4

展开阅读全文