统计学专题培训课程

资源描述

《统计学专题培训课程》由会员分享，可在线阅读，更多相关《统计学专题培训课程（45页珍藏版）》请在金锄头文库上搜索。

1、本资料来源,统计学教学课件,天津财经学院统计系高建国,第1章总论,统计学是搜集数据、整理数据并从数据中获取有用信息的一门方法论科学。我们从数据中获取的有用信息是来说明社会经济现象总体数量特征的。,有限总体和无限总体,（1）认识事物的现实状况；（2）认识随机现象的统计规律；（3）减少人们对某种系统知识的无知而产生的认识上的不确定性。,第2章数据的搜集,一、一些基本概念,总体单位,总体,标志,指标,数量指标,质量指标,数量标志,品质标志,数据的搜集也就是统计调查，它是保证我们获取有用信息的关键。,变量,分为连续变量和离散变量，数量型和属性变量,例1：调查天津市工业企业2001年增加值

2、的规模。总体是“全部工业企业”，总体单位是“每一工业企业”，标志是“每一工业企业的增加值”数量标志，指标是“增加值总和” 数量指标。,例2：调查天津市学龄儿童入学情况。总体是“所有儿童”，总体单位是“每一个儿童”，标志是“是否入学”品质标志，指标是“入学率”质量指标。,例3：调查天津市2001年居民年收入情况。总体是“所有居民”，总体单位是“每位居民”，标志是“每位居民的年收入”数量标志，指标是年均收入质量指标。,二、统计分组,1.将统计调查所获取的零散的不系统的资料，按照一定的研究目的和任务，进行加工和整理的一种行之有效的统计方法。它可以帮助我们完成4种任务。,2.分组时应该正确选择分

3、组标志，以免不能准确的完成4种任务；同时应遵循互斥性和包容性原则，以免重复或遗漏。,3.组距式分组中，应该弄清一些概念：组数、组距及组距的类型（如等组距、异组距、开口组距、闭口组距）、组限（上限、下限、如何确定组限）、组中值（它的假定性、开口组距的组中值如何计算、用组中值计算的平均数是一个准确值吗）。,三、统计调查方案,是在背景分析的前提下，制定出的周密完整的，以指导调查工作顺利完成的一项计划任务书。一项完整的统计调查方案包括8方面的内容。,第3章数据和统计指标的基本类型,一、数据的类型,它分为总体总量和标志总量（两者要成对出现才能判断，比如职工人数如何判断，只有将它和工资总额或者和工业企业

4、数结合在一起才能判断出它的归属，即它和工资总额结合在一起，它是总体总量；它和工业企业数结合在一起，它是标志总量）；时期数又称流量指标和时点数又称存量指标（两者判断的正确与否对序时平均数的计算有至关重要的影响，序时平均数的计算将在第13章里讲解，而如何判断呢，,二、指标的类型,有数量型数据（用数来表示且数的计算有意义）和品质型数据（用文字来表示也可用数来表示但数的计算没有意义）。,1.总量指标,应根据其特点即（1）与时间长短是否相关，（2）前后时间上的数值相加是否有意义来判断）。,2.平均指标,在同质总体内，通过“填平补齐”，“取长补短”的方式，获得的描绘总体一般水平的指标。,3.相对指标,它有

5、5种形式：动态相对指标，比较相对指标，计划完成相对指标，结构相对指标，强度相对指标。,平均指标和相对指标统称为比率型变量，我们在第4章里将涉及到这个概念，到时在详谈。,第4章数据的描述性整理,一、数据分布状态的描述方法,1.分布列：有品质型和数量型分布列。它们是通过统计表来描述数据的分布状态。,在这里还应该弄清楚以下概念：次数又叫频数、频率、频数密度、频率密度。因为这些概念可以帮助我们了解数据的分布状态。,2.分布图：有棒图、直方图、折线图、曲线图。它们是通过统计图来描述数据的分布状态。它们与分布列相比更加直观。,画图时如果是等组距，那么可用频数或频率来做图；如果是异组距，那么应该用频数密

6、度或频率密度来做图。,二、数据分布的特征及特征数,分布特征分布特征数位置特征平均数、中位数、众数离散特征全距、平均差、标准差、离散系数偏斜特征偏态系数峰度特征峰度系数,三、几种常用的位置特征数,（一）平均数,常见的有算术平均数、调和平均数、几何平均数。几何平均数在第13章里会详细加以解释，这里主要讲解前两个。,对于绝对数和比率变量如何计算平均数，我们可这样做：,1.先确定变量。根据题意平均“谁”，“谁”就是变量。,比如，求平均日产量，则“日产量”就是变量；又如，求50家企业的平均计划完成百分比，则“计划完成百分比”就是变量。,2.判别“所确定变量”的类型是绝对数变量，还是比率

7、变量。,3.如果是绝对数变量，那么权数是次数（频数）或频率，并采用加权算术平均数的公式来计算。,如：“ 日产量”是绝对数变量，则权数是各组的人数或人数比重。,4.如果是比率变量，那么要找出比率变量的基本比式，然后再根据已知资料来确定权数和计算公式。,如：“计划完成百分比”是比率变量，其基本比式是实际数与,计划数的比值。那么权数和公式这样选择：,（1）若已知资料是比率变量和基本比式的分母资料，则权数为分母资料，用f表示，并采用加权算术平均数。,（2）若已知资料是比率变量和基本比式的分子资料，则权数为分子资料，用M表示，并采用加权调和平均数。,例如：通过调查获取了15个企业的产值计划执行情况，如下

8、表（单位：万元）,计划完成% 企业数计划产值 8090 2 100 90100 3 200 100110 6 400 110以上 4 300 合计 15 1000,计算15个企业的平均计划完成百分比。,（1）在这道题中，我们平均的是“计划完成百分比”，那么，它就是变量，用x表示，变量值为各组的组中值。,（2）该变量的性质是比率变量，其基本比式是实际产值与计划产值之比。,（3）从已知资料中可知条件是比率变量和基本比式的分母资料，则权数是分母资料“计划产值”，用f来表示，采用加权算术平均数公式来计算即可。,（二）中位数,平均数的着眼点在于抵消各观察值之间的数量差异，表明将各个观察值“截长补短”

9、以后的平均水平。中位数的着眼点在于寻求全部观察值按其大小顺序排列，居中间位置的一般水平。例如：人口的年龄分布往往近似J型：婴儿数最多，随着年龄的增大，人数逐渐下降，到了百岁左右，所剩的人,（三）众数,众数的着眼点在于寻求各组中频数最多的观察值。用来反映要了解的现象中最普通、最常见的数值水平。,数就很少了。如果计算年龄的算术平均数，老年人口数虽然较少，但其年龄数值很高，这样一来，计算的平均年龄就会偏向老年一方。因此，各国的人口统计资料中，平均年龄的计算一般采用中位数。,比如，一位食品部经理想按照预期的销售量来分配货物架的空间。从这个意义上来说，我们应该依据众数，而不是平均数或中位数来确定，即

10、过去具有最高销售量的食品将得到最大限度的货物架空间。,又如，如果你的业务是提供足球运动衫的号码，那么，哪一种度量对你来说更为有用：平均数、中位数或众数？当然是众数。,四、离散特征数,有4种：一是全距：在实际生产中称之为极差，用R表示。,二是平均差：有简单式和加权式之分。当平均数是简单算术平均数时，平均差便采用简单式；当平均数是加权算术平均数时，平均差便采用加权式。,三是标准差（方差）：也有简单式和加权式之分。和平均差一样，选择哪种形式要依赖于平均数的计算。,四是离散系数：有全距系数、平均差系数和标准差系数。一般地，标准差系数的应用场合较多。,例1.甲、乙两个企业平均每月的劳动生产率都是8000

11、元，它们的标准差分别是320元和240元，那么哪个企业的劳动生产率的代表性更强？,对于这种情况，因为甲乙两个企业的总体平均水平是相同的，所以，我们可以直接根据标准差的大小来判别乙企,业的劳动生产率的代表性强。,例2.A、B两个商场2000年平均每月的销售额分别为16000元和8000元，它们的标准差各为320元和240元，那么哪个商场的销售额稳定些？,例3.对某系一年级的100名男生进行调查，得到平均身高为172厘米，平均体重68公斤，各自的标准差分别为6厘米和4公斤，那么100名男生的身高和体重何者离散较严重？,对于例2和例3这两种情况，由于面对的一个是两个总体水平相差很悬殊，一个是两个总体

12、的性质或计量单位不同，我们不能直接根据已知的标准差的大小来判别总体内变量值的离散程度，应该计算两个总体各自的标准差系数。结果是例2中，A商场的标准差系数是2%，B商场的标准差系数是3%，即A商场的销售额稳定。例3中，身高的标准差系数是3.49%,体重的标准差系数是5.88%，即100名男生体重的离散较严重。,第5章随机试验和随机变量,一、随机现象,在给定条件下，不能确切预见其结果的现象。,1.由于存在着不能确定的和不能完全预见的偶然性的影响因素,随机现象便产生了。,2.随机现象具有一定的规律性。规律值附近发生的可能大，规律值远处发生的可能小。,3.要保证给定的条件是相同的。,二、随机试验（可

13、重复、不可重复）、事件（基本事件、复合事件；必然事件、不可能事件）,三、概率,有主观概率和客观概率之分。在以后章节中涉及到的概率是指客观概率，即大量观察条件下频率的稳定值。,四、随机变量及其分布,书中127页第1个例子的随机变量是“可能出现的点数”，第2个例子的随机变量是“等待时间”，第3个例子的随机变量是“取出球的颜色”。,从上述3个例子中可以看到例1和例3是离散型随机变量，例2是连续型随机变量。,我们通过“分布”来刻画随机变量的特征。也可以通过特征数来认识随机变量的特征。,第6章有限总体概率抽样,一、一般问题,抽取样本时我们应该作到：对每一次抽取行为都应精心组织，使得此时尚留在总体中的所

14、有单位都有可能被抽到，且有确定的，不等于零的被抽中的概率。,例如，一个笼子里装有800只兔子，调查人员闭上眼睛将手伸入笼中抓取兔子的行为，是不是符合随机抽取的原则。,正确的作法是：在800只兔子身上编上号码，并做好800个阄，放在盒子里充分搅匀，从盒子里随机抽取一个号码，号码是几，就从笼子中抓出相同号码的兔子。这就符合随机抽取的原则了。,如果向例子中所描述的那样“闭上眼抓兔子”那属于随便抓取，因为在笼口附近的兔子被抓住的可能大于远离笼口的兔子。,等概率和不等概率抽样的共同点：各单位都有确定的不等于零的被抽中的概率。,二、一些基本概念,例：某微波炉生产厂家想要了解微波炉进入居民家庭生活的深度。为

15、此从某地区已购买了微波炉的2200个居民户中用简单随机抽样方法以户为单位抽取了30户，询问每户一个月使用微波炉的时间。调查结果依次为（分钟）：,450 900 50 700 400 520 600 340 280 800 750 550 20 1100 440 460 580 650 430 460 450 400 360 370 560 610 710 200,试估计该地区已购买了微波炉的居民户平均一户一个月使用微波炉的时间，并以95.45%的置信概率做保证对平均使用微波炉的时间进行区间估计。,根据该例子我们来了解一下一些概念。,1.题中的 N=2200就是“有限总体”，n=30就是“概率样本”。,2.30户居民的平均使用微波炉的时间: （分钟）,和方差,是“统计量”。,3.我们用样本统计量,作为对有限总体指标,的估计，,用,来表示，称之为“估计量”。,4.点估计：用样本估计量及其观察值来表达对总体指标的估计。即,5.区间估计：用一个取值区间来表达对总体指标的估计。这个数值区间叫作置信区间。,该题的置信区间为至,区间的左端为置信下限，右端为置信上限。

展开阅读全文

统计学专题培训课程

最新文档