《1.数据与统计学》由会员分享,可在线阅读,更多相关《1.数据与统计学(75页珍藏版)》请在金锄头文库上搜索。
1、第 1 章 数据与统计学举出一个统计没有用途的领域名称举出一个统计没有用途的领域名称比举出一个统计作为其组成部分的比举出一个统计作为其组成部分的领域名称要困难得多。领域名称要困难得多。 Robert Johnson乘飞机的风险与航空意外险保险费率的厘定,主要根据风险的大小,同时考虑管理费用和保险公司的利润。现在普通过的单程保费是20元,保额40万,粗略估算,风险相当于1/20000。根据国际民用航空风险的计算原则,一般是以10年作为一个周期,计算百万起降架次和百万飞行小时的事故率。中国民航总局局长李家祥2011年2月24日十一五”期间,民航运输飞行累计达2036万小时,976万架次,分别比“十
2、五”增加了95%、81%。“十一五”期间,中国民航百万架次重大事故率为0.1%,约占同期世界平均水平(0.5%)的五分之一,民航安全水平显著提升。“十一五”期间,中国亿客公里死亡人数为0.003,而同期世界平均水平约为0.009。上述两项安全指标均高于世界平均水平。2010年,民航业实现利润总额437亿元,创下了历史最好的水平,航空公司实现利润总额351亿元,占全球航空公司利润总额的60%。质量管理中的6 6是质量管理中使用的一个术语,它的含义是指偏离正态分布的中心6个标准差。就产品生产或服务而言,它表示在生产或服务过程中缺陷率不超过百万分之3.4,通俗地说,如果生产100万个产品或进行100
3、万次服务,产品的不合格率或服务达不到要求的比率平均来说不超过3.4个或3.4次。6质量管理已成为最新的质量管理理念,近年来,它已成为一些著名国际大企业的质量管理方法,并在这样的管理理念下使企业受益匪浅。例如,实行了6质量标准,使摩托罗拉公司在3年中节省的资金超过9.4亿美元。在推广6质量管理策略不到10年的时间内,通用电器公司总市值从世界排名第十位跃升到第二位 目录1.1 统计数据与统计学统计数据与统计学1.2 统计学的产生和发展统计学的产生和发展1.3 统计学的分科统计学的分科1.4 统计数据统计数据1.5 统计学的几个基本概念统计学的几个基本概念1.1 统计数据与统计学1.1 统计数据与统
4、计学 在我们的日常工作和生活中,到处都有统计数据。出勤人数考试成绩企业利润GDP经济增长率Statistics统计学统计数据或统计资料案例1 男女人口比例婴儿出生男女性别比:105:100全国男女出生性别比为116.9:100中国乡村出生人口性别比为122.85 :1002005年人口普查统计公报,男女人口性别比106.74 :100。 2020年,预计我国20岁至45岁的男性将比女性多出3000万人 案例2 掷骰子抛硬币掷骰子案例3 农作物实验施肥量与产量案例4 广告费用与销售额广告费用增加,商品销售额也会相应增加不同商品,相同投入会带来不同的销售额相同商品,不同阶段投入也会带来不同销售额案
5、例5 油耗丰田威驰油耗,手动挡汽车百公里不超过5L。如何检测?案例6 化妆品营销免费试用试用对象选择?央视春晚满意度央视市场研究公司发布的调查结果显示,2009年春节,中国全国收看电视的家庭中约有93.6%在看中央电视台的“春晚”,其中有83.6%的受调查观众对“春晚”表示满意。 央视春晚统计学统计学是一门收集、整理、显示和分析统计数据的科学,其目的是探索数据内在的数量规律性。正因为统计学总是在和数据打交道,因而我们也可称统计学为“数据数据的科学的科学”。什么是统计学? (statistics)1.统计学是收集、分析、表述和解释数据的科学(不列颠百科全书)2.统计学是一门收集、分析、解释和提供
6、数据的科学(韦伯斯特国际辞典第3版)3.统计指的是一组方法,用来设计实验、获得数据,然后在这些数据的基础上组织、概括、演示、分析、解释和得出结论(Mario F.Triola,初级统计学) 什么是统计学? (statistics)1. 收集数据:取得数据2. 处理数据:整理与图表展示 3.分析数据:利用统计方法分析数据4.数据解释:结果的说明5.得到结论:从数据分析中得出客观结论收集、处理、分析、解释数据并从数据中得出结论的科学收集、处理、分析、解释数据并从数据中得出结论的科学 统计研究的过程解释数据解释数据(结果说明结果说明)分析数据分析数据(研究数据研究数据)实际问题实际问题来自庞帝雅克用
7、户的投诉“这是我为了同一件事第二次写信给你,我不会怪你们为什么没有回信给我,因为我也觉得这样别人会认为我疯了,但这的确是一个事实。我们家有一个传统的习惯,就是我们每天在吃完晚餐后,都会以冰淇淋来当我们的饭后甜点。由于冰淇淋的口味很多,所以我们家每天在饭后,才投票决定要吃哪一种口味,等大家决定后我就会开车去买。但自从最近我买了一部新的庞帝雅克后,在我去买冰淇淋的这段路程问题就发生了。你知道吗?每当我买的冰淇淋是香草口味时,我从店里出来车子就发不动。但如果我买的是其他的口味,车子发动就顺得很。我要让你知道,我对这件事情是非常认真的。为什么?为什么?”2024/9/21SHANDONG UNIVER
8、SITY DR. SHI SHAOBIN24工程师的观察工程师的观察顾客描述了一个现象:买香草冰激凌之后汽车无法启动,而买其它冰激凌就没有问题。科学的认识方式会问:这是偶然还是必然,换句话说,这个现象是否重复发生? 汽车公司的经理虽然很怀疑事情的真实性,还是派了一个工程师去解决这个投诉 。工程师在晚上到了顾客家里,一起去买冰激凌。那天是香草味的,买完之后,车的确无法启动;接连三个晚 上,工程师又去了,第二第三天是买别的冰激凌,车正常启动;第四天又是香草味的,还是无法启动。真得有神秘存在吗? 在这几次和顾客一起买冰激凌的过程中,工程师详细地记录下了过程中的每一个细节,尽管他不知道这些细节有 没有
9、有用。然后他比较这些细节,希望找出买香草冰激凌和其它口味冰激凌过程中的所有不同的地方。这种不同可能是导致汽车表现不同的原因。最后,他发现,买香草冰激凌所用的时间远比其它口味的要短。因为香草冰激凌最好卖,商店把它放在离门口很近的地方,也不用找,直接拿起来就去付账。而其它口味的冰激凌放在 商店后面,多种口味放在一起,要走过去还要先找,所花的时间明显比买香草味的要长。所以,停车时间的长短,而不是冰激凌的口味,是产生这一“神迹”最可能的原因 。这种猜测对么?为了确认这种猜测,可以进行正反两方面的对照实验。一方面,买香草冰激凌,买完之后逗留到买其它冰激凌所需要的时间,再去启动汽车,如果购买时间的长短是“
10、神迹”产生的原因,那么这样买完香草冰激凌汽车应该能够能够启动;另一方面,由另一个人拿一盒其它口味的冰激凌放在香草冰激凌那里,顾客取了之后付款走人,车应该不能启动。这两方面验证符合预测,就可以确定停车时间长停车时间长短是短是“神迹神迹”发生的原因发生的原因。 问题结束了么?对于顾客来说,故事似乎到此结束了。为什么停车时间短车就不能再次启动?为什么停车时间短车就不能再次启动? 停车时间短,发动机冷却不足,发生了汽车故障里的“蒸汽锁死”现象。只要等发动机充分冷却,故障自动排除。 为什么会产生为什么会产生“蒸汽锁死蒸汽锁死”现象?现象?因为发动机过热,汽油在达到喷油嘴之前就气化了,所以不能以发动机需要
11、的状态到达喷油嘴,从而导致发动机无法启动。改善发动机的设计,比如用高压避免气化,或者要求使用适当沸点的汽油等等。提出问题确认问题表面原因深层次原因解决办法1.2 统计的产生与发展统计学的产生统计学产生于17世纪中叶,从几个不同的领域开始。英国,威廉配第1676政治算术英国,约翰格朗特1662关于死亡表的自然现象与政治观察法国,帕斯卡、费马,概率论统计学的发展19世纪末,古典统计学(描述统计学),大样本1907,t分布小样本费希尔,F统计量奈曼、皮尔逊,区间估计、假设检验沃尔德,序贯抽样、统计决策1.3 统计学的分科统计学的分科描述统计(descriptive statistics)1.用图形、
12、表格和概括性的数字对数据进行描述 2.内容收集数据整理数据展示数据描述性分析3. 目的描述数据特征找出数据的基本规律0 025255050QQ1 1QQ2 2QQ3 3QQ4 4¥x x = 30 = 30 s s22 = 105 = 105推断统计 (inferential statistics)1.根据样本信息对总体进行估计、检验、预测或推断2.内容参数估计假设检验3.目的对总体特征作出推断样样本本总体总体描述统计与推断统计的关系反映客观现反映客观现象的数据象的数据总体内在的总体内在的数量规律性数量规律性推断统计推断统计推断统计推断统计( (利用样本信息和概率论利用样本信息和概率论利用样本
13、信息和概率论利用样本信息和概率论对总体的数量特征进行对总体的数量特征进行对总体的数量特征进行对总体的数量特征进行估计和检验等估计和检验等估计和检验等估计和检验等) )概率论概率论概率论概率论( (分布理论、大数定律和中分布理论、大数定律和中分布理论、大数定律和中分布理论、大数定律和中心极限定理等心极限定理等心极限定理等心极限定理等) )描述统计描述统计(数据的收集、整理、显数据的收集、整理、显示和分析等示和分析等)总体数据总体数据样本数据样本数据理论统计与应用统计理论统计应用统计统计学与其他学科的关系与数学的关系。密切联系但又有本质区别。抽象与具体/演绎与归纳与其他学科统计的应用领域经济学经济
14、学管理学管理学医学医学工程学工程学社会学社会学 统计学统计学统计的应用领域actuarial work (精算精算) agriculture (农业农业)animal science (动物学动物学) anthropology (人类学人类学)archaeology (考古学考古学) auditing (审计学审计学)crystallography (晶体学晶体学) demography (人口统计学人口统计学)dentistry (牙医学牙医学) ecology (生态学生态学)econometrics (经济计量学经济计量学) education (教育学教育学) election for
15、ecasting and projection (选举预测和策划选举预测和策划)engineering (工程工程) epidemiology (流行病学流行病学)finance (金融金融)fisheries research (水产渔业研究水产渔业研究)gambling (赌博赌博) genetics (遗传学遗传学)geography (地理学地理学) geology (地质学地质学)historical research (历史研究历史研究) human genetics (人类遗传学人类遗传学)统计的应用领域hydrology (水文学水文学) industry (工业工业) lin
16、guistics (语言学语言学) literature (文学文学)manpower planning (劳动力计划劳动力计划)management science (管理科学管理科学)marketing (市场营销学市场营销学) medical diagnosis (医学诊断医学诊断)meteorology (气象学气象学) military science (军事科学军事科学)nuclear material safeguards (核材料安全管理核材料安全管理)ophthalmology (眼科学眼科学) pharmaceutics (制药学制药学)physics (物理学物理学) p
17、olitical science (政治学政治学)psychology (心理学心理学) psychophysics (心理物理学心理物理学)quality control (质量控制质量控制) religious studies (宗教研究宗教研究)sociology (社会学社会学) survey sampling (调查抽样调查抽样)taxonomy (分类学分类学) weather modification (气象改善气象改善)结论统计学非常有用!历史上著名的统计学家 Jacob Bernoulli (Jacob Bernoulli (伯努利伯努利)(1654-1705) )(1654
18、-1705) Edmond Halley (Edmond Halley (哈雷哈雷) (1656-1742) ) (1656-1742) De Moivre (De Moivre (棣莫弗棣莫弗) (1667-1754) ) (1667-1754) Thomas Bayes (Thomas Bayes (贝叶斯贝叶斯) (1702-1761) (1702-1761) Leonhard Euler (Leonhard Euler (欧拉欧拉) (1707-1783) (1707-1783) Pierre Simon Laplace (Pierre Simon Laplace (拉普拉斯拉普拉斯)
19、 (1749-1827) (1749-1827) Adrien Marie Legendre (Adrien Marie Legendre (勒让德勒让德) (1752-1833) ) (1752-1833) Thomas Robert Malthus (Thomas Robert Malthus (马尔萨斯马尔萨斯) (1766-1834) (1766-1834)Pierre Simon Laplace Pierre Simon Laplace Francis GaltonFrancis GaltonJames BernoulliJames BernoulliAbraham de Moivr
20、eAbraham de MoivreWilliam S.GossetWilliam S.Gosset历史上著名的统计学家 Friedrich Gauss (Friedrich Gauss (高斯高斯) (1777-1855) ) (1777-1855) Johann Gregor Mendel (Johann Gregor Mendel (孟德尔孟德尔) (1822-1884) (1822-1884) Karl Pearson (Karl Pearson (皮尔逊皮尔逊) (1857-1936) (1857-1936) Ronald Aylmer Fisher (Ronald Aylmer F
21、isher (费希尔费希尔) (1890-1962), ) (1890-1962), Jerzy NeymanJerzy Neyman(奈曼)(奈曼) (1894-1981) (1894-1981) Egon Sharpe Pearson (Egon Sharpe Pearson (皮尔逊皮尔逊) (1895-1980) (1895-1980) William Feller (William Feller (费勒费勒)(1906-1970). )(1906-1970). Friedrich Gauss Friedrich Gauss Egon S.PearsonEgon S.Pearson R
22、onald A.FisherRonald A.FisherKarl PearsonJerzy NeymanJerzy Neyman1.4统计数据数据的计量尺度美国社会学家、统计学家史蒂文斯(S.S.Stevens)1946年提出,所有的科学统计都可以分为四个层次或四种计量尺度。On the Theory of Scales of MeasurementS. S. StevensScience, New Series, Vol. 103, No. 2684 (Jun. 7, 1946), pp. 677-680定类尺度(列名尺度)最粗略、层次最低的计量尺度,是按照实物的某种属性对其进行平行的分类
23、或分组。主要数学特征是“”或 “”定类尺度只是测量了事物之间的类别差,而对各类之间的其他差别却无法从中得知各类别之间是平等的并列关系,无法区分优劣或大小,各类别之间的顺序是可以改变的。为便于统计处理,可以对不同类型用不同的数字或编码来表示。但这些数字只是一个代码,没有任何数学意义国民经济按其经济类型,可以分为国有经济、集体经济、私营经济、个体经济等类,并分别用01-04表示。定序尺度(顺序尺度)对事物之间等级差别或顺序差别的一种测度不仅可以将事物分成不同的类别,还可以确定这些类别的优劣或顺序主要数学特征是“”或“”定序尺度的计量结果虽然也表现为类别,但这些类别之间是可以比较顺序的。定序尺度的计
24、量要比定类尺度精确一些,但只是测度了类别之间的顺序,而未测量出类别之间的准确差值。该尺度的计量结果只能比较大小,不能进行加减乘除等数学运算定距尺度(间隔尺度)不仅能将事物区分为不同类型并进行排序,而且还可以准确地指出类别之间的差距是多少主要数学特征是“”或“”定距尺度是对事物类别或次序之间间距的测度,该尺度通常用自然或物理单位表示定距尺度的计量结果表现为数值,可以计算差值,因此可以进行加减运算没有确定的“零”点,但有确定的测量单位例如,学生某门课程的考分,可以从高到低分类排序,形成90分、80分、70分,直到零分的序列。定比尺度(比例尺度)与定距尺度同属一个层次,其计量结果表示为数值主要数学特
25、征是“”或“”。可以计算两个测度值之间的比值,这就要求定比尺度中必须有一个绝对固定的零点,这也是与定距尺度的唯一差别。数据的计量尺度四类尺度中有一定的层次性,是一个由低级到高级不断提高的过程,后一种尺度具有以前各种较低尺度的功能,也具有其独特的功能。从定类到定比是一个认识不断深化,计量渐趋精确,数学处理的可能性逐渐增大的过程可以用较高层次尺度测量的现象,一定可以用较低层次尺度测量,但反之不行使用何种测量尺度取决于认识客体的性质,统计研究目的以及分类方法,一般应尽量使用较高层次的测量尺度计量尺度定性计量定类尺度定序尺度定量计量定距尺度定比尺度统计数据的分类 (按计量尺度分)1.分类数据分类数据(
26、categorical data) 只能归于某一类别的非数字型数据对事物进行分类的结果,数据表现为类别,用文字来表述例如,人口按性别分为男、女两类 2.顺序数据顺序数据(rank data) 只能归于某一有序类别的非数字型数据对事物类别顺序的测度,数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等 3.数值型数据数值型数据(metric data) 按数字尺度测量的观察值结果表现为具体的数值,对事物的精确测度例如:身高为175cm、168cm、183cm数据类型定性数据(品质数据)分类数据顺序数据定量数据(数量数据)数值型数据统计数据的分类(按收集方法分)1.观测的数据观
27、测的数据(observational data) 通过调查或观测而收集到的数据在没有对事物人为控制的条件下而得到的有关社会经济现象的统计数据几乎都是观测数据2.试验的数据试验的数据(experimental data) 在试验中控制试验对象而收集到的数据比如,对一种新药疗效的试验,对一种新的农作物品种的试验等自然科学领域的数据大多数都为试验数据统计数据的分类(按时间状况分)1.截面数据(cross-sectional data) 在相同或近似相同的时间点上收集的数据描述现象在某一时刻的变化情况比如,2005年我国各地区的国内生产总值数据2.时间序列数据(time series data) 在不
28、同时间上收集到的数据描述现象随时间变化的情况比如,2000年至2005年国内生产总值数据数据分类按计量层次分类数据顺序数据数值型数据按收集方法试验数据观察数据按时间状况截面数据时序数据Panal data1.5 统计学的几个基本概念统计中的几个基本概念总体与单位总体与单位标志与指标标志与指标总体与样本总体与样本参数与统计量参数与统计量统计总体和总体单位总体总体(population)是客观存在的、在同一性质基础上结合起来的许多个别单位的整体。是所研究的全部单位的集合。同质性是形成总体的一个必要条件。分为有限总体和无限总体有限总体的范围能够明确确定,包括的单位可以计数无限总体所包括的单位数无限,
29、不可数的有限总体与无限总体有限总体与无限总体的区分主要是为了判断在抽样中每次抽取是否独立。对于无限总体,每次抽取一个单位,并不影响下一次的抽样结果,因此每次抽取可以看做是独立的。对于有限总体,抽取一个单位后,总体元素就会减少一个,前一次的抽样结果往往会影响第二次的抽样结果,因此,每次抽取是不独立的。总体和总体单位总体单位是构成总体的各个单位,是各项统计资料最原始的承担着。根据研究目的的不同,总体单位可以是人、物,也可以是企业、机构、地域,甚至可以是状况、长度、时间等等。总体和总体单位是相对而言的,随着研究目的的不同,他们是可以变化的。标志与标志表现标志说明总体单位单位属性或特征的名称。通常每一
30、个总体单位有许多属性和特征。单位是标志的直接承担着,标志依附于单位。按性质不同,可以分为品质标志品质标志和数量标志数量标志。按变异情况可分为不变标志不变标志和可变标志可变标志。不变的数量标志称为常量常量,可变的数量标志称为变量变量。标志表现标志在各个单位身上的具体表现有品质标志表现和数量标志表现之分指标指标指标是客观存在的,说明总体现象数量特征的科学概念和具体数值。统计研究社会经济现象总体的数量方面主要是靠指标来反映的。分类按反映的数量特点不同,分为数量指标和质量指标。数量指标总量指标。反应社会经济现象的总规模水平或工作总量,用绝对数形式表现,具有实物的或货币的计量单位。按反映的总体内容,分总
31、体单位总量和总体标志总量总体单位总量是指总体内所有单位的总数,表明总体本身规模的大小总体标志总量指总体中各单位标志值总和,反映的是总体特征的总量总体单位总量只有一个,总体标志总量可以有许多个,从而构成一个总量指标体系按所反映的时间状况不同,分时期指标和时点指标时期指标反映社会现象在一定时期内发展过程的总量时点指标反映社会现象在某一时刻上状况的总量质量指标反映社会及经济现象的相对水平或工作质量的统计指标一般是由两个数量指标对比得到的派生指标通常用来反映总体内部结构、发展速度、联系程度和总体单位的一般水平具体分为相对指标和平均指标计划完成(程度)相对指标、结构相对指标、比例相对指标、比较相对指标、
32、动态相对指标(发展速度)、强度相对指标标志与指标区别区别统计指标是说明总体特征的,而标志是说明总体单位单位特征的统计指标都是用数值表示的,没有不能用数值标志的统计指标,而标志有不能用数值表示的品质标志和能用数值表示的数量标志联系联系统计指标的数值是由总体单位标志值汇总而来统计指标与数量标志存在着一定的转换关系,随着统计研究目的的不同,原来的统计总体若变成总体单位,则相应的统计指标就变成了数量标志,反之也是如此变 量 (variable) 可变的数量标志+指标如商品销售额、受教育程度、产品的质量等级等变量的具体表现称为变量值,即数据变量可以分为分类变量(categorical variable)
33、 :说明事物类别的名称顺序变量(rank variable):说明事物有序类别的名称数值型变量(metric variable) :说明事物数字特征的名称 离散变量:取有限个值 连续变量:可以取无穷多个值 变 量 (其他分类) 1.随机变量和非随机变量2.经验变量(empirical variables)和理论变量(theoretical variables)经验变量所描述的是我们周围可以观察到的事物理论变量则是由统计学家用数学方法所构造出来的一些变量,比如,z 统计量、t 统计量、2统计量、F 统计量等变量基本分类分类变量顺序变量数值型变量其他分类随机变量非随机变量经验变量理论变量样本样本样
34、本 (sample)从总体中抽取的一部分单位的集合构成样本的单位的数目称为样本容量或样本量 (sample size)参数和统计量1.参数参数(parameter)描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值所关心的参数主要有总体均值()、标准差()、总体比例()等总体参数通常用希腊字母表示 2.统计量统计量(statistic)用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等样本统计量通常用小写英文字母来表示 统计学的几个基本概念平均数平均数标准差标准差比比 例例参数统计
35、量 x s p 总体总体 样本样本几种常用的统计软件(software)典型的统计软件典型的统计软件SASSPSSMINITABSTATISTICAExcelMINITABMINITABSTATISTICASTATISTICAExcelExcelSASSASSPSSSPSSS. S. Stevens,On the Theory of Scales of Measurement,Science, New Series, Vol. 103, No. 2684 (Jun. 7, 1946), pp. 677-680Level of measurement from wikiMeasurement Theory深入阅读