《统计学,数据到结论1》由会员分享,可在线阅读,更多相关《统计学,数据到结论1(37页珍藏版)》请在金锄头文库上搜索。
1、统计学,从数据到结论,第一章 一些基本概念,1.1 统计是什么?,统计是人类思维的一个归纳过程 站在一个路口,看到每过去20辆小轿车时,也有100辆自行车通过 而且平均每10个轿车载有12个人 于是,你认为小汽车和自行车在这个路口的运载能力为24:100 这是一个典型的统计思维过程,1.1 统计是什么?,一般来说,统计先从现实世界收集数据(信息),如观测路口的交通 然后,根据数据作出判断,称为模型 模型是从数据产生的 模型也需要根据新的信息来改进 不存在完美的模型 模型的最终结局都是被更能够说明现实世界的新模型所取代,统计学可以应用于几乎所有的领域:,精算,农业,动物学,人类学,考古学,审计学
2、,晶体学,人口统计学,牙医学,生态学,经济计量学,教育学,选举预测和策划,工程,流行病学,金融,水产渔业研究,遗传学,地理学,地质学,历史研究,人类遗传学,水文学,工业,法律,语言学,文学,劳动力计划,管理科学,市场营销学,医学诊断,气象学,军事科学,核材料安全管理,眼科学,制药学,物理学,政治学,心理学,心理物理学,质量控制,宗教研究,社会学,调查抽样,分类学,气象改善,博彩等。,1.1 统计是什么?,一句话, 统计学(statistics)是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。,以归纳为主要思维方式的统计不是以演绎为主的数学 统计可应用于各个不同学科,在有些学科已
3、经有其特有的方法和特点;如生物统计(biostatistics)、经济计量学(econometrics)以及目前很热门的生物信息(bioinformation)和数据挖掘(Data Mining)的方法主体都是统计。,1.2 现实中的随机性和规律性,概率和机会,从中学起,我们就知道物理学的许多定律,例如v=v0+at; F=ma等等 但是在许多领域,很难用如此确定的公式或论述来描述一些现象。,1.2 现实中的随机性和规律性,概率和机会,一些现象既有规律性又有随机性(randomness) 肺癌患者中(主动或被动)吸烟的比例较大,这体现了规律性 而绝非每个吸烟的人都会患肺癌,这体现了随机性,1.
4、2 现实中的随机性和规律性,概率和机会,再如,一般来说,白种人身材比黄种人要高些,这就是规律性 但对于具体的一个白人和一个黄种人,就很难说谁高谁矮了,这体现随机性,1.2 现实中的随机性和规律性,概率和机会,什么是概率(probability)? 新闻中最常见的是“降水概率” 从某种意义说来,概率描述了某件事情发生的机会。 显然,这种概率不可能超过百分之百,也不可能少于百分之零。 概率是在0和1之间(也可能是0或1)的一个数,描述某事件发生的机会。,1.2 现实中的随机性和规律性,概率和机会,有些概率是无法精确推断的。 比如你明天感冒的概率 有些概率是可以知道的。 比如在打桥牌时得到一手黑桃的
5、概率为1/635013559600,大约为1.57477010-12(条件是洗牌均匀,没有作弊)。实际上得任何特定的一手牌的概率都是一样的,对吗?,1.3 变量和数据,一节火车车厢有多少坐位是一个固定的数目,称为常数(constant)或者常量。 但是,开车后,坐在这节车厢的旅客有多少就没准了。这有随机性。该车厢的乘客数为变量(variable)。,1.3 变量和数据,一个学校的注册在校男女生比例是固定的,为常量 但是,该校任意一群学生的男女生比例就不一定和全校的比例一样了,它为变量(variable)。,1.3 变量和数据,当变量按照随机规律所取的值是数量时该变量称为定量变量或数量变量(qu
6、antitative variable); 因为是随机的,也称为随机变量(random variable)。 如身高体重,购买某商品的人数等等,1.3 变量和数据,象性别,观点之类的取非数量值的变量就称为定性变量或属性变量或分类变量(qualitative variable,或categorical variable)。 这些定性变量也可以由定量变量来描述,如男女生的数目,持有某观点的人数比例等等。,1.3 变量和数据,定性变量只有用数量来描述时,才有可能建立数学模型,并使用计算机来分析。 数据中它们通常用哑元(dummy variable)代表,比如性别用0、1代表,三种收入用0、1、2代表
7、(或用字母代表),1.3 变量和数据,有了变量,何谓数据? 不同机构调查所得到的北京收入万元以上市民的比例都不一样,这是变量 而这些调查产生一些数目,这些数目就是数据(data) 数据是关于变量的观测值。,1.3 变量和数据,通过数据可验证有关的理论或假定。 比如通过抽样调查验证美国选民对共和党候选人的支持率是否超过50% 通过抽样,可以检验某批产品是否合格等等,1.4 变量之间的关系,现实世界紧密联系的 人们想知道投资方式和经济效益之间的关系、旅客人数和经济发展之间的关系等等 不讨论变量之间的关系,就无从谈起任何有深度的应用,统计的基本概念就仅仅是摆设而已。,1.4.1 定量变量间的关系,例
8、1.1广告投入和销售之间的关系。下表(数据ads.txt)显示了某企业的广告投入和销售额之间的关系(万元)。,横坐标代表广告投入,而纵坐标代表销售收入。 看得出有何种关系吗?,1.4.1 定量变量间的关系,能否从该数据回答下面问题: 这两个变量是否有关系? 如果有,它们的关系是否显著? 这些关系是什么关系,能否用数学模型来描述? 这个关系是否带有普遍性? 这个关系是不是因果关系?,1.4.1 定量变量间的关系,关于因果关系 在可控制的试验中,较容易找到因果关系;比如治疗方式和疗效的关系等 但是,一般来说,变量之间有关系这个事实并不意味着一定存在明确的因果关系。,1.4.1 定量变量间的关系,比
9、如,北京GDP在一年中是快速增长的,而一个刚出生的巴拿马婴儿在这一年中的体重也是快速增长的 如果画出图来,它们有类似线性的关系 但它们显然没有因果关系,1.4.1 定量变量间的关系,只要有关系,即使不是因果关系也不妨碍人们利用这种关系来进行推断。 比如利用公鸡打鸣来预报太阳升起;虽然公鸡打鸣绝对不是日出的原因(虽然打鸣发生在先),1.4.1 定量变量间的关系,简单的办法(诸如画图)可以得到一些信息,但不一定能够给出满意的答案 需要更多的工具和手段来进行数值分析得到更加严格和精确的解答 因此,需要继续我们的课程,1.4.2 定性变量间的关系,例1.2下面是对123人进行关于某项政策调查所得结果的
10、一个简单的三维表,它显示了人们的收入和性别对该项政策的观点。(table7.txt)。,计算机软件所应用的数据形式,1.4.2 定性变量间的关系,从这个数据,希望可以看出收入、性别对观点是否有影响及如何影响 如果要得到更加精确的结论,就要进行进一步的分析和计算 这是后面列联表分析或多项分布对数线性模型的内容,1.4.3 定性和定量变量间的混和关系,有些数据不是仅有定性变量或仅有定量变量 需要知道包括定性和定量两种变量的一些变量之间的关系 下面数据就包含两种变量,Asthma.txt数据,1.4.3 定性和定量变量间的混和关系,该数据有2个定性变量(性别,污染程度)、一个定量变量(年龄)以及发生
11、哮喘的人数 我们希望知道哮喘和这三个变量之间的关系 这将在Poisson对数线性模型中讨论,1.5 统计、计算机与统计软件,现代生活越来越离不开计算机了 最初的计算机仅仅是为科学计算而设计和建造的。 统计是大型计算机的最早用户,现在仍然是数值计算的主要用户,1.5 统计、计算机与统计软件,计算机的使用,从计算机语言到 “傻瓜式”地点击鼠标 输出结果也从数字输出到各种可以想象得到的形式。 输入数据,点鼠标做一些选项,就可得到漂亮结果 但其中充满了危险的陷阱,1.5 统计、计算机与统计软件,计算机无法识别你的统计方面的错误 错误的方法、错误的数据形式都必然输出错误的结果(虽然看上去可能很漂亮),得到大量垃圾 另外,统计软件输出的结果太多、很难都理解,1.5 统计、计算机与统计软件,统计软件的种类很多。书中仅介绍最常见的几种。 只要学会使用一种“傻瓜式”软件或编程软件,使用其他类似的软件也不会困难;最多看看帮助和说明即可。 学习软件的最好方式是需要时在使用中学。,