1 什么是统计

上传人:野鹰 文档编号:1078069 上传时间:2017-05-27 格式:DOC 页数:4 大小:40.50KB
返回 下载 相关 举报
1 什么是统计_第1页
第1页 / 共4页
1 什么是统计_第2页
第2页 / 共4页
1 什么是统计_第3页
第3页 / 共4页
1 什么是统计_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《1 什么是统计》由会员分享,可在线阅读,更多相关《1 什么是统计(4页珍藏版)》请在金锄头文库上搜索。

1、第一章 什么是统计1.1 统计是什么?你想过下面的问题吗?1 当你买了一台电视时,被告知三年内可以免费保修。你想过厂家凭什么这样说吗?说多了,厂家会损失;说少了,会失去竞争,也是损失。到底这个保修期是怎样决定的呢?2 在同一年级中,同样统计学的课程可能由一些不同教师讲授。教师讲课方式当然不一样,考试题目也不一定相同。那么如何比较不同班级的统计学成绩呢?3 大学排名是一个非常敏感的问题。不同的机构得出不同的结果;各自都说自己是客观、公正和有道理的。到底如何理解这些不同的结果呢?4 任何公司都有一个信用问题。如果这些公司试图得到贷款时并没有不还贷的不良记录。如何根据它们的财务和商业资料来判断一个公

2、司的信用等级呢?5 我国东部和西部的概念是一个比较笼统的概念。如何能够根据某些标准或需要,选择一些指标来把各省,或各市县甚至村进行分类呢?6 疾病传播时,如何能够通过被感染者入院前后的各种经历得到一个疾病传染方式的模型呢?7 如何通过问卷调查来得到性别、年龄、职业、收入等各种因素与公众对某项事物(比如商品或政策)的态度的关系呢?8 一个从来没有研究过红楼梦的统计学家如何根据比较写作习惯得出红楼梦从哪一段开始就不是曹雪芹的手笔了呢?9 如何才能够客观地得到某个电视节目的收视率,以确定插播的广告价格是否合理呢?其实,这些都是统计应用的例子。这样的例子太多了。因为统计学可以应用于几乎所有的领域,包括

3、精算,农业,动物学,人类学,考古学,审计学,晶体学,人口统计学,牙医学,生态学,经济计量学,教育学,选举预测和策划,工程,流行病学,金融,水产渔业研究,遗传学,地理学,地质学,历史研究,人类遗传学,水文学,工业,法律,语言学,文学,劳动力计划,管理科学,市场营销学,医学诊断,气象学,军事科学,核材料安全管理,眼科学,制药学,物理学,政治学,心理学,心理物理学,质量控制,宗教研究,社会学,调查抽样,分类学,和气象改善,博彩等。当然,大家用不着也不可能理解所有的统计应用。只要能够解决自己身边的统计问题就足够了。上面的例子并没有明确说出什么是统计。其实很简单。上面的所有例子都要通过各种直接或间接的手

4、段来收集数据;都要利用一些方法来整理和分析数据;最后通过分析得到结论。一句话,统计学(statistics)是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。比如要得到某电视节目的收视率,就要收集和所有观看电视的人中间有多少人观看该节目有关的数据,然后要对数据进行分析,并根据分析结果得到令人信服的结论。1.2 现实中的随机性和规律性,概率和机会从中学起,我们就知道自然科学的许多定律,例如物理中的牛顿三定律,物质不灭定律以及化学中的各种定律等等。但是在许多领域,很难用如此确定的公式或论述来描述一些现象。比如,人的寿命是很难预先确定的。一个吸烟、喝酒、不锻炼、而且一口长荤的人可能比一

5、个很少得病、生活习惯良好的人活得长。因此,可以说,活得长短是有一定随机性的(randomness)。这种随机性可能和人的经历、基因、习惯等无数不易说清的因素都有关系。但是从总体来说,我国公民的平均年龄却是非常稳定的。而且女性的平均年龄也稳定地比男性高几年。这就是规律性。一个人可能活过这个平均年龄,也可能活不到这个年龄,这是随机的。但是总体来说,平均年龄的稳定性,却说明了随机之中有规律性。这种规律就是统计规律。你可能经常听到概率(probability)这个名词。例如在天气预报中会提到降水概率。大家都明白,如果降水概率是百分之九十,那就很可能下雨;但如果是百分之十,就不大可能下雨。因此,从某种意

6、义说来,概率描述了某件事情发生的机会。显然,这种概率不可能超过百分之百,也不可能少于百分之零。换言之,概率是在 0 和 1 之间(也可能是 0 或 1)的一个数,说明某事件发生的机会有多大。有些概率是无法精确推断的。比如你对别人说你下一个周末去公园的概率是百分之八十。但你无法精确说出为什么是百分之八十而不是百分之八十四或百分之七十八。其实你想说的是你很可能去,但又没有完全肯定。实际上,到了周末,你或者去,或者不去;不可能有分身术把百分之八十的你放到公园,而其余的放在别处。有些概率是可以知道的。比如掷骰子。只要没有人在骰子上做手脚,你得到 6 点的概率应该是六分之一。得到其他点的概率也是一样。得

7、到 6的概率或者机会是可以知道的,但掷骰子的结果还只可能是六个数目之一。这个已知的规律就反映了规律性,而得到哪个结果则反映了随机性。如果你掷 1000 次骰子,那么,大约有六分之一的可能会得到 6;这也是随机性呈现有规律的一个体现。1.3 变量和数据做任何事情都要有对象。比如一个班上注册的学生有 200 人,这是一个固定的数目,称为常数(constant)或者常量。但是,如果猜测今天这个班有多少人会来上课,那就没准了。这有随机性。可能有请病假或事假的,也可能有逃课的。这样,就要来上课的人数是个变量(variable)。另外对于某项政策同意与否的回答,也有“同意”、“不同意”或者“不知道”三种可

8、能值;这也是变量,只不过不是数量而已。当变量按照随机规律所取的值是数量时该变量称为定量变量或数量变量(quantitative variable);因为是随机的,也称为随机变量(random variable)。象性别,观点之类的取非数量值的变量就称为定性变量或属性变量或分类变量(qualitative variable,categorical variable)。这些定性变量也可以由随机变量来描述,比如男性和女性的数目,同意某政策人数的比例等等。只有当变量用数量来描述时,才有可能建立数学模型,才可能使用计算机来分析。有了变量的概念,什么是数据呢?拿掷骰子来说,掷骰子会得到什么值,是个随机变量

9、;而每次取得 1 至 6 点中任意某点数的概率在理论上都是六分之一(如果骰子公平)。这依赖于在掷骰子背后的理论或假定;而在实际掷骰子过程中,如果掷 100 次,会得到 100 个由 1 至 6 点组成的数字串;再掷 100 次,又得到一个数字串,和前一次的结果多半不一样。这些试验结果就是数据。所以说数据是关于变量的观测值。通过数据可以验证有关的理论或假定(比如每一次得到每个点的概率是不是 1/6 等等)。对于顾客是否喜欢某种饮品的调查也类似,但这里不象掷骰子那样事先可以大致猜测顾客喜欢与否的概率。在随机问了 1000 人之后,可能有 364 人说喜欢,而 480 人说不喜欢,其余的人可能不回答

10、,或说不知道,或从来没有喝过这种饮料。这些数目就是数据。当然,它仅仅反映了1000 个被问到的人的观点;但这对于估计整个消费群体的观点还是有用的。后面还要介绍得到数据的一些途径和方法。1.4 统计和计算机和统计软件现代生活越来越离不开计算机了。最早使用计算机的统计当然更离不开计算机了。事实上,最初的计算机仅仅是为科学计算而设计和建造的。大型计算机的最早一批用户就包含统计。而现在统计仍然是进行数字计算最多的用户。当然计算机现在早已脱离了仅有数字计算功能的单一模式,而成为百姓生活的一部分。计算机的使用,也从过去必须学会计算机语言到只需要“傻瓜式”地点击鼠标。结果也从单纯的数字输出到包括漂亮的表格和

11、图形在内的各种形式。统计软件的发展,也使得统计从统计学家的圈内游戏变成了大众的游戏。只要输入你的数据,点几下鼠标,做一些选项,马上就得到令人惊叹的漂亮结果了。你可能会问,是否傻瓜式统计软件的使用可以代替统计课程了?当然不是。数据的整理和识别,方法的选用,计算机输出结果的理解都不象使用傻瓜相机那样简单可靠。有些诸如法律和医学方面的软件都有不少警告,不时提醒你去咨询专家。但统计软件则不那么负责。只要数据格式无误、方法不矛盾而且不用零作为除数就一定给你结果,而且没有任何警告。另外,统计软件输出的结果太多;即使是同样的方法,不同软件输出的内容还不一样;有时同样的内容名称也不一样。这就使得使用者大伤脑筋

12、。即使是统计学家也不一定能解释所有的输出。因此,就应该特别留神,明白自己是在干什么。不要在得到一堆毫无意义的垃圾之后还沾沾自喜。统计软件的种类很多。有些功能齐全,有些价格便宜;有些容易操作,有些需要更多的实践才能掌握。还有些是专门的软件,只处理某一类统计问题。面对太多的选择往往给决策带来困难。这里介绍最常见的几种。1 SPSS:这是一个很受欢迎的统计软件;它容易操作,输出漂亮,功能齐全,价格合理。基本上已经“傻瓜化” ,也有自己的语言。它对于非专业统计工作者是很好的选择。2 Excel:它严格说来并不是统计软件,但作为数据表格软件,必然有一定统计计算功能。而且凡是有 Microsoft Off

13、ice 的计算机,基本上都装有 Excel。但要注意,有时在装 Office 时没有装数据分析的功能,那就必须装了才行。当然,画图功能是已经具备的了。对于简单分析,Excel 还算方便,但随着问题的深入, Excel 就不那么 “傻瓜” ,需要使用宏命令来编程,而没有相应的简单选项了。多数专门一些的统计推断问题还需要其他专门的统计软件来处理。3 SAS:这是功能非常齐全的软件;尽管价格相当不菲,许多公司,特别是美国制药公司,还是因为其功能众多和某些美国政府机构认可而使用。尽管现在已经尽量“傻瓜化” ,但仍然需要一定的训练才可以进入。对于基本统计课程则不那么方便。4 S-plus:这是统计学家喜

14、爱的软件。不仅由于其功能齐全,而且由于其强大的编程功能,使得研究人员可以编制自己的程序来实现自己的理论和方法。它也在进行“傻瓜化”以争取顾客。但仍然以编程方便为顾客所青睐。5 R 软件:这是一个免费的,由志愿者管理的软件。其编程语言与 S-plus 所基于的 S 语言一样,很方便。还有不断加入的从事各个方向研究的统计学家编写的统计软件包。同时从网上可以不断更新和增加有关的软件包和程序。这是发展最快的软件,受到世界上统计师生的欢迎。是用户量增加最快的统计软件。它的语言结构和C+、Fortran、Matlab、Pascal、Basic 等很相似,容易举一反三。对于一般非统计工作者来说,主要问题是它

15、没有“傻瓜化” 。6 Minitab: 这个软件是很方便的功能强大而又齐全的软件,也已经“傻瓜化” ,在我国用的不如 SPSS 与 SAS 那么普遍。7 Statistica:也是功能强大而齐全的“傻瓜化”的软件,在我国用的也不如 SAS 与 SPSS 那么普遍。8 Eviews:这是一个主要处理回归和时间序列的软件。9 GAUSS:这是一个很好用的统计软件,许多搞经济的喜欢它。主要也是编程功能强大。目前在我国使用的人不多。10 FORTRAN:这是应用于各个领域的历史很长的非常优秀的编程软件,功能强大,也有许多数学软件包和一些统计软件包。由于可以编译成机器语言,计算速度比这里介绍的其他软件都

16、快得多。但需要编程和编译。操作不那么容易。11 MATLAB:这也是应用于各个领域的以编程为主的软件,在工程上应用广泛。编程类似于 S 和 R。但是统计函数不多。当然,还有其他的软件,没有必要一一罗列。其实,聪明的读者只要学会使用一种“傻瓜式”软件,使用其他的软件也不会困难;最多看看帮助和说明即可。如果只有英文帮助,那还可以顺便提高你的英文阅读能力。学习软件的最好方式是在使用中学。1.5 小结这一章主要描述了统计领域的轮廓,还说明了随机性所可能包含的规律性。概率是对不确定性的度量。统计研究的对象是变量。有了变量,特别是随机变量,才能够有目的地收集与该变量有关的数据,对数据进行分析,并且得到人们感兴趣的结论。为了进行分析,使用计算机是很难避免的。现代应用统计是离不开计算机的。对于非统计工作者来说,能够使用顺手的统计软件来处理数据是非常重要的。有许多统计软件可供选择。同时还要清醒地认识到,如果选择了错误的方法,就不可能从计算机得到有用的结论。计算机可以是人们的助手,但不能代替我们去思维。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 研究报告 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号