统计学是一门科学、技术、逻辑,更是一门艺术

上传人:ldj****22 文档编号:45680507 上传时间:2018-06-18 格式:PDF 页数:92 大小:624.97KB
返回 下载 相关 举报
统计学是一门科学、技术、逻辑,更是一门艺术_第1页
第1页 / 共92页
统计学是一门科学、技术、逻辑,更是一门艺术_第2页
第2页 / 共92页
统计学是一门科学、技术、逻辑,更是一门艺术_第3页
第3页 / 共92页
统计学是一门科学、技术、逻辑,更是一门艺术_第4页
第4页 / 共92页
统计学是一门科学、技术、逻辑,更是一门艺术_第5页
第5页 / 共92页
点击查看更多>>
资源描述

《统计学是一门科学、技术、逻辑,更是一门艺术》由会员分享,可在线阅读,更多相关《统计学是一门科学、技术、逻辑,更是一门艺术(92页珍藏版)》请在金锄头文库上搜索。

1、统计学是一门科学、技术、逻辑, 更是一门艺术统计学是一门科学、技术、逻辑, 更是一门艺术统计学没有任何固定的对象,是一门独特 的学问。依赖于解决其他领域内的问题而存在 并兴旺发达的。 L.J.Savage 说: 统计学基本是寄生的:靠研究其他领域 内的工作而生存。这不是对统计学表示轻视, 这是因为对大多数寄主来说,如果没有寄生虫 就会死。对有的动物来说,不能消化它们的食 物。因而,人类奋斗的很多领域,如果没有统 计学,虽然不会死,但一定会变得很弱。统计学1.区分科学真理和科学虚伪。2.在可利用的资源上,收集和处理所得的信 息,从而能做出最佳的决策。原因原因天数原因天数天数原因天数 未婚男性35

2、00饮酒130 惯用左手3285枪炮事故11 未婚女性1600自然放射线8 30超重1300医疗放射线6 20超重900咖啡6吸烟(男)2250家有烟雾报警10 吸烟(女)800有空调汽车5 抽雪茄330活化冠状动脉125 抽烟丝(烟斗)220长期压抑4-8年 危险工作事故300好友肥胖57% 一般工作事故74每天5杯茶-46%提纲?第一章数据收集?第二章统计描述?第三章统计数据预处理?第四章统计指数?第五章非参数统计?第六章贝叶斯方法?第七章常用算法?第八章分布滞后模型和时间序列模型第一章数据收集第一章数据收集什么是数据?一种描述性的定义是:什么是数据?一种描述性的定义是: 可以由它作出推断

3、的已知事情或事物。可以由它作出推断的已知事情或事物。 数据有不同的表达形式:数据有不同的表达形式:数字,类别,性数字,类别,性 别别等等 数据的数据的完整性完整性是一个最大的问题。够用。是一个最大的问题。够用。 数据的数据的质量质量。数据有偏差或误导可以毁掉。数据有偏差或误导可以毁掉 一个有效的决策过程。一个有效的决策过程。为决策而准备数据前,首先要明确 问题是什么?难点是什么? 在收集数据时我们要考虑: 1什么是我们考虑的相关总体(population)? 2数据从何处而来? 3在分析所收集的数据时要进一步分析一下 我们提问了多少人,他们是如何被挑选出来 的? 4如何从这些回答者中收集信息?

4、 5谁没有回答提问? 6收集的数据类型是什么?数据来源数据来源 二大来源:原始数据(primary data) , 二手数据(secondary data)。配额( 比 例)抽样随机抽样抽样(sampling)普查(census)原始数据配额( 比 例)抽样随机抽样抽样(sampling)普查(census)原始数据二手数据:二手数据:已有的数据(别人调查所得,包括政府 数据),如“年鉴”,别的公司调查结果等。 来源:来源:行业或地区组织内部;国内外有关资料。 二手数据大部分来自官方统计,如 年鉴(Annual Abstract of Statistics) 月度统计报表(The Monthl

5、y Digest of Statistics) 财经统计(Financial Statistics) 经济趋势(Economic Trends) 原始数据:自己经过调查所获得的数据。它的 特点是为指定目的而收集。 原始数据得到的方式如下: 面试、电话访谈、发信调查、一般抽样访查、 跟踪研究普查:普查:仅局限于总体较小时仅局限于总体较小时。样本大小(sample size)的选择:当总体 太大时不能全面调查,这时要用抽样方 法,关键是样本要有代表性代表性,即全面反映 该总体观点,所以抽样前要做好抽样方案做好抽样方案。 确定要调查多少人,调查什么样的人等。 抽样代表性是指每个人都可能被抽到,且 抽

6、到的可能性相同。这样的抽样称为随机随机 抽样抽样(random sampling)。例1. 抽查时,不抽身高.80米,则不能 反映1.80米以上人群的观点,因此这种抽样 是非随机的。如何做到抽样有很好的随机 性?通常用如下手段:首先把总体中要调查 的每个人编上号。然后用计算机,随机数 表,摇奖机等方法得一组随机数。把随机数 对应的人群构成一个样本。提问提问(asking questions) 认定调查总体及决定用问卷方式以得到所需信息 后,下一步是确定问什么,如何问。 问卷设计问卷设计(questionnaire design) 问卷结构特点:问答由一个问题顺势转入下一个 问题;由一个主题转到

7、另一主题。不要有跳跃以 导致回答的无方向性。 建议:从一般问题到特殊问题。 盖洛普(Gallup)组织总结提问的目的有如下5种: 1找出回答者是否觉察到这一结果, 例. 你是否知道合肥和徐州之间要修条高速公路 的计划?知道/不知道2获得关于结果的一般感觉 例. 你是否同意合肥和徐州之间要修条高速公路?请 在下列选择中选择一个: 强烈同意、同意、无所谓、不同意、强烈不同意 3获得该结果指定部分的答案 例.你认为高速公路会对当地环境产生影响吗?有/没 有 对是否影响环境,有时可分得再细一点,如指出是 噪音还是风景。 4获得反映回答者观点的理由 例. 如果反对,那你反对的理由是: (a)已有一条可用

8、的主干道 (b)合肥和徐州之间运量不足(c)高速公路会损坏美丽的乡村风景 (d)道路会破坏历史文物 (e)其他,请指定 这一条是先知道他(她)的观点,然后 给机会以让他(她)说明理由。把条件叙述 “如果反对”看作一种预先设定的过滤。此 外,这一条也可提成“为什么你反对修这条高速 公路“。这种提法称为开放式的。这两种设定互 有优缺点。预先设定的容易回答;开放式的结论 需要回答者有较高的文化修养。5找出持有这些观点的强烈程度 例. 你准备用下列哪一种行动来支持你的观点? (a)给地区人大代表写信 (b)给本单位的全国人大代表写信 (c)给新闻单位写信 (d)在政府召开的公众听证会上发言 (e)在网

9、上发表呼吁文章进行调查 建设高速公路将会毁坏一些历史文物,因此可以提 这样的问题:这些历史文物的重要性有多大?请在 下列小格中打 (应不惜一切代价保存)1 2 3 4 5 6 7 (不重要)一、提问的方式 开放式提问的优缺点:开放式提问的优缺点: 缺点:1. 导致偏爱社区中有文化和教育程度高的人,因他 们能很快地组织和表达他们的思想和理念。 优点:有助于人们回答自己想要表达的观点。 预先设定答案提问的优缺点预先设定答案提问的优缺点: 优点:容易回答 缺点:不能准确和全面反映被调查者的意见。 例如,你的提问是“你同意在某国布置核武器吗”? 预先设 定的答案如下: 同意, 不同意,不知道 某些回答

10、者可能说“是的,但仅仅是某一种核武 器”,或“不,但没有可以代替它们的”,或“是的,只要 它们的发射受到严格控制”。 对这类问题的解决办法是试图扩大预设答案的范围。 如果不行,只能提成开放式的。二、二、提问的措辞提问的措辞(wording questions) 提问的措辞在诱导出有代表性回答中是非常重要的。 一个有偏差的或诱导性提问将偏离给定的回答。在问卷设计 中发现的偏差主要有: 1把两个或两个以上问题表达为一个。例如在调查一个小区 建公用车库还是建自有车库时,如果你的问题设计为“由于 自有车库使用方便和比较清洁,因此你赞成修自有车库”。 使用方便和比较清洁是两个不同的问题,有人愿意修自有车

11、 库是因为使用方便,但不一定清洁。 2问题中含有含糊或不熟悉的单词。例 你通常到哪儿去购物?问题是几次算通常? 感冒后你吃盐酸马啉脒胍片吗? 盐酸马啉脒胍片是医学用的专业词汇。通常百姓只知道 感冒灵。三、用软化难度或方向的词开始的提问三、用软化难度或方向的词开始的提问。 如对一个女孩提如下问题: 我希望你不要在意我提出这个问题,你多大了? 回答者会立即警惕起来。向你发出警告(不回答)。 再举一个例: 像大多数人那样,你是否认为在北大西洋公约组织 里应该有英国的声音?是/不是 这类引导性问题有两种可能反应: (a)导致同意这种论述,以作出和大多数人一样的 回答 (b)单纯为了不同意而不同意。 在

12、两种情况下,回答者都不一定能反应出自已所持的观 点。四、包含条件或假设条款。 例:如果你有6个小孩,你认为你的生活会有多 少改变? 一般情况下,有6个孩子的情况很难发生,因此 回答者无法回答你的问题。 五、包含对回答者一个或多个指令的提问。 例:如果你拿到周薪后,在你预留下所有日常 支出的钱以及小孩上学费用后你还有多少钱可 以消费或存起来? 一般机关事业人员拿月薪或年薪,水电费也是 一个月或两个月收一次费,而孩子上学费用一 般是半年一次。因此被访者无法回答你的问题。数据的类型数据的类型 根据数据的来源,我们可以把数据分成四类: 定性数据定性数据:又称分类(名义)数据(categorical o

13、r nominal data)或分类标志,例如 定量数据:定量数据: (1)有序数据它们之间有大小之分,但没有大多 少的概念。例如可以把人们对某一事件的态度进行量 化,用1,2,来表示对某一事件的态度。 (2)间隔数据间隔数据是有序数据,他们之间的 差是有意义的。例如温度是一个典型的间隔数据例子。 0C不表示没有热量,40C和30C的温差在数量上等于 80C和70C之间的温差,但它们代表的热量是不一样 的。(3)比例数据比例数据测量的最高水平是比例数据。 这类数据有一个起点,记为0。例如距离和时间,0 是有意义的,可以看作距离和时间的起点。两倍的 距离和两倍的时间也是有意义的数据也可以根据定

14、性或定量被分类,前者由定性数据产生,后者由定 量数据产生。 定量数据定量数据可进一步分为离散数据离散数据和连续数据连续数据, 这在统计上是本质的,即离散数据是可以一个一个 地数的,而连续数据往往用一个区间或一条直线上 的数值来表示。第一节第一节统计表与统计图统计表与统计图统计表的概念:统计表的概念:统计表的概念:统计表的概念:对统计调查所获得的对统计调查所获得的对统计调查所获得的对统计调查所获得的 原始资料进行整理,得到的数据,把这些原始资料进行整理,得到的数据,把这些原始资料进行整理,得到的数据,把这些原始资料进行整理,得到的数据,把这些 数据按一定的顺利排列在表格上,就形成数据按一定的顺利

15、排列在表格上,就形成数据按一定的顺利排列在表格上,就形成数据按一定的顺利排列在表格上,就形成 了统计表。了统计表。了统计表。了统计表。一、统计表一、统计表 (一)统计表的定义和结构(一)统计表的定义和结构(一)统计表的定义和结构(一)统计表的定义和结构第二章第二章第二章第二章统计描述统计描述统计描述统计描述我国我国20022002年国内生产总值年国内生产总值统计表的结构:统计表的结构:统计表的结构:统计表的结构:按三次产业分按三次产业分国内生产总值国内生产总值 (亿元)(亿元)比上年增长率 (%)比上年增长率 (%)第一产业第一产业14883 14883 2.92.9第二产业第二产业52982

16、 52982 9.99.9第三产业第三产业34522345227.37.3合计合计1023981023988.08.0纵标题纵标题数字资料数字资料主词主词宾词宾词横标题横标题(3 3 3 3)复合表复合表复合表复合表:主词按两个或两个以主词按两个或两个以主词按两个或两个以主词按两个或两个以 上标志进行分组的统计表,也称复合分组表。上标志进行分组的统计表,也称复合分组表。上标志进行分组的统计表,也称复合分组表。上标志进行分组的统计表,也称复合分组表。(二)统计表的分类(二)统计表的分类(二)统计表的分类(二)统计表的分类1 1 1 1、按主词的结构分类,根据主词是否分组和、按主词的结构分类,根据主词是否分组和、按主词的结构分类,根据主词是否分组和、按主词的结构分类,根据主词是否分组和 分组的程度,分为简单表、分组表和复合表。分组的程度,分为简单表、分组表和复合表。分组的程度,分为简单表、分组表和复合表。分组的程度,分为简单表、分组表和复合表。(1

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号