数据描述方法－金锄头文库

资源描述

《数据描述方法》由会员分享，可在线阅读，更多相关《数据描述方法（86页珍藏版）》请在金锄头文库上搜索。

1、综合评价,讲授老师: 赵博娟 (博士、教授) e-mail: bojuan_,成绩：满分100 - 期末考试 70% - 作业、出勤,课本: 统计学从数据到结论,吴喜之编著中国统计出版社,参考书目：,Business Statistics: A Decision-making Approach (D. F. Groebner & P. W. Shannon) 商务与经济统计精要（原书第2版）戴维R安德森等著，机械工业出版社，2005。统计分析与SPSS的应用，薛薇编著，中国人民大学出版社，2001。多元统计分析何晓群编著，中国人民大学出版社，2004。,课程大纲 1 统计学基本概念、数

2、据收集和数据描述 2 线性回归分析和广义线性模型SPSS上机 3 聚类分析 + SPSS上机 4 判别分析 + SPSS上机 5 主成份+ 因子分析、 6 对应分析+SPSS上机,统计学的定义,统计学(statistics)是“收集、分析、展示和解释数据的科学”,什么地方统计用得上呢？,任何领域.,运用统计的领域包括(1),精算农业动物学人类学考古学审计学晶体学人口统计学牙医学生态学经济计量学教育学选举预测和策划工程流行病学,金融水产渔业研究遗传学地理学地质学历史研究人类遗传学水文学工业法律语言学文学劳动力计划管理科学市场营销学医学诊断

3、,气象学军事科学核材料安全管理眼科学制药学物理学政治学心理学心理物理学质量控制宗教研究社会学调查抽样分类学气象改善搏采，等等.,统计可应用于各个不同学科，在有些学科已经有其特有的方法和特点；如生物统计(biostatistics), 计量经济学(econometrics)以及目前很热门的生物信息(bioinformation)和数据挖掘(Data Mining)的方法主体都是统计。以归纳为主要思维方式的统计不是以演绎为主的数学,第二章：数据的收集,二手数据（Secondary data ） - 从报纸、书刊、电视看到的数据。 -从网站上找到的数据 - 由公司或组

4、织专门收集和维护数据 - 由政府机构收集和维护比如高速公路通车里程、物价指数、股票行情、外汇牌价、犯罪率、房价、流行病的有关数据（确诊病例、疑似病例、死亡人数和出院人数等等）,原始数据（一手数据,Primary data - 要去收集 - 用科学的方法书:抽样调查(sampling techniques) -例子：预测美国总统大选结果某个决策的民意调查中国人口普查,原始数据收集方法,试验数据（experimental data）观测数据（observational data） -电话调查（Telephone survey） - 邮寄问卷（ Mail questionnaires) -

5、直接观测和面对面访问（Direct observation and personal interview）,实验数据例：冶炼金属 - 该金属的强度高为目标 - 金属强度与温度和时间长短有关 - 寻找最佳温度和时间,如何分析数据？方差分析,2. 电话调查要点(邮件问卷情况相同) 定义关心的调查问题定义所关心的总体专家开发调查问题小规模试用 pre-test 决定样本量和抽样方法 sample size 抽取样本并进行调查,电话调查 -要解释调查目的 purpose of the survey - 要调查的人是否能通过电话找到 - 时间要短 - 固定结果问题 Closed-end ques

6、tions - 告诉被访者结果保密 - 花费相对不太高、有效率,3. 邮件问卷花费低问卷可含固定结果和不固定结果问题（both closed-end and open -end questions）使参加者有更多时间完成问卷提供更准确可靠的数据,固定结果的问题 Closed-end questions 如： “请问你所属的党派 - 是共和党、民主党还是其他党派? 不固定结果问题 Open-end questions 如： “你所属的党派?,4. 直接观测和面对面采访直接观测：是否系安全带、新影电影是否成功面对面访采访 personal interview 固定问题Structu

7、red interview (scripted) 不固定问题unstructured interview,数据收集注意事项 1. 查找一下是否有二手数据存在 2. 在利用二手数据之前，要核实数据来源，确认收集和录入的数据符合你的研究目的 3. 要注意一下偏差(bias) . 如：不回答是否随机，否则数据会有系统偏差, 抽样偏差, 有些人可能会在回答某些敏感问题时撒谎,如何用一部分数据较好地代表所有数据与抽样有关的概念：总体、样本、个体和样本量普查和抽样框参数和统计量,确定观测对象和范围（总体）: 按户口所在地,还是居住地,还是出生地? 抽出多少人? 如何抽? 随机? 两省各自随机抽取

8、5000人男女各半（样本). 利用这10000个数据回答所关心的问题（T-test, T检验）,例: 广东省和山东省成年人身高比较 - 前者不如后者高？,此例中，单个山东和广东人或个人的身高数据称为个体(individual) 而称所有所有山东和广东人或他们的身高数据为总体(population)，总体是包含所有要研究的个体的集合。抽样抽到的人或身高数据称为该总体的样本(sample)，样本是总体的一部分。样本中个体的个数-样本量(sample size),总体、样本、个体和样本量,当然，也有可能试图调查所有的人(比如人口普查), 叫做普查(census).抽样框(Frame)所关心的所有对

9、象或个- 是总体的一部分,普查和抽样框,参数和统计量参数（parameter）- 从整个总体达到的平均值或百分比等描述性数据. 而从样本中得到的相应的数据称为统计量Statistics.,一些常用的抽样方法,1 简单随机样本,如果总体中的每一个体都有同等机会被选到样本中，这种抽样称为简单随机抽样(simple random sampling)，而这样得到的样本则称为简单随机样本（random sample) . 如：通常的抽奖、抓阄问卷调查中，没有随机找人回答问卷而是找一些你认识的人填写问卷- 这种样本也不是随机样本，而是方便样本（convenience sample）。,2.系统抽样(sy

10、stematic sampling): 先把总体中的单元编号，然后随机选取其中之一作为抽样的开始点, 然后从开始点按照编号进行等距抽样例：从60人的一班人中，随机抽出5人，如开始点为10号, “距离”为12，则调查对象为：10号、22号、34号、46号、58号- 如果原始名单号是随机的，得到的抽样对象是随机的。,3. 整群抽样(cluster sampling): 先把总体划分成若干群（cluster），再（通常是随机地）从这些群中抽取几群；然后再在这些群中随机地抽取个体。例：在某县进行调查，首先在所有村中选取若干村子，然后只对这些村子的人进行调查。显然，如果各村情况差异不大，这种抽样还是方便

11、的。,4分层抽样（stratified sampling）。这是先把要研究的总体按照某些性质分类(stratum)，再在各类中分别随机抽取样本。例1：经理意见调查-目标是从大、小企业得到各200有效问卷例2：按照教育程度把要访问的人群分成几类；每一类中调查和该类成比例数目的人。以确保每一类都有按比例的代表。,5. 多级抽样（multistage sampling）。在群体很大时，往往在抽取若干群之后，再在其中抽取若干子群，甚至再在子群中抽取子群，等等。最后只对最后选定的最下面一级进行调查。例：在全国调查时，先抽取省，再抽取市地，再抽取县区，再抽取乡、村直到户。,抽样方法的选择不能一概而论,实际

12、上每个抽样通常都可能是各种抽样方法的组合。如：在多级抽样中的每一级也可采取各种抽样方法。此时，整个抽样计划可能比较复杂，也称为多级混和型抽样制定抽样方案时既要考虑精确度，还要根据客观情况考虑方便性、可行性和经济性。不能一概而论。,数据类型: - 定量数据 Quantitative - 定性数据 Qualitative - 时间序列 Time series - 截面数据 Cross-sectional,当变量所取的值是数量时称为定量变量（quantitative variable）如：收入(元)、重量(kg)、身高(cm)、某企业广告投入(元)、某企业销售额(元)取非数量值的变量就称为定

13、性变量或分类变(qualitative or categorical or nominal variable）如：学历（中学、高中、本科、研究生）观点（赞成、反对）性别（男、女）国家（中国、美国、英国、加拿大）收入（低、中、高三个水平）- 定性变量也可数量来描述，比如男性和女性的数目，用这些数量来建立模型,定量和定性变量,时间序列数据和截面数据时间序列数据(Time series data) : 某人自工作以来每年的收入中国1998-2008的每年的人均GDP 某厂2008年度每周出现的废品率你所在城市自1970年来每年的人口数截面数据 (Cross-sectional

14、 Data): 2008年某大学本科学生成绩,数据度量级别(measurement Levels) 1. 定性、名义数据(Nominal data) 2. 有序数据(Ordinal data) 3. 区间数据(Interval data) 4. 比率数据(Ratio data),定性或名义数据(Nominal data） - 最低级形式的数据 - 可以对类别编号 - 我们对所用的编号有决定权婚姻状态 Marital status: 1. Married 2. Single 3. Divorced 4.Other 或 M. Married S. Single D. Divorced O.Oth

15、er 性别： 1 男 2 女,2. 有序数据 Ordinal (rank) data: - 比名义数据高一级别 - 数据的类别是有序的满意度 level of satisfaction: 1. exceptional 2. very good 3. good 4. satisfactory 5. unsatisfactory,3. 区间数据 Interval data: - 任两点的距离是可以精确度量出来的 - 数据有循序性质 (, or =). 如：温度 (华氏和摄氏Fahrenheit and Celsius),4. 比例数据 Ratio data: - 有区间数据的特点+有真正的有意义的零点 - 是最高的度量级别 - 如：体重, 高度, 距离, 钱包里的钱数 0 温度 $0 口袋没钱,计算机中常用的数据形式 - 数据是由一些变量和它们的观测值所组成。 - 例子有6 个变量：观点(观测值为支持、反对和不知道三种)、教育程度（有高中低三种取值，用H、M、L 表示）、月收入（取值为实际数字）、性别（取值有男女两个，用M 和F 表示）以及地区号（用数字1，2，3，4 表示）等。 - 该表一共有1364 个观测值（问卷回答）。 - 每一列为一个变量的不同观测值； - 而每一行则称为一个观测值，它是个由数量值和属性值组成的向量,

展开阅读全文