《数据描述方法》PPT课件.ppt

资源描述

《《数据描述方法》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《数据描述方法》PPT课件.ppt（86页珍藏版）》请在金锄头文库上搜索。

1、综合评价综合评价讲授老师讲授老师: 赵博娟赵博娟 (博士、教授博士、教授)e-mail: bojuan_成绩：满分成绩：满分100 - 期末考试期末考试 70% - 作业作业、出勤出勤课本:统计学从数据到结论吴喜之编著中国统计出版社参考书目：BusinessStatistics:ADecision-makingApproach(D.F.Groebner&P.W.Shannon)商务与经济统计精要（原书第2版）戴维R安德森等著，机械工业出版社，2005。统计分析与SPSS的应用，薛薇编著，中国人民大学出版社，2001。多元统计分析何晓群编著，中国人民大学出版社，2004。课程大纲课程大纲1 统计

2、学基本概念、统计学基本概念、数据收集和数据描述数据收集和数据描述2 2 线性回归分析线性回归分析和广义线性模型和广义线性模型SPSSSPSS上机上机3 3 聚类分析聚类分析 + SPSS+ SPSS上机上机4 判别分析判别分析 + SPSS+ SPSS上机上机5 主成份主成份+ 因子分析、因子分析、6 对应分析对应分析+SPSS+SPSS上机上机统计学的定义统计学的定义统计学(statistics)是“收集、分析、展示和解释数据的科学”什么地方统计用得上呢？什么地方统计用得上呢？任何领域任何领域. .运用统计的领域包括运用统计的领域包括(1)精算精算农业农业动物学动物学人类学人类学考古学考古学

3、审计学审计学晶体学晶体学人口统计学人口统计学牙医学牙医学生态学生态学经济计量学经济计量学教育学教育学选举预测和策划选举预测和策划工程工程流行病学流行病学金融金融水产渔业研究水产渔业研究遗传学遗传学地理学地理学地质学地质学历史研究历史研究人类遗传学人类遗传学水文学水文学工业工业法律法律语言学语言学文学文学劳动力计划劳动力计划管理科学管理科学市场营销学市场营销学医学诊断医学诊断气象学气象学军事科学军事科学核材料安全管理核材料安全管理眼科学眼科学制药学制药学物理学物理学政治学政治学心理学心理学心理物理学心理物理学质量控制质量控制宗教研究宗教研究社会学社会学调查抽样调查抽样分类学分类学气象改善气象改

4、善搏采，等等搏采，等等.统计可应用于各个不同学科，在有些学科已经有其特有的方法和特点；如生物统计(biostatistics),计量经济学(econometrics)以及目前很热门的生物信息(bioinformation)和数据挖掘(DataMining)的方法主体都是统计。以归纳为主要思维方式的统计不是以演绎为主的数学第二章：第二章：数据的收集数据的收集二手数据二手数据（Secondary data ）-从报纸、书刊、电视看到的数据。报纸、书刊、电视看到的数据。- -从网站上找到的数据从网站上找到的数据- 由公司或组织专门收集和维护数据由公司或组织专门收集和维护数据- 由政府机构收集和维

5、护由政府机构收集和维护比如高速公路通车里程、物价指数、股比如高速公路通车里程、物价指数、股票行情、外汇牌价、犯罪率、房价、流票行情、外汇牌价、犯罪率、房价、流行病的有关数据（确诊病例、疑似病例、行病的有关数据（确诊病例、疑似病例、死亡人数和出院人数等等）死亡人数和出院人数等等）原始数据原始数据（一手数据,Primary data- 要去收集要去收集- 用科学的方法用科学的方法书书:抽样调查抽样调查(sampling techniques)-例子：预测美国总统大选结果例子：预测美国总统大选结果某个决策的民意调查某个决策的民意调查中国人口普查中国人口普查原始数据收集方法原始数据收集方法试

6、验数据（experimentaldata）观测数据（observationaldata）-电话调查（Telephonesurvey）-邮寄问卷（Mailquestionnaires)-直接观测和面对面访问（Directobservationandpersonalinterview）实验数据实验数据例：冶炼金属例：冶炼金属-该金属的强度高为目标-金属强度与温度和时间长短有关-寻找最佳温度和时间温度B1(低)温度B2(高)时间A1(短)38.038.647.044.8时间A2(长)45.043.842.440.8如何分析数据？方差分析2. 电话调查要点电话调查要点(邮件问卷情况相同邮件问卷情况相同

7、)定义关心的调查问题定义所关心的总体专家开发调查问题小规模试用pre-test决定样本量和抽样方法samplesize抽取样本并进行调查电话调查电话调查-要解释调查目的purposeofthesurvey-要调查的人是否能通过电话找到-时间要短-固定结果问题Closed-endquestions-告诉被访者结果保密-花费相对不太高、有效率3. 邮件问卷邮件问卷花费低问卷可含固定结果和不固定结果问题（bothclosed-endandopen-endquestions）使参加者有更多时间完成问卷提供更准确可靠的数据固定结果的问题固定结果的问题 Closed-end questions如：“请问你

8、所属的党派-是共和党、民主党还是其他党派?不固定结果问题不固定结果问题 Open-end questions如：“你所属的党派?4. 直接观测和面对面采访直接观测和面对面采访直接观测：直接观测：是否系安全带、新影电影是否成功面对面访采访面对面访采访 personal interview固定问题Structuredinterview(scripted)不固定问题unstructuredinterview 数据收集注意事项数据收集注意事项 1.查找一下是否有二手数据存在2.在利用二手数据之前，要核实数据来源，确认收集和录入的数据符合你的研究目的3.要注意一下偏差(bias).如：不回答是否随机，

9、否则数据会有系统偏差,抽样偏差,有些人可能会在回答某些敏感问题时撒谎如何用一部分数据较好地如何用一部分数据较好地代表所有数据代表所有数据与抽样有关的概念：与抽样有关的概念：总体、样本、个体和样本量总体、样本、个体和样本量普查和抽样框普查和抽样框参数和统计量参数和统计量确定观测对象和范围（总体）:按户口所在地,还是居住地,还是出生地?抽出多少人?如何抽?随机?两省各自随机抽取5000人男女各半（样本).利用这10000个数据回答所关心的问题（T-test,T检验）例例: 广东省和山东省成年人身高比较广东省和山东省成年人身高比较 - 前者不如后者高？前者不如后者高？此此例例中中，单单个个山山东东

10、和和广广东东人人或或个个人人的的身高数据称为身高数据称为个体个体(individual)而而称称所所有有所所有有山山东东和和广广东东人人或或他他们们的的身身高高数数据据为为总总体体(population)，总总体体是包含所有要研究的个体的集合。是包含所有要研究的个体的集合。抽抽样样抽抽到到的的人人或或身身高高数数据据称称为为该该总总体体的的样样本本(sample)，样样本本是是总总体体的的一一部部分分。样样本本中中个个体体的的个个数数-样样本本量量(sample size)总体、样本、个体和样本量总体、样本、个体和样本量当当然然，也也有有可可能能试试图图调调查查所所有有的的人人(比比如如人

11、人口口普普查查 ), 叫叫做做普普查查(census).抽抽样样框框(Frame)所所关关心心的的所所有有对对象象或个或个- 是总体的一部分是总体的一部分普查和抽样框普查和抽样框参数和统计量参数和统计量参数（参数（parameter）- 从整个总体达到从整个总体达到的平均值或百分比等描述性数据的平均值或百分比等描述性数据. 而从样本中得到的相应的数据称为而从样本中得到的相应的数据称为统计统计量量Statistics.一些常用的抽样方法一些常用的抽样方法 1 1 简单随机样本简单随机样本如果总体中的每一个体都有同等机会被选如果总体中的每一个体都有同等机会被选到样本中，这种抽样称为到

12、样本中，这种抽样称为简单随机抽样简单随机抽样(simple random sampling)，而这样得到的，而这样得到的样本则称为样本则称为简单随机样本简单随机样本（random sample) . 如：通常的抽奖、抓阄如：通常的抽奖、抓阄问卷调查中，没有随机找人回答问卷而是问卷调查中，没有随机找人回答问卷而是找一些你认识的人填写问卷找一些你认识的人填写问卷- - 这种样本也不这种样本也不是随机样本，而是是随机样本，而是方便样本方便样本（convenience sampleconvenience sample）。）。2.系系统统抽抽样样(systematic sampling): 先先把把总总

13、体体中中的的单单元元编编号号，然然后后随随机机选选取取其其中中之之一一作作为为抽抽样样的的开开始始点点, 然然后后从从开开始始点点按按照照编编号号进进行等距抽样行等距抽样例例：从从60人人的的一一班班人人中中，随随机机抽抽出出5人人，如如开开始点为始点为10号号, “距离距离”为为12，则调查对象为：，则调查对象为： 10号、号、22号、号、34号、号、46号、号、58号号 - 如如果果原原始始名名单单号号是是随随机机的的，得得到到的的抽抽样样对象是随机的。对象是随机的。3. 整整群群抽抽样样(cluster sampling): 先先把把总总体体划划分分成成若若干干群群（cluster），再

14、再（通通常常是是随随机机地地）从从这这些些群群中中抽抽取取几几群群；然然后后再再在在这这些些群中随机地抽取个体。群中随机地抽取个体。例例：在在某某县县进进行行调调查查，首首先先在在所所有有村村中中选选取取若若干干村村子子，然然后后只只对对这这些些村村子子的的人人进进行行调调查查。显显然然，如如果果各各村村情情况况差差异异不不大大，这这种种抽样还是方便的。抽样还是方便的。4分分层层抽抽样样（stratified sampling）。这这是是先先把把要要研研究究的的总总体体按按照照某某些些性性质质分分类类(stratum)，再在各类中分别随机抽取样本。，再在各类中分别随机抽取样本。例例1：经理

15、意见调查：经理意见调查- 目标是从大、小企业得到各目标是从大、小企业得到各200有效问卷有效问卷例例2：按按照照教教育育程程度度把把要要访访问问的的人人群群分分成成几几类类；每每一一类类中中调调查查和和该该类类成成比比例例数数目目的的人人。以确保每一类都有按比例的代表。以确保每一类都有按比例的代表。5. 多多级级抽抽样样（multistage sampling）。在在群群体体很很大大时时，往往往往在在抽抽取取若若干干群群之之后后，再再在在其其中中抽抽取取若若干干子子群群，甚甚至至再再在在子子群群中中抽抽取取子子群群，等等等等。最最后后只只对对最最后后选选定定的的最最下下面面一级进行调查。一级

16、进行调查。例例：在在全全国国调调查查时时，先先抽抽取取省省，再再抽抽取取市市地，再抽取县区，再抽取乡、村直到户。地，再抽取县区，再抽取乡、村直到户。抽样方法的选择不能一概而论抽样方法的选择不能一概而论实际上每个抽样通常都可能是各种抽样方实际上每个抽样通常都可能是各种抽样方法的组合。法的组合。如：如：在多级抽样中的每一级也在多级抽样中的每一级也可采取各种抽样方法。此时，整个抽样计可采取各种抽样方法。此时，整个抽样计划可能比较复杂，也称为多级混和型抽样划可能比较复杂，也称为多级混和型抽样制定抽样方案时制定抽样方案时既要考虑精确度，还要根既要考虑精确度，还要根据客观情况考虑方便性、可行性和经济性

17、。据客观情况考虑方便性、可行性和经济性。不能一概而论。不能一概而论。数据类型数据类型: -定量数据Quantitative-定性数据Qualitative-时间序列Timeseries-截面数据Cross-sectional 当变量所取的值是数量时称为定量变量（当变量所取的值是数量时称为定量变量（quantitative quantitative variablevariable）如：如：收入(元)、重量(kg)、身高(cm)、某企业广告投入(元)、某企业销售额(元)取非数量值的变量就称为定性变量或分类变取非数量值的变量就称为定性变量或分类变(qualitative or categoric

18、al or nominal (qualitative or categorical or nominal variablevariable）如：如：学历（中学、高中、本科、研究生）观点（赞成、反对）性别（男、女）国家（中国、美国、英国、加拿大）收入（低、中、高三个水平） - - 定性变量也可数量来描述，比如男性和女性的数目，定性变量也可数量来描述，比如男性和女性的数目，用这些数量来建立模型用这些数量来建立模型定量和定性变量定量和定性变量时间序列数据和截面数据时间序列数据和截面数据时间序列时间序列数据数据(Time series data) :某人自工作以来每年的收入中国1998-2008

19、的每年的人均GDP某厂2008年度每周出现的废品率你所在城市自1970年来每年的人口数截面数据截面数据 (Cross-sectional Data): 2008年某大学本科学生成绩数据度量级别数据度量级别(measurement Levels) 1.定性、名义数据(Nominaldata)2.有序数据(Ordinaldata)3.区间数据(Intervaldata)4.比率数据(Ratiodata)1.定性或名义数据定性或名义数据(Nominal data）-最低级形式的数据-可以对类别编号-我们对所用的编号有决定权婚姻状态Maritalstatus:1.Married2.Single3.Di

20、vorced4.Other或M.MarriedS.SingleD.DivorcedO.Other性别：1男2女2. 有序数据有序数据 Ordinal (rank) data:-比名义数据高一级别-数据的类别是有序的满意度levelofsatisfaction:1.exceptional2.verygood3.good4.satisfactory5.unsatisfactory3. 区间数据区间数据 Interval data:-任两点的距离是可以精确度量出来的-数据有循序性质(,or=).如：温度(华氏和摄氏FahrenheitandCelsius)4. 比例数据比例数据 Ratio data

21、:-有区间数据的特点+有真正的有意义的零点-是最高的度量级别-如：体重,高度,距离,钱包里的钱数0温度$0口袋没钱计算机中常用的数据形式-数据是由一些变量和它们的观测值所组成。-例子有6个变量：观点(观测值为支持、反对和不知道三种)、教育程度（有高中低三种取值，用H、M、L表示）、月收入（取值为实际数字）、性别（取值有男女两个，用M和F表示）以及地区号（用数字1，2，3，4表示）等。-该表一共有1364个观测值（问卷回答）。-每一列为一个变量的不同观测值；-而每一行则称为一个观测值，它是个由数量值和属性值组成的向量统计软件统计软件SPSS：很很受受欢欢迎迎；容容易易操操作作，输输出出漂漂亮亮，

22、功功能能齐齐全全，价价格格合合理理。它它也也有有自自己己的的程程序序语语言言，但但基基本本上上已已经经“傻傻瓜瓜化化”。它它对对于于非非专专业业统统计计工工作作者者是很好的选择。是很好的选择。 Excel：严严格格说说来来并并不不是是统统计计软软件件，但但作作为为数数据据表格软件，必然有一定统计计算画图功能。表格软件，必然有一定统计计算画图功能。SAS：这这是是功功能能非非常常齐齐全全的的软软件件；尽尽管管价价格格相相当当不不菲菲，许许多多公公司司，特特别别是是美美国国制制药药公公司司，还还是是因因为其功能众多和某些美国政府机构认可而使用。为其功能众多和某些美国政府机构认可而使用。S-plus

23、：这：这是是R出现之前出现之前统计学家最喜爱的软件。统计学家最喜爱的软件。R软软件件：这这是是一一个个免免费费的的，由由志志愿愿者者管管理理的的软软件件。其其编程语言。可以看成编程语言。可以看成S-plus免费版本免费版本作业作业1 1举出一些观测数据、试验数据、原始数据举出一些观测数据、试验数据、原始数据( (一手一手数据）和二手数据的例子。数据）和二手数据的例子。2 2举例说明什么是名义数据、有序数据、区间数举例说明什么是名义数据、有序数据、区间数据和比例数据据和比例数据3 3举例说明什么是举例说明什么是定量变量、定性变量、时间序定量变量、定性变量、时间序列数据和截面数据列数据和截面数据4

24、. 举例说明什么是举例说明什么是简单随机样本、简单随机样本、系统抽样、整群系统抽样、整群抽样、分层抽样、抽样、分层抽样、多级抽样多级抽样5.5.在课上，老师忽然想知道某在课上，老师忽然想知道某BMABMA班班6060个学生的工个学生的工作经验情况作经验情况- -平均工龄（年），随机地问了平均工龄（年），随机地问了1515个个学生的工龄。请说明此例中什么是学生的工龄。请说明此例中什么是总体、样本、总体、样本、个体、样本量、参数和统计量个体、样本量、参数和统计量第三章数据的描述Descriptive Statistics 描述统计描述统计-用表格、图形和数值对数据进行用表格、图形和数值对数据进

25、行直观的描述直观的描述广告投入和销售额之间的关系例1.1（数据ads.sav，ads.txt）显示了某企业的广告投入和销售额之间的关系（万元）。散点图定量变量的图表示直方图、盒形图、茎叶图和散点图例3.1 （数据（数据 Rich.sav）该数据摘自福布斯是）该数据摘自福布斯是世界富豪排行榜，展示了世界最富有的一些世界富豪排行榜，展示了世界最富有的一些人的名次（人的名次（Rank，为正整数，越小越富，为正整数，越小越富),所所属区域（属区域（Region，1 至至5分别代表北美、欧分别代表北美、欧洲、亚洲和太平洋、南美、非洲洲、亚洲和太平洋、南美、非洲), 年龄年龄(Age)和净财富和净财富(

26、NetWorth，单位，单位10 亿美圆亿美圆) 点击点击Rich.sav - 直方图直方图: SPSS选选Graphs-legacy dialogs- histogram- 盒形图盒形图: SPSS中中Graphs- legacy dialogs - boxplot- 茎叶图：茎叶图：SPSS 选选Analyze-Descriptive Statistics-Explore，把变量，把变量Age 选入到选入到Dependent List，再把，再把Region 选入选入Factor List，然后，然后OK 即可得到各个区即可得到各个区域富人年龄的茎叶图。域富人年龄的茎叶图。 -散点图散点图

27、: SPSS中中Graphs- legacy dialogs scatter/dots-simple scatter1.0 William Gates III United States NAM 50.050.0United States 2.0Warren Buffett United States NAM 75.042.0United States 3.0Carlos Slim Helu Mexico NAM 66.030.0Mexico4.0Ingvar Kamprad Sweden EU 79.028.0Switzerland 5.0Lakshmi Mittal India AS 55

28、.023.5United Kingdom 6.0Paul Allen United States NAM 53.022.0United States 7.0Bernard Arnault France EU 57.021.5France 8.0Prince Alwaleed Bin Talal Saudi Arabia AS 49.020.0Saudi Arabia 9.0Kenneth Thomson & family Canada NAM 82.019.6Canada 10.0Li Ka-shing Hong Kong AS 77.018.8Hong Kong11.0Roman Abram

29、ovich Russia EU 39.018.2United KingdomRank name citizenship region age networth resident 直方图直方图(histogram)横坐标是年横坐标是年龄区间，纵龄区间，纵坐标高度是坐标高度是落在相应的落在相应的年龄区间里年龄区间里的人数的人数直方图直方图(histogram)横坐标财富横坐标财富区间，纵坐区间，纵坐标高度是落标高度是落在相应的财在相应的财富区间里的富区间里的人数人数盒形图盒形图(boxplot, Box-whisker)盒子中间横线是中盒子中间横线是中位数位数(median), 封封闭盒子的上下

30、两横闭盒子的上下两横线（边）为上下四线（边）为上下四分位数分位数(点点), 按按SPSS默认，默认，如所如所有样本都在离四分有样本都在离四分位点位点1.5 倍盒长之内倍盒长之内，则线的端点为最，则线的端点为最大和最小值，否则大和最小值，否则线长就是线长就是1.5 倍的盒倍的盒长，在其外面的点长，在其外面的点被软件认为是离群被软件认为是离群点点(outlier)；而超；而超过盒长三倍的被认过盒长三倍的被认为是极端值为是极端值(extreme)。茎叶图茎叶图Stem-and-leaf茎叶图茎叶图Stem-and-leaf茎叶图茎叶图Stem-and-leaf茎叶图茎叶图Stem-and-leafA

31、geStem-and-LeafPlotforRegion=NorthAmericaFrequencyStem&Leaf3.003.2348.003.7778899919.004.001111112223334444423.004.5566666677788888899999937.005.000000000011111222222333333333344444434.005.555555666666666677777788888889999963.006.00000001111111111112222222222223333333333333334444444444444444454.006.

32、55555555666666666777777777788888888888889999999999999950.007.0000000000001111222222222333333333333344444444444449.007.555555556666666666667777777777888888888899999999931.008.000000000011122222222222333344415.008.5556666677888894.009.00112.009.77Stemwidth:10.00Eachleaf:1case(s)茎叶图茎叶图Stem-and-leaf茎叶图茎

33、叶图Stem-and-leaf散点图散点图Scatter plot例例 3.2 (数据marriage.sav）美国男士和女士初婚年龄的数据。该数据描述了自1900年到1998年男女第一次结婚的年龄的中位数。自1900到1960年是每十年一个值，以后到1990是每五年取一个数，1995年以后每年一个数。-横坐标（如年份），另外男士和女士结婚年龄为纵坐标来画散点图。SPSS选项为Graphs-legacy dialogs -line-multiple(valuesofindividualcases),然后把男、女放在linesrepresent把年选入Variable(categorylabel

34、s)，OK.点击图形做细致改动-在60年代婚姻年龄降低，而后来又升高。而男子结婚年龄平均比女性高定性变量的图表示：饼图和定性变量的图表示：饼图和条形图例3.3（数据language.sav）说世界各种主要语言（包括母语和日常使用）的人数饼图：选SPSS中Graphs-legacy dialogs pie (valuesofindividualcases),点击define.将母语放入slicesrepresent，将语种放入slicelabels-variable点击OK条形图：选SPSS中Graphs-legacy dialogs bar charts-clustered (summari

35、esofseparatevariables),点击define.将母语和日常用语放入barrepresent，语种放入categoryaxis点击OK点击饼图，可对图做细微改进。在properties中点击textstyle将FangSong放入Font点击datavaluelabels将percent和“语种”放入Labelsdisplayed 如何用少量数字来概括数据？如何用少量数字来概括数据？例例（数数据据：grade.sav)两两个个班班级级同同一一门门课课的的成成绩绩, 就下面两种情况分析这两个班的成绩就下面两种情况分析这两个班的成绩 1.一个任课老师一个任课老师, 两个班在一起上课

36、两个班在一起上课 2. 两个任课老师两个任课老师 - 点点击击grade.sav , 选选Graphs-legacy dialogs- histogram，将将得得分分放放入入variable中中，将将班班级级放放入入panel by Rows, 可可以以选选display normal curve 如果一个老师，两个班一起上课如果一个老师，两个班一起上课，看见看见A. 一班学生成绩好于二班一班学生成绩好于二班B. 与二班相比，一班与二班相比，一班好好坏坏生差生差异大异大“位置位置”统计量统计量(location statistic)“尺度尺度”统计量（统计量（scale statist

37、ic）“位置位置”统计量统计量(location statistic)均值均值(mean)：样本值的算术平均值：样本值的算术平均值中位数中位数(median)：中间大小的数（一半样本点小：中间大小的数（一半样本点小于中位数）于中位数）(第一或第三第一或第三)（下、上）四分位数（下、上）四分位数(点点) (first, third quantile )（分别有（分别有1/4, 3/4的数小于它们）的数小于它们）k-百分位数百分位数(k-percentile)a a分位数分位数(a a centile)： k-百分位数百分位数=k%分位数：分位数：有有k%的数目小于它的数目小于它众数众数(mode

38、)：样本中出现最多的数：样本中出现最多的数尺度统计量尺度统计量(scale statistic)-描述描述数据数据集中与分散程度集中与分散程度极差（极差（range)：极端值之差：极端值之差四分位间距四分位间距(四分位极差四分位极差) (interquantile range) 四分位数之差四分位数之差标准差标准差(standard deviation) 方差平方根方差平方根方差方差(variance) 各点到均值距离平方的平各点到均值距离平方的平均均注：注：一些统计量前面有时加上一些统计量前面有时加上“样本样本”二字，以区别于总体的同名参数。如二字，以区别于总体的同名参数。如“样本均值样本均

39、值”和和“样本标准差样本标准差”，以，以区别于总体均值和总体标准差；但在区别于总体均值和总体标准差；但在不会混淆时可以只说不会混淆时可以只说“均值均值”和和“标标准差准差”。练习练习有有2020个人的成绩个人的成绩 2 3 3.2 3.2 3.5 3.5 3.5 3.8 4 4 4 4 4 4.5 4.5 4.5 4.5 4.8 4.8 5 求求1. 1. 中位数中位数(median) 、上下四分位数、上下四分位数、众数众数(mode) 、 2. 极差（极差（range) 、四分位数之差、四分位数之差、标准差标准差(standard deviation) 和和方差方差(variance

40、) SPSS 选选Analyze-Descriptive Statistics -Explore，把变量，把变量得分得分选入到选入到Dependent List，再把，再把班级班级选入选入Factor List，点击点击statistics 选选descriptives 和和percentiles 然后然后OK如果两个老师，而学生水平差不多如果两个老师，而学生水平差不多, 成成绩不同是由于老师的评分标准不同导绩不同是由于老师的评分标准不同导致致一班分数的均值和标准差分别为一班分数的均值和标准差分别为78.53和和9.43，而二班的均值和标准差，而二班的均值和标准差分别为分别为70.19

41、和和7.00。那那么么得得到到90分分的的一一班班的的张张颖颖是是不不是是比比得得到到82分分的的二二班班的的刘刘疏疏成成绩绩更更好好呢呢？怎么比较才能合理呢？怎么比较才能合理呢？把数据进行标准化，然后再比较标准化后的数据。某观测值xi的标准得分定义为在在我我们们的的例例子子中中，张张颖颖的的标标准准得得分分为为(90-78.53)/9.431.22，而而刘刘疏疏的的标标准准得得分分为为(82-70.19)/71.69。显显然然如如果果两两个个班班级级平平均均水水平平差差不不多多，刘刘疏疏的的成成绩绩应应该该优优于于张张颖颖的的成成绩绩；这这是是在在标标准准化之前的数据中不易看到的。化之前的数据中不易看到的。作业作业1 1 根据你的经验，给出定性和定量变量的例子。根据你的经验，给出定性和定量变量的例子。2 2 对对于于问问题题1 1中中你你的的例例子子，试试图图画画出出各各种种描描述述性图形并计算汇总统计量。性图形并计算汇总统计量。3 3 举例说明如何计算众数、中位数和均值举例说明如何计算众数、中位数和均值4 4 举例说明尺度统计量说明了数据的什么特性。举例说明尺度统计量说明了数据的什么特性。55标标准准得得分分实实际际上上是是对对原原始始数数据据的的一一种种标标准准化化。试举出标准得分的用处。试举出标准得分的用处。

展开阅读全文

《数据描述方法》PPT课件.ppt

最新文档