《《统计学》第三章_数据的描述1》由会员分享,可在线阅读,更多相关《《统计学》第三章_数据的描述1(54页珍藏版)》请在金锄头文库上搜索。
1、中国人民大学出版社Allrightsreserved统统 计计 学学第三章第三章 数据的描述数据的描述11数据的直观展示数据的直观展示第三章第三章 数据的描述数据的描述1-1-数据的直观显示数据的直观显示 1 1 用统计表描述数据用统计表描述数据 2 2 用统计图描述数据用统计图描述数据 3 3 用计算机实现制统计图用计算机实现制统计图 1 1 用统计表描述数据用统计表描述数据1.1 1.1 统计表的构成统计表的构成1.2 1.2 统计表的类型统计表的类型1.3 1.3 统计表的编制规则统计表的编制规则 1.4 1.4 数据的统计表描述数据的统计表描述 1.1 1.1 统计表的构成统计表的构成
2、统计表统计表一般是由四个主要部分构成:表头,行标题,列标题,数据资料,必要时需要在统计表的下方加上表外附加。1.2 1.2 统计表的类型统计表的类型1.1.简单表简单表 行标题或列标题中的变量指标未经过任何分类,只是反映各变量的名称或按时间顺序简单排列。也称一览表。 1.2 1.2 统计表的类型统计表的类型2.2.分组表分组表 行标题或列标题中的变量指标按照一定标志进行了分类,也称简单分组表。它可以揭示出现象的不同类型的特征,研究现象的内部结构。 1.2 1.2 统计表的类型统计表的类型3.3.复合表复合表 行标题或列标题中的变量指标按照两个或两个以上的标志层叠分类所形成的统计表。 1.2 1
3、.2 统计表的类型统计表的类型4 4交叉表交叉表 行标题和列标题中的变量指标同时采用分类的形式来表示,使得数据依据行或列变量分类结果在交叉的单元格中显示。 1.3 1.3 统计表的编制规则统计表的编制规则统计表的编制规则统计表的编制规则 编制统计表的基本指导原则:编制统计表的基本指导原则:“简练、美观、科学、实用简练、美观、科学、实用”表头结构计量单位线条数据表外附加 1.4 1.4 数据的统计表描述数据的统计表描述数据的统计表描述数据的统计表描述 1.4.1 1.4.1 定性变量的统计表描述定性变量的统计表描述 定性变量包括分类变量和顺序变量两种类型。分类变量的取值是对事物的一种分类,而顺序
4、变量的取值是对事物的分类排序。在整理和描述定性变量时,需要根据分类变量和顺序变量的取值进行统计分组,同时计算每一组对应的频数。1.4.1 1.4.1 定性变量的统计表描述定性变量的统计表描述分类变量分类变量 频数(频数(frequenceyfrequencey) 是指落在某一特定类别(或组)中的数据个数。频率或比例(频率或比例(proportionproportion) 把各类的频数与全部频数之和求比值得到。频数分布(频数分布(frequency distributionfrequency distribution)和频率分布)和频率分布 把各个类别及其相应的频数或频率全部列出,并用统计表的形
5、式表现出来形成。1.4.1 1.4.1 定性变量的统计表描述定性变量的统计表描述例如:假设某项调查中3000名被访问者按性别分类(组)后,即可整理得到男性和女性的人数,从而得到每一类的频数、频率以及比例分布表:1.4.1 1.4.1 定性变量的统计表描述定性变量的统计表描述顺序变量顺序变量累积的方法累积的方法 向上累积:从顺序变量取值的最小一方,向最大一方累加。向下累积:从顺序变量取值的最大一方,向最小一方累加。累积频数:累积频数: 将顺序变量各个取值的观测频数逐级累加起来得到的频数。累积频率或累积百分比累积频率或累积百分比 将顺序变量各取值所对应频数的百分比累加起来得到的百分比,1.4.1
6、1.4.1 定性变量的统计表描述定性变量的统计表描述例如:假设某项调查中3000名被访问者按照受教育水平高低可分为四大类时,除了可以得到每一类所对应的频数、比例分布表,还可计算累积频数或频率分布表: 1.4.2 1.4.2 定量变量的统计表描述定量变量的统计表描述定量变量的统计表描述定量变量的统计表描述 对于定量变量,通常采用统计分组,得到每一组所对应的频数、频率或比例表,用来对数据特征进行描述。 统计分组按照分组标志的不同可分为:统计分组按照分组标志的不同可分为: 单变量分组 组距分组1.4.2 1.4.2 定量变量的统计表描述定量变量的统计表描述单变量分组:单变量分组: 把每一变量取值都作
7、为分组标志。这种方法适用于离散型变量,且变量取值较少时的情形。 例如:某项调查中100名调查员每人调查的有效问卷数。 1.4.2 1.4.2 定量变量的统计表描述定量变量的统计表描述对于有效问卷数处于130到150份之间的调查员根据其问卷数进行单变量分组,得到分组表: 1.4.2 1.4.2 定量变量的统计表描述定量变量的统计表描述 单变量分组会使得分组过细,组数过多,不利于观察数据分布的特征和规律。 对于连续型变量也无法采用单变量分组方式。在连续型变量或变量取值较多的情况下,通常采用组距分组。1.4.2 1.4.2 定量变量的统计表描述定量变量的统计表描述组距分组组距分组 将全部变量取值划分
8、为若干个区间,并将这一区间值作为分组标志 1. 1.确定组数:确定组数:按照经验公式来确定组数n: 为数据个数,对结果四舍五入取整即可得到经验分组数。 2. 2.确定各组的组距确定各组的组距: : 组距是一组的上限与下限数值的差。 当采用等距分组时,组距=(最大值最小值)组数。 定量变量进行统计分组表描述时遵循“不重不漏”原则,为此,对于组距分组,采用“上组限不在组内”原则。1.4.2 1.4.2 定量变量的统计表描述定量变量的统计表描述根据分组结果整理频数分布表: 2 2 用统计图描述数据用统计图描述数据2.1 2.1 统计图统计图2.2 2.2 定性变量的图示定性变量的图示 2.3 2.3
9、 定量变量的图示定量变量的图示 2.4 2.4 趋势的图示趋势的图示 2.1 2.1 统计图统计图统计图统计图是以图形形象地表现统计数据的一种形式。 统计图的分类,根据描述统计变量的个数统计图的分类,根据描述统计变量的个数 单变量统计图 双变量统计图 多变量统计图 统计图的分类,根据描述统计变量的性质和外形特征:统计图的分类,根据描述统计变量的性质和外形特征: 条形图,饼图,环形图,累计分布图,直方图,折线图,茎叶图,盒形图,散点图。 2.2 2.2 定性变量的图示定性变量的图示1 1条形图条形图 条形图(bar graph)可用于显示分类变量和顺序变量取值的频数或频率分布。 用宽度相同的条形
10、的高度或长短来表示频数的多少或频率的大小。 条形图可以横置或纵置,纵置时也称为柱形(column graph)。 根据图形描述的定性变量的个数,条形图有单式、复式等形式。 2.2 2.2 定性变量的图示定性变量的图示单式条形图单式条形图复式条形图2007年我国人口城乡分布条形图年我国人口城乡分布条形图 1978年和年和2007年我国人口城乡分布条形图年我国人口城乡分布条形图 2.2 2.2 定性变量的图示定性变量的图示2 2饼图饼图 饼图(pie chart)可用于显示分类变量和顺序变量取值所对应的频数或频率分布。用圆形及圆内扇形的面积来表示数值的大小。可用于表示分类变量中各组频数所占的比例,
11、即相对大小。 对于研究结构性问题十分有用。 2.2 2.2 定性变量的图示定性变量的图示2007年我国人口城乡分布比重饼图年我国人口城乡分布比重饼图 2.2 2.2 定性变量的图示定性变量的图示3 3环形图环形图 环形图(doughnut chart)可以同时绘制多个总体或样本的数据系列。每一个总体或样本的数据系列为一个环。环形图可显示多个总体或样本各部分所占的相应比例。有利于进行比较研究。 2.2 2.2 定性变量的图示定性变量的图示1978年和年和2007年我国人口城乡分布环形图年我国人口城乡分布环形图 2.2 2.2 定性变量的图示定性变量的图示4 4累积分布图累积分布图 累积分布图(c
12、umulative distribution graph)包括累积频数分布图和累积频率分布图。3000名被访者受教育水平累积频数分布图名被访者受教育水平累积频数分布图 2.3 2.3 定量变量的图示定量变量的图示定量变量定量变量也称为数值型变量。 按照数据的取值类型,分为:连续性变量和离散型变量 用来描述定性变量取值的图示法都能够用来描述定性变量的数值。 此外,还可以采用直方图、折线图、茎叶图、盒形图来进行描述。2.3 2.3 定量变量的图示定量变量的图示1 1直方图直方图 直方图(Histogram)是根据定量变量的取值范围来显示观测频数的图。常用于显示连续型变量在取值区间内的频数分布。用矩
13、形的宽度和高度(即面积)来表示频数的分布。 2.3 2.3 定量变量的图示定量变量的图示100名调查员的有效问卷数分布直方图名调查员的有效问卷数分布直方图2.3 2.3 定量变量的图示定量变量的图示直方图与条形图的不同:直方图与条形图的不同:(1)条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度表示各组的组距,因此,其高度与宽度均有意义。(2)由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。(3)条形图主要用于展示分类数据,而直方图主要用于展示数值型数据。 2.
14、3 2.3 定量变量的图示定量变量的图示2 2折线图折线图 折线图也称频数多边形图,是在直方图的基础上,把直方图顶部的中点(即组中值)用直线连接起来形成的。2.3 2.3 定量变量的图示定量变量的图示100名调查员的有效问卷数分布折线图名调查员的有效问卷数分布折线图 2.3 2.3 定量变量的图示定量变量的图示 当数据所分的组数很多时,组距会越来越小,这时所绘制的折线图就会越来越光滑,逐渐形成一条平滑的曲线,即频数分布曲线。 常见的频数分布曲线主要有:正态分布,偏态分布,J形分布,U形分布正态分布正态分布偏态分布偏态分布 右偏(正偏) 左偏(负偏) 2.3 2.3 定量变量的图示定量变量的图示
15、J型分布型分布 U型分布型分布 2.3 2.3 定量变量的图示定量变量的图示3 3茎叶图茎叶图 茎叶图(stem-leaf plot),可以反映原始数据的分布形状及数据的离散情况。 制作茎叶图时,首先把一个数字分成两部分,将最后一位作为叶,其他的高位数字作为茎。2.3 2.3 定量变量的图示定量变量的图示100名调查员有效问卷数分布的茎叶图名调查员有效问卷数分布的茎叶图 2.3 2.3 定量变量的图示定量变量的图示茎叶图与直方图的比较:茎叶图与直方图的比较: 茎叶图类似于横置的直方图,但又有不同。 茎叶图既能给出数据的分布状况,又能给出每一个原始数据,从而保留了原始数据的信息,一般适用于小批量
16、小批量数据; 直方图能够反映定性变量取值的分布,但不能保留原始的数据信息,通常适用于大批量大批量数据。2.3 2.3 定量变量的图示定量变量的图示4 4盒形图盒形图 盒形图(box plot)主要用来反映原始数据的分布特征。 它由一组数据的最大值、最小值、中位数、上下四分位数这个五个特征数值组成。 与茎叶图相比,盒形图不能够反映出每一个原始数据的信息,但却提供了简明有效的视图。 2.3 2.3 定量变量的图示定量变量的图示按性别区分的男女学生外语成绩盒型图按性别区分的男女学生外语成绩盒型图 2.4 2.4 趋势的图示趋势的图示趋势的图示趋势的图示 当我们需要考虑定量变量取值在不同时间截面上的分
17、布特征、或者两个定量变量的取值所表现出的相关趋势时,就需要借助趋势图进行描述。2.4 2.4 趋势的图示趋势的图示1 1线图线图 线图(line plot)在直角平面坐标中主要用来描述定量变量取值随时间变化的特征,即时间序列数据的趋势特征,因此也可以称为时间序列时间序列图图。2.4 2.4 趋势的图示趋势的图示按销售单位所在地分的按销售单位所在地分的1998-2007年社会消费品零售总额年社会消费品零售总额 2.4 2.4 趋势的图示趋势的图示2 2散点图散点图 散点图(scatter plot)是用二维直角平面坐标展示两个定量变量取值随时间变化表现出的趋势,主要用来观察变量间的相关关系。 用
18、坐标横轴代表变量 ,纵轴代表变量 ,两个变量的每组数据 在坐标系中用一个点表示。2.4 2.4 趋势的图示趋势的图示1998-2007年国内生产总值和货运周转量散点图年国内生产总值和货运周转量散点图 2.5 2.5 如何制作好的统计图如何制作好的统计图如何制作好的统计图如何制作好的统计图 “图优性图优性”是指图形能够在最短的时间内,用最少的笔墨,在最小的空间里,给观众最多的思想。一个好图应具备的基本特征:(1)显示数据;(2)注意力集中在图形的内容上,而不是制作程序;(3)避免歪曲事实;(4)强调数据之间的比较;(5)服务于一个明确的目的;(6)有对图形的统计描述和文字说明。2.5 2.5 如
19、何制作好的统计图如何制作好的统计图TufteTufte提出了五种鉴别图形好坏的标准提出了五种鉴别图形好坏的标准(1)好图应当精心设计,有助于洞察问题的实质;(2)好图应当使复杂的观点得到简明、确切、高效的阐述; (3)好图应当能以最少的笔墨提供最大的信息(4)好图应当是多维的;(5)好图应当表述数据的真实情况。 2.5 2.5 如何制作好的统计图如何制作好的统计图你能看出他们的问题吗?我国主要年份社会消费品零售额按行业划分构成我国主要年份社会消费品零售额按行业划分构成 2.5 2.5 如何制作好的统计图如何制作好的统计图1999年年-2008年我国社会消费品零售总额及其增速年我国社会消费品零售总额及其增速 3 3 用计算机实现制统计图用计算机实现制统计图用计算机实现制统计图用计算机实现制统计图 3.1 SPSS3.1 SPSS数据库文件的建立数据库文件的建立3.2 3.2 用用SPSSSPSS软件制作统计图软件制作统计图 3.1 SPSS3.1 SPSS数据库文件的建立数据库文件的建立1 1录入数据模式录入数据模式2 2导入数据模式导入数据模式 3 3频数分布表和累积频数表的制作频数分布表和累积频数表的制作 3.2 3.2 用用SPSSSPSS软件制作统计图软件制作统计图1条形图 2饼图 3累积分布图 4直方图 5折线图 6茎叶图 7盒型图8线图9散点图