单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第四章:数据类型与描述统计,第一节:数据的类型,数据的计量尺度:,1,、定类尺度,2,、定序尺度,3,、定距尺度,4,、定比尺度,定类,尺度,(类别尺度、列名尺度)是最粗略、计量层次最低的尺度;,只能区别事物是同类或不同类;,必须符合穷尽和互斥的要求例:,0,表示女性,,1,表示男性,定序,尺度,(顺序尺度),是对事物之间等级差或顺序差别的一种测度;,不仅有类别,这些类别之间是可以比较的;,不能进行加减乘除运算例:一等品、二等品、三等品,小学、初中、高中、大学及以上,非常不同意、不同意、中立、同意、非常同意,定距,尺度,(间隔尺度),不仅区分类型和排序,而且可以准确地指出类别之间的差距是多少;,通常可以使用自然或度量衡单位作为计量尺度;,定距尺度的计量结果表现为数值;,可以进行加减运算例:考试成绩相差,10,分,今天武汉的温度比广州的温度低,6,摄氏度,定比,尺度,(比率尺度),与定距尺度属于同一层次,一般可不作区分,计量结果也表现为数值;,要求有一个绝对固定的“零点”;,可以进行加减乘除运算例:甲月薪,3000,,乙月薪,1000,,甲为乙的三倍,数据的类型,定性数据(品质数据),:包括定类数据和定序数据。
不能用数值表示,其结果表现为类别定量数据(数量数据),:包括定距数据和定比数据能够用数值来表现,反映数量特征横截面数据:如,2008,武汉“,8+1”,城市圈,GDP,增速;,时间序列数据:如,2000-2009,武汉市,GDP,增速;,面板数据:,2000-2008,武汉“,8+1”,城市圈,GDP,增速数据的预处理,数据审核,:对于原始数据,从完整性和准确性两方面加以审核对于异常值的处理:若是记录错误,则予以纠正;若是准确,则保留对于二手数据,弄清数据来源,审核时效性数据筛选,:一些不符合要求的数据或有明显错误的数据剔除;将符合某种特定条件的数据筛选出来例题:见,Excel,例(数据筛选),数据的显示,统计图:集中常用统计图介绍,统计表:表头、行标题、列标题、数字资料3W,要求表外附加(数据来源),变量的类型,定类,变量,定序变量,数字变量(离散变量、连续变量),多数情况下,变量指的是数字变量第二节:指标和指数,统计指标,包括总量指标、相对指标、平均指标,总量指标:反映总体规模,如人口总数、,GDP,相对指标:经济增长率、股价指数平均指标:人均消费水平、某股票的,10,日均价,统计指数,广义:凡是能够说明现象变动的相对数都是指数;,如计划完成相对数,狭义:用来表明不能直接相加和不能直接对比的现象在不同时期的变动程度。
如价格指数,统计指数的分类,反映对象范围的不同:个体指数、总指数;,按性质不同:数量指标指数(产量指数)、质量指标指数(劳动生产率指数),按所采用基期的不同:定基指数、环比指数,按研究的目的不同:动态指数、静态指数第三节,:,描述统计,Topics,集中趋势的度量,Mean(,均值,),,,median(,中位数,),,,mode,(,众数,),离散的度量,Range,(,变动幅度,),,variance and standard deviation,(,标准差,),,coefficient of variation,(,离散,系数,),形状,对称与不对称,描述统计,集中趋势,均值,中位数,众数,几何平均数,描述统计,离散程度,方差,标准差,离散系数,均值,(,算术平均,),数据的算术均值,样本均值,总体均值,样本规模,总体规模,度量集中趋势的最常用变量,受到异常值的影响,0 1 2 3 4 5 6 7 8 9 10,0 1 2 3 4 5 6 7 8 9 10 12 14,均值=5,均值=6,(continued),中位数,主要用于测度定序数据的集中趋势,不受异常值的影响,在一个排好序的数列中,中位数就是这个序列中间的数值:,若,N,为,奇数,中位数就是中间那个数的数值,若,N,为偶数,中位数就是中间那两个数的平均值,0 1 2 3 4 5 6 7 8 9 10,0 1 2 3 4 5 6 7 8 9 10 12 14,中位数=5,中位数=5,众数,众数的值就是出现次数最多的数值,不受异常数据的影响,可用于数字型和定类型数据,可能没有众数,也可能有多个众数,0 1 2 3 4 5 6 7 8 9 10 11 12 13 14,众数=9,0 1 2 3 4 5 6,无众数,是离散程度的最重要的度量指标,反映的是对均值的离散程度,样本方差,:,总体方差,:,方差,标准差,是最重要的分散程度度量指标,表示对均值的分散程度,与,原始数据是同一量纲,样本标准差,:,总体标准差,:,标准差比较,均值=15.5,s =,3.338,11 12 13 14 15 16 17 18 19 20 21,11 12 13 14 15 16 17 18 19 20 21,Data B,Data A,均值=15.5,s=,.9258,11 12 13 14 15 16 17 18 19 20 21,均值=15.5,s=,4.57,Data C,Coefficient of Variation,(,离散系数),考察现对离散程度,一般用百分比表示,(%),表示相对于均值的离散情况,比较不同度量单位多组数据的离散程度,离散系数比较,股票,A:,去年的均价,=$50,标准差,=$5,股票,B:,去年的均价,=$100,标准差,=$5,离散系数,:,股票,A:,股票,B:,分布的形状,描述数据是如何分布的,对形状的度量,对称还是不对称,Mean=,Median=,Mode,Mean,Median,Mode,Mode,Median,Mean,右偏,左偏,对称,数据分析是客观的,对数据的解释是主观的,应该公正、中立、明确,。