十章单变量的描述统计

上传人:人*** 文档编号:579654295 上传时间:2024-08-27 格式:PPT 页数:26 大小:193.50KB
返回 下载 相关 举报
十章单变量的描述统计_第1页
第1页 / 共26页
十章单变量的描述统计_第2页
第2页 / 共26页
十章单变量的描述统计_第3页
第3页 / 共26页
十章单变量的描述统计_第4页
第4页 / 共26页
十章单变量的描述统计_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《十章单变量的描述统计》由会员分享,可在线阅读,更多相关《十章单变量的描述统计(26页珍藏版)》请在金锄头文库上搜索。

1、耻牛曳绚寨嘿基课猿鸳缔苦麓恕闽猜柒溪其阵筏讽争恋焦雄涣檬吼妻蓬牛十章单变量的描述统计十章单变量的描述统计第十章第十章 单变量的描述统计单变量的描述统计 本章主要内容:描述统计的基本方法、集中趋势与离散趋势分析。初必岛猿亥荧轮脱贤识呈炒嘎忆逗济冒亭羽钵桔径履纵触舀毒哲酗侩来饼十章单变量的描述统计十章单变量的描述统计第一节第一节 描述统计的基本技术描述统计的基本技术 n描述性分析是对已经初步整理的数据资料进行分析,并用描述性分析是对已经初步整理的数据资料进行分析,并用统计量对这些资料进行描述的一种方法;统计量对这些资料进行描述的一种方法;n描述统计只是描述样本属性或变量关系,是对样本观察的描述统计

2、只是描述样本属性或变量关系,是对样本观察的结果。结果。n一、频数与频数分布一、频数与频数分布n二、统计表二、统计表n三、统计图三、统计图脱燃唁声镭油绸皖勘泉栏繁躬甫潞僧悄涅吾雅励首了弃吃栏蛆俏妓叉弥颅十章单变量的描述统计十章单变量的描述统计一、频数与频数分布一、频数与频数分布n统计学中的分布:是指一个变量的各个取值出现的次数或统计学中的分布:是指一个变量的各个取值出现的次数或频率。频率。n频数分布频数分布(Frequency distribution)(Frequency distribution):就是指一组数据中:就是指一组数据中取不同值的个案的次数分布情况,它一般以频数分布表的取不同值的

3、个案的次数分布情况,它一般以频数分布表的形式表达。形式表达。 n频率分布频率分布(percentages distribution)(percentages distribution)是一组数据中不是一组数据中不同取值的频数相对于总数的比率分布情况同取值的频数相对于总数的比率分布情况. . 常以百分比的常以百分比的形式来表达形式来表达. . 真逾眷册蕉送欺碗藕嘱移泡希删瑟羽掠赦岂然缅悦韩遭坦傅日挥犯岳风卜十章单变量的描述统计十章单变量的描述统计X X年统计学历分布年统计学历分布 学学 历历 人数(频数)人数(频数) 频率频率 小学及以下小学及以下 1 10.3 0.3 初中初中727224 2

4、4 高中高中444415 15 中专中专13134.3 4.3 大专大专525217.3 17.3 大学大学585819.3 19.3 硕士硕士4 41.3 1.3 博士博士7 72.4 2.4 Missing Missing 49 49 16.3 16.3 Total Total 300300100100n分布表的作用分布表的作用: :一是简化资料;二是描述;三是为深入分析有关现象打下基础. 钝硒笺妆贝穆励跌须釜今篇臆竿寇骋阎巢末菜羹描立噬讨刚褐痪策翅囊掀十章单变量的描述统计十章单变量的描述统计二、统计表二、统计表(Statistical tables)n统计表统计表 是用表格形式表示变量的

5、分布。是用表格形式表示变量的分布。n统计表结构n统计表类型待鸟寅厘顽涌卷曙株晤劣汗洪雕澳轴釜伤庙氰锻醒它址锥体晰肿坦迁兄搪十章单变量的描述统计十章单变量的描述统计统计表格统计表格(结构结构) n从外表形式上看,统计表由从外表形式上看,统计表由序号、序号、总标题总标题( (表的名称表的名称) )、标标目目( (横行标题、纵栏标题横行标题、纵栏标题) )、表身表身( (指标数值指标数值) )、表注表注四部分四部分组成。组成。n表注。写于表的下面。对标题补充说明;或说明数据来源、表注。写于表的下面。对标题补充说明;或说明数据来源、附记等内容。附记等内容。年份年份财政总收入财政总收入财政总支出财政总支

6、出200013 395.2315 886.5200116 386.0418 902.58我国历年财政总收支表我国历年财政总收支表单位:亿元表2-5资料来源: 中国统计年鉴(2002) 五年财政收支情况五年财政收支情况谐锤洞疆浮墅嚏平恤议实怨郸头瓜肇吞滔毅搽又盆弧尹思壶铁套厚船锚糟十章单变量的描述统计十章单变量的描述统计 2.2.简单分组表简单分组表(总体仅按一个标志进行分组) 年人均收入年人均收入 村村 (频数)百分比()百分比() 608080120120160 5911 203842 合计合计 20100某村各户年人均收入统计表某村各户年人均收入统计表 1.1.简单表简单表(总体未做任何分

7、组) 某村历年人均收入年份年份 1977 1977 1978 1978 1979 1979 1980 1980 收入收入 200200280280400400450450统计表格统计表格(类型类型) 博父报莲效萤税赚疯迄涪译维浮曲茧暑坛雄遮寻摧驰荧引珍劈氓盖闽沂尿十章单变量的描述统计十章单变量的描述统计3.3.复合分组表复合分组表 n是总体按两个以上标志进行层叠分组的统计表,它又称是总体按两个以上标志进行层叠分组的统计表,它又称为交互分类表,它能表现两个分组标志之间的关系。为交互分类表,它能表现两个分组标志之间的关系。 某村家庭规模和经济情况统计表某村家庭规模和经济情况统计表 经济水平经济水平

8、 家庭规模家庭规模 大大小小合计合计高高低低 3030505012012010101501506060合计合计8080130130210210唯硫码秸喧肠远坍公蒂柏灌睫酌担颓煞誉发狮誓淤尤谍肆绥槛野谚澎轩漓十章单变量的描述统计十章单变量的描述统计三、统计图三、统计图(Statistical graphs)n即用图形的形式来表示变量的分布。即用图形的形式来表示变量的分布。 1. 1.圆瓣图(圆瓣图(pie graphspie graphs) 2. 2.条形图(条形图(Bar graphsBar graphs) 3. 3.直方图(直方图(HistogramsHistograms) 4. 4.折线图

9、折线图 (Polygon) (Polygon)丰肋藉值娄周溯削宁屉健村垮度民轰知坎姿竖刻桓侄鲁众豁管鲁氢毁且唾十章单变量的描述统计十章单变量的描述统计圆圆 瓣瓣 图图(pie graphspie graphs) n圆瓣图是用一个圆代表现象总体,每一瓣代表现象中的一类,圆瓣图是用一个圆代表现象总体,每一瓣代表现象中的一类,其大小代表它在总体中所占的百分比频率。其大小代表它在总体中所占的百分比频率。n圆瓣图多用于描述定类变量的分布。圆瓣图多用于描述定类变量的分布。戏守冠眨界矿恬委胡麦扑美沙燃乏框歪洛企樟斯孟棺缅窄桔拆崩卫芝败鸦十章单变量的描述统计十章单变量的描述统计条形图条形图(Bar graph

10、sBar graphs)n用于描述定类与定序变量的分布,它是以长条的高度表示变用于描述定类与定序变量的分布,它是以长条的高度表示变量不同取值的频率(次)分布的,其中长条的宽度没有意义,量不同取值的频率(次)分布的,其中长条的宽度没有意义,一般均画成等宽长条。长条的排列可以是离散的,也可以是一般均画成等宽长条。长条的排列可以是离散的,也可以是紧挨着的。紧挨着的。疽耽浚桥艾芳铸肠腆晶嚏恤森值增渐脸淬镣仅披腮社鹃刽疆昏期透竟材陋十章单变量的描述统计十章单变量的描述统计直方图直方图(HistogramsHistograms)直方图直方图n直方图也是由紧挨着的长条构成的,但与条形图不同的是,直方图也是由

11、紧挨着的长条构成的,但与条形图不同的是,它的条形的宽度是有意义的,表示组距。它的条形的宽度是有意义的,表示组距。n它是用长条的面积表示频率它是用长条的面积表示频率( (次次) )的大小。的大小。n长条的纵轴高度表示频率长条的纵轴高度表示频率( (次次) )密度:密度:n频率频率( (次次) )密度密度= =频率频率( (次次)/)/组距组距n直方图仅适用与定距变量。直方图仅适用与定距变量。席谊夷煞攀盆雕辊铣证撇芜尚妆厂爷醚断幼则憨丘疙抿巴民郎刨砍堵克低十章单变量的描述统计十章单变量的描述统计折线图折线图(Polygon)(Polygon)n折线图是用直线连接直方图中条形顶端的中点而成的。折线图

12、是用直线连接直方图中条形顶端的中点而成的。n显然,当组距逐渐减少时,折线的形状也将逐渐变为平滑,显然,当组距逐渐减少时,折线的形状也将逐渐变为平滑,其趋势是一条连续的曲线。其趋势是一条连续的曲线。桥黑嚏俺华挝趋另爆粉恰艇滓瘁勒马窄猴乞豆录平圣八土胶貉幼刹券煽五十章单变量的描述统计十章单变量的描述统计第二节第二节 集中趋势测量集中趋势测量n集中趋势是指反映变量分布的特征值。该特征值又称作集集中趋势是指反映变量分布的特征值。该特征值又称作集中量数中量数n它是代表一组数据典型水平或集中趋势的量,反映频数分它是代表一组数据典型水平或集中趋势的量,反映频数分布中大量数据向某一点集中的情况。布中大量数据向

13、某一点集中的情况。n一、定类变量:众数n二、定序变量:中位数n三、定距变量:平均值n四、众数、中位数、平均数的比较斤挨驻贯梳连貌酷带饶余辊邯眉趾村肃鼻打锑把器弹雹叶父掂竭谦萧霹推十章单变量的描述统计十章单变量的描述统计一、定类变量:众数一、定类变量:众数n众数(简写众数(简写MoMo)是一组数据中出现次数最多)是一组数据中出现次数最多( (即频数最高即频数最高) )的那个数值的那个数值n众数与平均数一样也可用来概括反映总体的一般水平或典众数与平均数一样也可用来概括反映总体的一般水平或典型情况型情况. . n其计算方法分两类:其计算方法分两类: (1 1)单值分组资料)单值分组资料(观察法观察法

14、) 最大的频数最大的频数对应的标志值对应的标志值= =众数众数(2 2)组距分组资料)组距分组资料 ( (组中值法组中值法) ) 最大的频数最大的频数对应的组对应的组组中值组中值= =众数众数. .氢马洱歉给灸蠢潍参铃柴恰矫玄愁胆习缴硕音牲钡见殴竭薛摹戒此玛蹲镀十章单变量的描述统计十章单变量的描述统计众数示例表表3. 某年级学生的年龄分布某年级学生的年龄分布年龄人数(频数)累计频数累计频数1710101501825351401950851152040125652120145252251505合计150 最大频数组为最大频数组为1919岁组岁组 众数值为众数值为19.5 19.5 因为这是年龄组

15、。因为这是年龄组。甥盘授函主都辽砾胚炸钩派贯访埂森酿殊挠檄嘲悸举荡相赛库檬廓裹吏扎十章单变量的描述统计十章单变量的描述统计二、定序变量:中位数二、定序变量:中位数n中位数中位数(M Md d)把一组数据按值的大小顺序排列起来把一组数据按值的大小顺序排列起来, ,处于处于中央位置的那个数值就叫中位数中央位置的那个数值就叫中位数. .n计算中位数有下面两种情况:计算中位数有下面两种情况: (1) (1)用原始资料用原始资料当样本为偶数时当样本为偶数时, ,以中间两个数值的平均数以中间两个数值的平均数作为中位数作为中位数. . (2)(2)用分组资料用分组资料L=中位数之真实下限中位数之真实下限f

16、=各组之次数各组之次数i =中位数之组距中位数之组距Cf =下限之累加次数下限之累加次数f m=中位数所在组次数中位数所在组次数泻曲拙李稍畅衙四姓噬拽顷掩几唯抬熊昆矩骸孩龙崭隅为仲珍厘隧蹬鞍舱十章单变量的描述统计十章单变量的描述统计三、定距变量:平均值三、定距变量:平均值n平均数平均数 是总体各单位数值之和除以总体单位数之商。是总体各单位数值之和除以总体单位数之商。n应用于定距、定比变量应用于定距、定比变量n计算公式:计算公式:(单值未分组资料)注注:若为组距分组资料若为组距分组资料 ,则先计算,则先计算出各组的组中值。出各组的组中值。(单值分组资料)孝撼周岸惠饵售易讨眠船旦羔秸麦砖烛钓走檄冲

17、蓟剖敞衷适似零颖止凰吻十章单变量的描述统计十章单变量的描述统计组距分组资料计算平均数组距分组资料计算平均数示例示例表4. 某企业百名职工收入分布收入收入(元元)职工数职工数(人人)f组中值组中值x Xf100-199101501 500200-299102502 500300-3994035014 000400-499204509 000500-5992055011 000合计合计10038 000= =唬县武痢异拽硬草劈侵擂晤蕉磺硷坛姑怖性力关粗倘贫必浪宦跑胡挂立耍十章单变量的描述统计十章单变量的描述统计四、众数、中位数、平均数的比较四、众数、中位数、平均数的比较n三者都反映了变量的集中趋势

18、,但各自适用对象稍有不同:三者都反映了变量的集中趋势,但各自适用对象稍有不同:众值:适用于定类、定序、定距变量;众值:适用于定类、定序、定距变量;中位值:适用于定序、定距变量;中位值:适用于定序、定距变量;均值:适用于定距变量。均值:适用于定距变量。n一般说来均值利用了更多的信息一般说来均值利用了更多的信息, ,更全面和准确更全面和准确. .其稳定性其稳定性要好。要好。n两种不适用均值的情况:两种不适用均值的情况:当资料是有开口组的定距测量时当资料是有开口组的定距测量时, ,只能用中位数只能用中位数. .平均数容易受到极端值的影响平均数容易受到极端值的影响, ,中位数则不会受到这种影中位数则不

19、会受到这种影响响. .当存在很大极值时,宜用中位数当存在很大极值时,宜用中位数 . .狮瓣鸣洽瘟婆叙抨群洒冈涝辽表陀衍嘱赏兰洽洲士靴预刹散佯帆侍溅躁环十章单变量的描述统计十章单变量的描述统计第三节第三节 离散趋势测量离散趋势测量它是利用离散量数它是利用离散量数 测量离散或离中程度测量离散或离中程度离散量数离散量数 是用反映一组数据相互之间的离散程度的数值是用反映一组数据相互之间的离散程度的数值. .它是变量分布的特征值。它是变量分布的特征值。n一、定类变量:异众比率n二、定序变量:四分位差n三、定距变量:标准差与方差n四、相对离散程度:离散系数涅吏抚揪俗种药膛摹酚宇犀萄宣钟幢旧恤散姓锌胶盂怪望

20、捧如结导垛呵井十章单变量的描述统计十章单变量的描述统计一、定类变量:异众比率一、定类变量:异众比率n异众比率异众比率 是指非众数的次数与总体内全部总体单位的比是指非众数的次数与总体内全部总体单位的比率。率。n众数与异众比率配合使用。异众比率越小,众数的代表性众数与异众比率配合使用。异众比率越小,众数的代表性越大。越大。n计算公式:计算公式: V=n其中其中n n 是全部观察总数,是全部观察总数, 是众数出现的频数,二者之是众数出现的频数,二者之差就是非众数的频数差就是非众数的频数. .n不属于众数的个案所占的比率愈大,就表示众数的代表性不属于众数的个案所占的比率愈大,就表示众数的代表性愈小,以

21、之作估计或预测时所犯的错误也就愈大。愈小,以之作估计或预测时所犯的错误也就愈大。n一种可能的情况是:两两比较,众数相同,而异众比率不一种可能的情况是:两两比较,众数相同,而异众比率不同。同。码干猴涡粉陶醚躬桓羹壮期抄屠椰记殖些漓祸袱厅标杠钵馈纺陡纲疆成搔十章单变量的描述统计十章单变量的描述统计二、定序变量:四分位差二、定序变量:四分位差n把一组数据按大小排列成序列,然后分成四个数据数目相把一组数据按大小排列成序列,然后分成四个数据数目相等的段落,各段落分界点上的数,叫四分位数。(即每组等的段落,各段落分界点上的数,叫四分位数。(即每组占占2525)n舍去资料中数值最高的舍去资料中数值最高的25

22、25和最低的和最低的2525,仅就中间,仅就中间5050数据求其量数作为离中量数,即四分位差。数据求其量数作为离中量数,即四分位差。n计算公式:计算公式: - -n图中表示原始数据四个等分。Q2就是中位数,两边各有50%的个案。 计算四分位差时,先要求出Q1的位置和Q3的位置.n实际资料,分为原始资料与分组资料两种情况。实际资料,分为原始资料与分组资料两种情况。冀腔摊颂站销觅墙垣浑思肛痹翼掳嘘哭输辐怎窥搀浅污挨庚雕荆尝贡获半十章单变量的描述统计十章单变量的描述统计三、定距变量:标准差与方差三、定距变量:标准差与方差n方差方差(Variance):(Variance):是将观察值与其均值之差的平

23、方和,除是将观察值与其均值之差的平方和,除以全部观察总数。以全部观察总数。n标准差标准差(Standand Deviation) (Standand Deviation) :一组数据对其平均数的:一组数据对其平均数的偏差平方的算术平均数的平方根。用偏差平方的算术平均数的平方根。用S S( (或或 )来表示)来表示n它是用得最多、也是最重要的离散量数统计量。它是用得最多、也是最重要的离散量数统计量。 n方差:方差: n标准差:标准差: 谩骑振逮纺犁沽嘴瞎先疹捎慧杀随纫蘸孔渗税缘祥论湘澳浚藏堰浚趴跟惶十章单变量的描述统计十章单变量的描述统计四、相对离散程度:离散系数四、相对离散程度:离散系数n离散

24、系数是一种相对的离散量数统计量,它使我们能够对离散系数是一种相对的离散量数统计量,它使我们能够对同一总体中的两种不同的离散量数统计量进行比较,或者同一总体中的两种不同的离散量数统计量进行比较,或者对两个不同总体中的同一离散量数统计量进行比较。对两个不同总体中的同一离散量数统计量进行比较。n离散系数离散系数 指标准差与平均数的比值,用百分比表示。指标准差与平均数的比值,用百分比表示。n其计算公式为:其计算公式为:误消秩格擒缅彬赤氧犊矩侣零纲柯拯湛白酗钨兑寥倡妊镇每宵窗朗殴港露十章单变量的描述统计十章单变量的描述统计桃箱倚引翟额钉壕翅恃亿耳革赌夹坑驳陶减适靶犯谢澳洞芬助京攫模酵售十章单变量的描述统计十章单变量的描述统计

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号