资单变量分析

上传人:jiups****uk12 文档编号:44688685 上传时间:2018-06-14 格式:PPT 页数:58 大小:361.50KB
返回 下载 相关 举报
资单变量分析_第1页
第1页 / 共58页
资单变量分析_第2页
第2页 / 共58页
资单变量分析_第3页
第3页 / 共58页
资单变量分析_第4页
第4页 / 共58页
资单变量分析_第5页
第5页 / 共58页
点击查看更多>>
资源描述

《资单变量分析》由会员分享,可在线阅读,更多相关《资单变量分析(58页珍藏版)》请在金锄头文库上搜索。

1、第九章 资料的统计分析w知识点w1、频数分布、频率分布的含义与区别;w2、平均数、众数、中位数的含义与计算;w3、全距、标准差、异众比率、四分位差和离 散系数的含义与计算;w4、区间估计的含义与计算;w5、假设检验的含义与总体均值的假设检验。第一节单变量描述w1,频数与频率分布w频数分布:一组数据取不同值的个案的次数 分布情况 p196w频率分布:一组数据中不同取值的频数相对 总数的比率分布情况。w例子 wP197 w工人 4 20% w干部 6 30% w教师 3 15% w商人 5 25% w农民 2 10% w合计 20 100% w例子:年龄分布:20,19,18,19,18,20 ,

2、21,17,18,18,19,19,20,19,19 ,17,18,20,19,19,21,21,19,20 ,19w2,集中趋势w平均数w简单平均w频数平均 :p198w分组平均:x= (上限+下限)/2w众数:频数最大的数w中位数:大小排列后的中间数(n+1)/2w奇数个单位时:中间的数w偶数个单位时:中间两个数的和的一半。w分组时:P201w问题:w平均数能否反映实际的情况?w那一个数比较真实反映实际情况?w今年统计全国80%的员工工资在平均数以下 。w3,离散趋势w用一特别数值表示的数据之间的离散程度。w如考试分数w中文系 78,79,80,81,82 w数学系 65,72,80,88

3、,95w英语系 35,78,89,98,100w平均数都是80w1,全距,也叫极差w中文系 82-78=4w数学系 95-65=30w英语系 100-35=65w缺点:受两极影响大,有时不具实际意义w2,标准差w中文系 1.41,数学系10.8,英语系23.8w所以中文系的成绩最具代表性。w3,异众化率wVR=(n-fmo)/n n为非众数次数,fmo为众数 次数w4,四分位差w去掉前后各1/4,中间两组数据的差w例子 w11人年龄: 17,18,18,19,19,19,20 ,20,21,21,22,22,求四分位差w前1/4位置:(n+1)/4=3,为第三个数:18w后1/4位置:3(n+

4、1)/4=9,为第九个数:21w全距=21-18=3w5,离散系数:coefficient Of variationw标准差与平均值的比。wCV=S/X meanw用于比较差异的大小。P205,例子8.第二节 统计分组w统计分组的意义 w根据统计研究任务的要求和现象的内在特点,把统计总体按 照某一标志划分为若干性质不同又有联系的几部分,称为统 计分组。统计分组可以按分组的任务和作用、分组标志的多 少以及分组标志的性质等方面进行分类。 w统计分组的种类 w统计分组按其任务和作用不同,分为类型分组、结构分组和 分析分组。进行这些分组的目的,分别是划分社会经济类型 、研究同类总体的结构和分析被研究总

5、体诸标志之间的联系 和依存关系。 w例如我国1994年和1995年国内生产总值按三次产业来分组 :w现在举例说明变量数列编制的过程。例如根据抽样 调查,1995年某城镇50户居民家庭平均每人每月生 活费收入的资料如下: w322 294 273 237 398 327 298 276 246 311 w 240 275 296 324 382 229 264 288 235 271 w291 319 360 226 262 286 309 352 337 222 260 w284 304 343 217 259 283 303 200 253 281 301 w329 212 257 281

6、303 332w将这些数字从小到大排列起来:w200 212 217 222 226 229 235 237 240 246 253 257 259 260 262 264 271 273 275 276 281 281 281 283 284 286 288 291 294 296 298 301 303 304 309 311 319 322 324 327 329 332 337 343 352 355 360 367 382 398w计算全距。398-200=198w根据这50户居民家庭人均月生活费收入序列 化后所呈现出一定规律性的认识,参照上面 所说一系列分组方法的原理,我们假定把变

7、 动全距分为8个相等的组距,则组距为 198/8=24.75元,化整为25元。这里第一组的 下限应为200元,于是上下限化整为200 225元,225250元。分组情况见下表 :w分组的频数与频率 w变量数列中各组单位数表示我们所要考察的标志值 在各组中出现的次数,所以称为次数或频数。各组 次数占总次数的比重称为频率。频数与频率作为分 配数列的要素有着重要的意义。在变量数列中,标 志值构成的数列表示标志值变动幅度,而频数构成 的数列中表示相应标志值的作用程度。频数越大则 该组的标志值对于全体标志水平所起的作用也就越 大,反之,作用越小。因此在整理分析的时候,我 们不但要注意各组标志值的变动范围

8、,而且,也要 注意各组标志值的作用大小,即频数的大小。 w在研究频数和频率分布的时候,我们常常还 需要编制累计频数数列和累计频率数列。其 方法是首先列出各组的组限,然后依次累计 到本组为止的各组频数,求得累计频数。将 累计频数除以频数总和即为累计频率。w次数分布的主要类型w各种统计总体带有不同的次数分布,形成不同的类 型分布特征。主要有四种类型:钟型分布、U型分 布、J型分布和洛伦茨分布。(一)钟型分布:钟型 分布的特征是两头小,中间大,即靠近中间的变量 值分布的次数多,靠近两边的变量值分布的次数少 。类似一口大钟。社会经济现象中许多变量分布呈 现为正态分布或接近正态分布。例如,居民家庭人 均

9、月生活费收人、商品市场价格的分布等等。分布图wU形图wU型分布例子:人口死亡现象按年龄分布便是如此 。wJ型分布:在社会经济现象中,一些统计总体分布曲 线呈J型。例如,投资按利润率大小分布,人口总体 按年龄大小的分布等。w洛伦兹分布:洛伦兹曲线专门用以检定收入分配的 平等程度。洛伦兹曲线拓展可运用于其他社会经济 现象,研究总体各单位标志分布集中状况或平均性 。例如,测定城市人口的地域集中状况的分布。w洛伦兹曲线w将一国人口按收入由低到高 排队,然后考虑收入最低的 任意百分比人口所得到的收 入百分比。将这样的人口累 计百分比和收入累计百分比 的对应关系描绘在图形上, 即得到洛伦兹曲线。图中横 轴

10、OH表示人口(按收入由 低到高分组)的累积百分比 ,纵轴OM表示收入的累积 百分比,弧线OL为洛伦兹 曲线。 第三节 区间估计与检验w一,区间估计见第四章 抽样调查w在样本容量 不小于30时,总 体均值的区间估计为 w w总体成数的区间估计为 w二,假设检验 w它的基本思想可以用小概率原理来解释。所谓小概 率原理,就是认为小概率事件在一次试验中是几乎 不可能发生的。也就是说,对总体的某个假设是真 实的,那么不利于或不能支持这一假设的事件A在 一次试验中是几乎不可能发一的;要是在一次试验 中事件A竟然发生了,我们就有理由怀疑这一假设 的真实性,拒绝这一假设。 w w1、提出检验假设(又称无效假设

11、,符号是H0)和备择假 设(符号是H1)。 wH0:样本与总体或样本与样本间的差异是由抽样误差引起的 ; H1:样本与总体或样本与样本间存在本质差异; 预先设定的检验水准为0.05;当检验假设为真,但被错 误地拒绝的概率,记作,通常取=0.05或=0.01。 w 2、选定统计方法,由样本观察值按相应的公式计算出 统计量的大小,如X2值、t值等。根据资料的类型和特点, w可分别选用Z检验,T检验,秩和检验和卡方检验等。 w w 3、根据统计量的大小及其分布确定检验假 设成立的可能性P的大小并判断结果。若P ,结论为按所取水准不显著,不拒绝H0, 即认为差别很可能是由于抽样误差造成的, 在统计上不

12、成立;如果P,结论为按所取水 准显著,拒绝H0,接受H1,则认为此差别不 大可能仅由抽样误差所致,很可能是实验因 素不同造成的,故在统计上成立。P值的大小 一般可通过查阅相应的界值表得到。 w补充: wt检验是用小样本检验总体参数,特点是在均方差不知道的情况 下,可以检验样本平均数的显著性,分为单侧检验与双侧检验 。当为双样本检验时,在两样本t检验中要用到F检验。 w从两研究总体中随机抽取样本,要对这两个样本进行比较的时 候,首先要判断两总体方差是否相同,即方差齐性。若两总体 方差相等,则直接用t检验,若不等,可采用t检验或变量变换 或秩和检验等方法。 w wZ检验是一般用于大样本(即样本容量

13、大于30)平均值差异性检验 的方法。 w 上面所述的检验都是基于样本来自正态总体的假设,在实 际工作中,有时并不明确知道样本是否来自正态总体,这就为 假设检验带来难度。非参数检验方法,对样本是否来自正态总 体不做严格的限制,而且计算简单。统计工具箱提供了符号检 验和秩和检验两种非参数检验方法。 w例如: w某公司想从国外引进一种自动加工装置。这 种装置的工作温度X服从正态分布(,52),厂 方说它的平均工作温度是80度。从该装置试 运转中随机测试16次,得到的平均工作温度 是83度。该公司考虑,样本结果与厂方所说 的是否有显著差异?厂方的说法是否可以接 受? w可以提出两个假设:一个称为原假设

14、或零假设,记 为H0:=80(度);另一个称为备择假设或对立 假设,记为H1 :80(度)这样,上述假设检验 问题可以表示为:H0:=80 H1:80 原假设与备择假设相互对立,两者有且只有一个 正确,备择假设的含义是,一旦否定原假设H0,备 择假设H1备你选择。所谓假设检验问题就是要判断 原假设H0是否正确,决定接受还是拒绝原假设,若 拒绝原假设,就接受备择假设。 w由于样本具有随机性,因此,根据样本作出 判断就有可能犯两类错误,一类错误是原假 设是正确的,按检验规则却拒绝了原假设, 这类错误称为弃真错误或第 I 类错误,其发 生的概率记为 ;另一类错误是,原假设是 不正确的而按检验规则接受

15、了原假设,这类 错误称为取伪错误或第类错误,其发生的 概率记为。 w当|Z|临界值 时,拒绝原假设H0;当|Z|1.96 也即统计量Z值落在拒绝域,由此可以认为 这种装置的实际平均工作温度与厂方说的有 显著差异,故拒绝原假设H0。 w课本上的例子w上月学生平均210元,本月100名学生平均, 220元,标准差15元,问这个月平均收入是 否有变化。w解 建立假设 H0 m=210, H1 m210wZ=220-210/15/100 =6.671.96w拒绝假设H0,拒绝原假设,接受对立假设,w即平均收入有区别。w原理:wgoogle:假设检验whttp:/ E8%AE%BE%E6%A3%80%E9%AA%8C第四节 相关分析w相关的意义和种类w一、相关分析的意义w统计分析的一项重要课题是,根据辩证唯物主义和 历史唯物主义关于事物普遍联系和相互作用的原理 来进行社会现象相互联系的分析研究。w可以列举许多关于社会生活相互依存、相互制约、 相互影响的例子。例如,企业规模和经营费用的关 系、工资增长和劳动生产率的关系、家庭收入水平 和支出的关系,大学生消费与家庭收入的关系。 。w(一)两变量是不是存在关系, 关系的密切 程度如何?例如家庭的支出是否和它的收入 水平有

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号