数据分布特征的测度

上传人:汽*** 文档编号:500310276 上传时间:2023-04-07 格式:DOCX 页数:8 大小:30.97KB
返回 下载 相关 举报
数据分布特征的测度_第1页
第1页 / 共8页
数据分布特征的测度_第2页
第2页 / 共8页
数据分布特征的测度_第3页
第3页 / 共8页
数据分布特征的测度_第4页
第4页 / 共8页
数据分布特征的测度_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《数据分布特征的测度》由会员分享,可在线阅读,更多相关《数据分布特征的测度(8页珍藏版)》请在金锄头文库上搜索。

1、第3章数据分布特征的测度(见1/R76第4章)*度量集中趋势的指标众数、中位数、算术平均数(加权平均)、几何平均数.集中趋势*度量离散趋势或变异性的指标异众比、全距(极差)、标准差、方差、变异(离差)系数离中趋势3.1分类变量数据度量购买商品时的支付方式:现金,信用卡,支票,这些属于分类变量集中趋势众数(mode) M (见P.76)一组数据中出现次数最多的变量值,适合于数据量较多时使用不受极端值的影响一组数据可能没有众数或有几个众数主要用于分类数据,也可用于顺序数据和数值型数据离散趋势 异众比Vr(见P.85)异众比Vr= 1 fm / Eq 其中:变量值的总频数 fm众数的频数P.76 例

2、 4.1例3.1调查了某商场一个月内顾客购买商品时支付方式,获得的资料是:720人用现 金支付、267人用信用卡支付、13人用支票支付。众数是什么?异众比是多少?众数MO =现金异众比Vr= 1 fm / Efi其中:变量值的总频数=1- 720/720+267+13福众数的频数=1- 720/1000=1- 0.72=0.28异众比越大,说明非众数的频数占总频数的比重越大,众数的代表性越差; 反之,众数的代表性越好。3.2顺序变量数据度量对某项改革的民意态度:赞成,中立,反对,属于顺序变量集中趋势众数、中位数(median)Me见P.77-79众数 求法与分类变量相同.例4.2中位数(med

3、ian) Me*排序后处于中间位置上的变量值*不受极端值的影响*主要用于顺序数据也可用于数值型数据。中位数位置的确定顺序(分类)数据-中位数位置=n / 2n为偶数中位数位置=(n + 1) / 2n为奇数见P.78例4.4离散趋势异众比例3.2.1某房地产商*商品房户型销售(单项分组/顺序数据)资料如下表:户型类别户/频数(户)百分比(%)累计户/频数(户)百分比(%)二房一厅一卫248248三房一厅一卫1083613244三房一厅二卫933122575三房二厅二卫451527090四房二厅一卫3010300100合计300100商品房户型是何类型数据?众数、解中位数位置=n / 2 = 3

4、00/2 = 150为“三房一厅二卫”中位数Me =三房一厅二卫。众数MO为“三房一厅一卫”异众比描述上述销售户型的离散情况:Vr = 1 fm / f = 1 (108 / 300) = 192 / 300 = 0.64即售出的户型中三虏一厅一卫占36%,其它售出的户型占64%。例3.2.2某班组180名工人生产零件数资(单项分组/顺序数据)如下表:按日产量分组(件/日、人)工人人/频数累计人/频数向上累计向下累计2501010180300203017043030601505505011012075040150708003018030合计180解中位数位置=n / 2 = 180/2 = 9

5、0位,为“550 (件/日、人)”中位数Me为550 (件/日、人)众数MO为550 (件/日、人)异众比描述每人每日日产量的离散情况:Vr = 1 fm / Ef. = 1 (50 / 180) = 13 / 18 = 0.72 即550 (件/日、人)占28%,其它的占72%。3.3数值变量数据度量工资、年令、身高、体重、长度、温度、,属于数值变量3,3,1集中趋势度量-众数、中位数、算术平均数(加权平均)、几何平均数.众数 见 P.77例 4.3中位数*未分组数值数据中位数位置的确定:中位数位置=(n + 1)/ 2n为数据的个数例3.3.1有9个观察数值8, 5, 4, 9, 5, 1

6、1, 6, 5, 8求中位数。解n = 9 ,从小到大排序:4, 5, 5, 5, 6, 8, 8, 9, 11位置:1, 2, 3, 4, 5, 6 , 7 ,8, 9t中位数位置中位数位置=(n + 1) / 2 = ( 9+1) /2 = 5 (位);中位数Me = 6例3.3.2有10个家庭的人均月收入数据解n =:10排序:660750 780850 960 1080 1250 1500 16302000位置:12345678910t中位数位置中位数位置=(n + 1) / 2 = (10+1) /2 = 5.5 (位)中位数 Me = ( 960 + 1080) /2 = 1020

7、*组距分组数值数据中位数、众数的确定:略(参见2/P.29)算术平均数 见P.80-P.82简单平均数X = x /n.平均数易受极端值影响,看下面的例子:例 3.3.3职位实际年收入X.(元)1平均年收入一x(元)(去掉最高收入后) 截尾平均年收入(元)财务部经理6000011100057000市场部经理325000人事部经理45000研发部经理70000生产部经理55000年平均工资X = Z X/n =(60000+325000+45000+70000+55000)/5 = 111000 (元)i五位部门经理的年平均工资为111000元,这与多数部门经理的实际年收入相差甚 远。这是因为市

8、场部经理的年收入特别高(极值)。去掉市场部经理年收入后,其他四 个部门经理的平均年收入为57000元,这与多数部门经理的实际年收入接近。因此,在歌手演唱、运动员跳水等比赛中,当多位评分员给出各自的评分后,要去掉 一个最高分和去掉一个最低分再计算平均分,通常把这样计算的平均值称为截尾平均值。例3.3.4因为个人电脑的普及,成千上万的美国人早晨起床后在家中办公。下面是在家 中办公人士的年龄数据的样本。22 58 24 50 29 52 57 31 30 41 44 40 46 29 31 3732 44 49 291)计算平均数和众数平均数X = Z Xi/n = (22+58+24+44+49+

9、29) /20 = 38.75众数MO = 292)所有成年人总体年龄的中位数是35.1岁(美国人口调查局,1997年11月日). 使用上述数据的中位数年龄,评述在家工作的人是否比所有成年人总体更 年轻.解:22 24 29 29 29 30 31 31 32 37 40 41 44 44 46 49 50 52 57 58 t中位数位置中位数 Me = (37+40)/2 = 38.5答:在家工作的人不比所有成年人总体更年轻.练习题:美国广告代理协会记录了黄金时段电视节目每半小时无节目的分钟数的数据 (美国新闻与世界报道,1992年4月13日).6.06.65.87.06.36.27.25.

10、76.47.06.56.26.06.57.27.37.66.86.06.21)计算平均数和中位数平均数X =Z Xi/n = (6.0+6.6+5.8+6.8+6.0+6.2)/20 = 6.5252)利用样本的平均数,计算观看黄金时段广告、促销和宣传等所花时间的比 例。观看节目本身所花时间的比例是多少?观看黄金时段广告所花时间的比例=6.525/30 = 0.2175=21.75%观看节目本身所花时间的比例=100% 21.75% = 78.25%加权平均数例3.3.4比特啤酒公司员工的周平均工资。人数f周平均工资X.(美元)管理人员56700 1行政、技术人员 工人130282600450

11、合计 Z n =468X = Z Xf/Z f = Xf/n (= E X f/n ) i i ii ii i=(700X56 +600X130+450X 282)/468=521.58 (元/周)分组数列计算平均值的方法例3.3.5对软件行业的技术人员抽样调查,问卷提问:今年以来您个人月均收入是多少?这样单刀直入式的提问会引起被调查人的反感而拒绝回答。但给出大约的收入范围:1, 3000 元以下2, 3000-3999 元3, 4000-4999 元4, 5000-6999 元5, 7000-9999 元6, 10000-19999 元 7, 20000 元以上就可能得到被调查人员的回答。在

12、整理调查资料时,为了计算该行业技术人员的月均工资水平,就要用到分组数列计算平均值的方法。工资分组组中值Mi频数fi13000以下2500423000- 39993500534000499945006450006999600075700099998500461000019999150003720000以上250001合 计Zn = 30X = Z Mifi/Z fi =Z Mifi/n=(2500x4+3500x5+4500x6+6000x7+8500x4+15000x3+25000x1)/30=200500/30=6883.33 (元)因为组中值近似为该组范围内人员工资的平均工资,因此,用组中

13、值算出的只是近 似的平均值。*众数!0、中位数Me、平均数的特点:众数_是一组数据中出现频数最多的那个数据,它是一种位置代表值不受极端值 的影响众数缺点是具有不唯一性。中位数-是指在一组按大小排列的数据中间位置上的那个数据,它是一组数据中间 位置的代表值不受极端值的影响。平均数是就数值型数据计算的,它利用了全部数据信息(算术平均数),但平均有一 个主要缺点,是它对极端值十分敏感;易受极端值的影响。3.3.2离散趋势异众比Vr、极差(全距)R、标准差。、方差。2 (P. 86P.90)离散(变异)系数v = a /p (见1/P.92P.93) a例2,500家美国公司1993年底的平均资产为1

14、12. 7亿(美元),标准差为27. 8 亿(美元);这些公司的平均价格收益比为31,标准差为8。试将这些公司1993 年底的资产差异与这些公司的价格收益比的差异作比较。资产的 v =a /p = 27.8/112.7 = 0.2466 a价格收益比的v =a /p = 8/31 = 0.258 a答:2500家公司价格收益比的差异大于公司资产的差异.思考题:1)某鞋厂为了制定生产计划,调查了 100个成年女性穿鞋的尺码,数据如下:尺码21.52222.52323.52424.52525.526人数361018281510631 计算这个尺码数据集的平均数(只需列出算式,不用计算数值) 尺码数据可看成分类数据,试求其中位数,众数、极差、异众比

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号