随机数据建模_初步分析课件

上传人:我*** 文档编号:139257828 上传时间:2020-07-20 格式:PPT 页数:71 大小:2.04MB
返回 下载 相关 举报
随机数据建模_初步分析课件_第1页
第1页 / 共71页
随机数据建模_初步分析课件_第2页
第2页 / 共71页
随机数据建模_初步分析课件_第3页
第3页 / 共71页
随机数据建模_初步分析课件_第4页
第4页 / 共71页
随机数据建模_初步分析课件_第5页
第5页 / 共71页
点击查看更多>>
资源描述

《随机数据建模_初步分析课件》由会员分享,可在线阅读,更多相关《随机数据建模_初步分析课件(71页珍藏版)》请在金锄头文库上搜索。

1、2020/7/20,1,随机数据建模,数据初步分析处理,2020/7/20,2,一、数据在模型中的重要性,建立数学模型,解决现实问题,目的,真实世界的背景不容忽视 需要收集、分析背景数据,数据作用于模型的形式:,初期:寻求变量间的关系 中期:模型参数估计 后期:模型检验,2020/7/20,3,建模案例,96年B题 :节水洗衣机 该题没有任何数据,需要查找足够多数据才能进行下一步工作,有些甚至需要通过实验获得 2004 年A题:奥运会临时超市网点设计 该题数据量非常大,需在统计分析基础上才可进行下一步工作 思考: 需要哪些以及何种形式的数据? 如何去获得数据? 怎样表达数据? 如何整理、分析数

2、据?,2020/7/20,4,其他案例,统计学中的盐(印度) 数据挖掘:超市商品选择,近年的赛题,每年几乎总有一个需要对大量数据进行处理,这也反映了科研与应用中对数据处理的需求;人才市场中较为青睐数据分析工作者。,2020/7/20,5,二、常见收集数据方法,着手建立模型时,关于数据需考虑以下问题:,1. 需要哪些以及何种形式的数据?,2.如何去获得数据? 怎样表达数据?,3. 如何对数据进行整理、分析?,获取数据方式,图书文献检索,统计机构,询问相关人员,试验、观察并记录,间接来源,直接来源,网络资源,2020/7/20,6,数据的计量与类型,定距数据 定比数据,定性数据,定量数据,例:性别

3、、种族、运动项目,例:教育程度、产品等级、满意度,例:成绩、年龄、产量,定类数据定类变量,定序数据定序变量,数字变量(离散、连续),没有真正的零点例如,温度,存在真正的零点;倍数有意义 例,身高、体重,2020/7/20,7,数据度量与信息含量Data Measurement and Information,度量尺度的信息含量由弱到强排列:,定类尺度和定序尺度用于属性数据 信息量低 定距尺度和定比尺度用于数值数据 信息量高,定类尺度定序尺度定距尺度定比尺度,2020/7/20,8,数据的来源直接来源,直接来源,普查,统计调查方式,统计报表,重点调查,典型调查,抽样调查,统计调查方法,询问法,实

4、验法,观察法,选择适合调查方式的方法,2020/7/20,9,统计数据的误差,抽样误差 由抽样随机性造成,只存在于概率抽样中。 非抽样误差 覆盖误差被调查总体范围被人为减小 无反馈误差调查回收率太低 道德误差调查人员缺乏业务培训或职业道德 被调查者误差理解有误,有意欺瞒 测量误差测量工具不准确,2020/7/20,10,总体,(学生),样本框架,(电话簿里 的学生),计划选取样本,(选定的学生),实际的,样本,覆盖面误差,抽样误差,不回答和,度量误差,统计数据的误差,2020/7/20,11,用数学模型描述现实问题,模型中参数的估计、模型的求解以及模型的合理性很大程度取决于数据的准确可信。,实

5、验数据中总存在实验误差,在建模工作的各个环节,实验误差都可能造成失之毫厘,谬之千里的失误。,2020/7/20,12,实 验 误 差,随机误差:,系统误差:,过失误差:,由一系列偶然因素引起的一类 不易控制的测量误差。,实验观察过程中服从确定性规 律的误差。,明显歪曲实验结果的误差。,无法避免,可增加试验次数,取算术平均来减小。,不能通过增加实验次数求算术平均值 来消除。但可用其他方法识别、消除。,可以识别、并加以处理。,2020/7/20,13,在实验数据中,三类实验误差常常同时错综复杂的存在着。,控制实验数据的质量,整理实验数据,消除实验误差,重要工作,2020/7/20,14,误差的处理

6、方法:,用统计检验方法检验出异常数据;,尽可能寻找产生异常点的技术上或物理上的 原因,作为处理异常值的依据。,根据经验和实际背景知识做出实验数据的检查修正,异常数据的舍弃处理。,例3 施肥效果分析,2020/7/20,15,课后小作业,问卷调查如何实施?需注意哪些问题? 尝试选择感兴趣的问题设计并进行问卷调查 可参考的问题: 学生怎样安排周末 学生如何使用奖学金 学生相互间帮助关心状况 学生对未来的规划与实施状况 ,2020/7/20,16,再次强调:收集数据需考虑以下问题,1. 需要哪些以及何种形式的数据?,2.如何去获得数据? 怎样表达数据?,3. 如何对数据进行整理、分析?,有计划地收集

7、到数据,并有效地分析整理,将使整个工作过程更加轻松,模型与结果更为可靠。,2020/7/20,17,三、数据的初步分析与整理,得到数据后,可以通过图表和数据特征分析得到初步印象或初步结论 图表分析: 频数直方图、饼图、茎叶图、箱线图、交叉表等 数据特征分析: 集中趋势、离散趋势、分布形状,2020/7/20,18,单变量定量数据的图表描述,单变量数据的图表描述,未 分 组,茎叶图,箱线图,数据图 形描述,数据整理,2020/7/20,19,定类变量,定序变量,定性变量,条形图,圆形图,2020/7/20,20,定距变量,定比变量,茎叶图,直方图,频数表,条形图,圆形图,2020/7/20,21

8、,单变量定量数据的图表描述数据整理,统计分组 根据统计研究的目的和客观现象的内在特点,按某个标志(或几个标志)把被研究的总体划分为若干个不同性质的组。 例,收集到某班所有同学的考试成绩,为了研究需要划分优、良、及格、不及格四个成绩段,每个成绩段的范围分别是85-100,70-85,60-70,0-60,将每个成绩归入到相应的组中。,2020/7/20,22,对定量数据进行分组时,需要建立频数分布表,以便更有效地显示数据的特征和分布。 频数分布表示例如下:,原始数据: 24, 26, 24, 21, 27, 27, 30, 41, 32, 38,组界,(上界+下界)/ 2,组距,组别,组中值,频

9、数, 15 且 25,20,3, 25 且 35,30,5, 35 且 45,40,2,频率,30.0,50.0,20.0,2020/7/20,23,累积频数分布表,为了统计分析的需要,有时要观察某一数值以上或某一数值以下频数或频率之和,这就需要在频数分布表基本分组的基础上绘出累积频数或累计频率。 “向下累积” 由表的上方向表的下方的频数或频率相加 “向上累积” 由表的上方向表的下方的频数或频率相加,2020/7/20,24,小于组别下限的百分数,原始数据: 24, 26, 24, 21, 27, 27, 30, 41, 32, 38,组别下界,30% + 50%,80% + 20%,组别,累

10、计,百分比,15 25,0.0,25 35,30.0,35 45,80.0,45 55,100.0,累积频数分布表实例,2020/7/20,25,数据图形描述(分组后数据),数据分组整理后的图形描述 直方图 用矩形的高度和宽度来表示频数分布 折线图 作用与直方图相似 累积频数分布图 描述累积频数或频率信息,2020/7/20,26,0,1,2,3,4,5,直 方 图,频数 或 频率,01525354555,下界,柱条接触,计数,类别,频数,15 25,3,25 35,5,35 45,2,2020/7/20,27,0,1,2,3,4,5,中点,虚拟的外推组,0102030405060,组别,频数

11、,15 25,3,25 35,5,35 45,2,计数,频数 或 频率,折 线 图,2020/7/20,28,0%,25%,50%,75%,100%,下界,虚拟的外推组,01525354555,组别,累计 %,15 25,0%,25 35,30%,35 45,80%, 45 100%,累计 %,累积折线图,2020/7/20,29,数据图形描述(未分组数据),数据未分组整理后的图形描述 茎叶图 用于直接描述未分组原始数据的探索性分析 描述数据分布形状,如数据是否集中,是否有极端值等 由茎、叶、每个茎对应叶的个数、茎的宽度这四元素组成 箱线图 用于直接描述未分组原始数据的探索性分析 描述数据的分

12、布形状,如数据是否集中,是否有极端值等 可以比较多组数据分布特征 图中包含五个点组成:样本数据的最小值、下四分位数、中位数、上四分位数、最大值,2020/7/20,30,把每一项观察分解为茎值和叶值 茎值确定组别 叶值确定频数 (计数),Xi,茎叶图,2020/7/20,31,奇异值,最大值,最小值,中位数,大于1.5 倍四分位数间距,四分位数 间距范围,箱线图,2020/7/20,32,关于箱线图,中间的黑粗线为中位数 方框为四分位间距的范围 离方框上/下界的距离超过四分位数间距1.5倍的为离群值,以 “O” 表示;超过3倍的则为极值,用“*”表示。,2020/7/20,33,单变量定性数据

13、的图表描述,频数分布表(又叫总结表) 类似于整理定量数据的频数分布表 包含: 分类的频数或频率,即指落在某一特定类中的观察值数 分类的相对频数,指某个特定类的频数除以观察值总数所得的商 累积频数分布表 类似于整理定量数据的累积频数分布表,2020/7/20,34,单变量定性数据的图表描述,条形图 类似直方图,条形图的横轴表示的是各个分类,直方图的横轴表示所分的组 饼图 通常用来描述落在各个分类中的观察值数分别在总数中所占的比率 累积频数分布图 类似于描述定量数据中的累积频率分布图 帕雷托图 变量的分类数目较多时,用帕雷托图要比条形图和饼图更能直观地显示信息。 广泛应用于过程分析和质量分析中,2

14、020/7/20,35,0,50,100,150,会计,经济,管理,水平条表示类型变量,条长表示频数或者 %,条宽的1/2 到 1 倍,相同的条宽,零点,频数,专业,也可使用百分比,条 形 图,2020/7/20,36,经济,10%,管理,25%,会计,65%,1. 表示出总量的分类 2. 是表示相对差异的有效办法 3. 角度大小 360(百分数),专业,36010% = 36,36,饼 图,2020/7/20,37,0%,33%,67%,100%,会计,管理,经济,百分数,专业,递减顺序,累积频数分布图,相同的条宽,竖直条形,条的中点,帕雷托图,2020/7/20,38,多变量定性数据的图表描述,交叉表 可检测两个定性变量的关系 同样可用来描述两个变量都是数字变量,或者一个变量是定类或定序变量,另一个是数字变量之间的关系 多重条形图 描述两个定类或定序变量间关系,2020/7/20,39,住处: CCOOCCOOC O 性别:MFFMMMFMMF (C=校内, O=校外; M=男, F=女),4 1 2 3,性别,住处,男,女,合计,校内,5,校外,5,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号