数据模型与决策2012-1

上传人:mg****85 文档编号:49886065 上传时间:2018-08-04 格式:PPT 页数:41 大小:950.50KB
返回 下载 相关 举报
数据模型与决策2012-1_第1页
第1页 / 共41页
数据模型与决策2012-1_第2页
第2页 / 共41页
数据模型与决策2012-1_第3页
第3页 / 共41页
数据模型与决策2012-1_第4页
第4页 / 共41页
数据模型与决策2012-1_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《数据模型与决策2012-1》由会员分享,可在线阅读,更多相关《数据模型与决策2012-1(41页珍藏版)》请在金锄头文库上搜索。

1、*数据、模型与决策数据、模型与决策濮晓龙濮晓龙*华东师范大学金融与统计学院 http:/ http:/ 手机:13681930388*教材:数据、模型与决策 简明教程 作者:王静龙、梁小筠、王黎明 出版社:复旦大学 出版社 (2004) *关于统计学的定义很多,英国是现统计学的发源 地。英国不列颠百科全书上把统计学定义为收 集和分析数据的艺术。当然还有其它各种定义,大同小异,如:统计学 是研究不确定性现象数量规律性的方法论科学。等 等。统计是什么?*北京时间2006年6月30日晚23点,在德国世界杯的 一场1/4决赛中,东道主德国120分钟内与阿根廷战 成1比1平,最后的点球大战,德国以4比2

2、击败阿根 廷,德国门将莱曼扑出阿根廷两个点球!例1.1 难以置信?(http:/www.my4g.org/node/530)莱曼之所以表现得如此神勇,与一张柏林城堡酒 店(Schloss)的便条有非常大的关系。这张纸条是 德国守门员教练科普克在点球大战前亲手交给莱曼的 ,这张神秘的纸条犹如一张“武功秘笈”,上面到底写 了些什么呢?德国图片报的记者将这张“秘笈”公 布于众。 *有懂德文的吗?克鲁兹长距离助跑,右上角 阿亚拉注意他的射门腿,左下角 罗德里格斯大力抽射右边 坎比亚索短距离助跑,左上角*例1.2 34.7的受访者后悔上大学? (2006-08-14 : 中国青年报)2006年8月,中国

3、青年报社会调查中心与某网站联 合开展了一项调查(共有8777人参与),结果显示 ,34.7的受访者在谈到自己的大学生活时,都觉得 “后悔”。之所以会“后悔”,调查显示,51.5的人认为,自 己在大学里“没学到什么有用的东西”。调查发现,让一些人觉得“后悔”的原因,还有“念了 四年,出来还是找不到工作”(39.2)。对这份调查结果,你可有什么想法呢? *例1.3 中国美女标准大家认同吗? (http:/ 养学、色彩学和心理学等专业知识,第一次用审美的心态和一 双发现美的眼睛,系统地总结和论述了中国美女的内涵和标准 ,给出如下美女标准:你是该书观点的 支持者或是反对者 ,你想搜集证据说 明你是对的

4、,有什 么办法?*例1.4 面对浩如烟海的帐单,会计如何例行查账?有23594份运货单的运费总额需要核查,根据全面调 查,委托方应支付给受托方总费用565647元,现抽样检 查2032份(占8.61 %)运货单,经过推算认为23594份运 货单中应支付给受托方的运费总额为564968元。显然,这次受托方吃亏了,少收入679元。下次呢?长期来看,也就是平均来看,积累的误差为零。此外,抽样检查成本至多为10000元,而全面检验的 成本至少为50000元,可是要大家分担的。 *例1.5 怎么回事?下表是1976至1977年美国佛罗里达州29个地区杀人案件 中被告肤色和是否被判死刑的326个犯人的情况

5、。被告判死刑否判死刑的 比例是否白人191410.119黑人171490.102*被害人被告判死刑否 判死刑的比例 是否白人白人191320.126黑人11520.175黑人白人090.000黑人6970.058白人被判死刑的比例较高。难道美国歧视白人?如下的表是上面这张表的细分。*归纳起来,通常认为统计是用来搜集和处理数据的 ,而数据由数字组成,但并不是单纯的数字,统计从 数据中找出信息,并做出结论,需要工具,图表,计 算,判断。但要注意,数据并不总显得牢不可破,数 据从何而来非常重要;统计结论不是绝对的,但在绝 大多数场合是有用的。数据决策的依据数据!数据!数据! 我们不能做无米之炊商场选

6、址肯德基开一家新店进行的商圈研究 周边情况:周边商厦,饮食店,学校, 娱乐场所,公交站点的数量和分布等; 半径范围:从拟建的餐厅出发,朝不同 方向半分钟,1分钟,1分半钟乃至5分 钟步行路程内上述这些设施的准确位置 等; 人流量测试:在拟建的餐厅处,周一至 周日,每天按不同时段严格统计。市场调查康泰克要不要复活市场调查康泰克要不要复活数据的涵义l数据并不仅仅是数值的意思。 数据的英文名是data,它是拉 丁文datum的复数形式,其涵 义简单地说是“事实资料”。 l数据包括的既有数值型资料, 也有文字型资料。模型l模型 用图表、文字、数字、符 号、以及数学表达式等对客观现 象的描述; l模型淡

7、化甚至忽略了客观现象的 次要因素,是对它的本质核心部 分的描述。 要不要开发新产品?例:某公司正面临一个需要做两次 决策的决策问题:l第1次决策;要不要开发一个新产品。l第2次决策:如果决定开发,则工厂需 要扩建。究竟是中型扩建为好,还是大 型扩建为好。决策树模型这类需要做多次决策的决策问题 ,我们可以用决策树,按时间先 后顺序形象地将所有可能的决策 表示出来。l决策树由结点和树叉组成。决策树模型不开发新产品某公司 大型扩建开发新产品中型扩建决策树模型-不确定因素l开发和不开发新产品?中型扩建 还是大型扩建为好?市场对该新 产品需求量究竟是高、中还是低 ,是这个决策问题的不确定的因 素。决策树

8、模型市场需求高不开发新产品市场需求中某公司 大型扩建市场需求低 开发新产品 市场需求高中型扩建 市场需求中市场需求低六个西格玛(SIGMA)理论 1998年3月10日解放日报的“管理新知” 栏目中有一篇文章,其标题为:全球 着名的美国通用电气(GE)公司上上下 下掀起了一股学习管理理论的热潮, 这一切皆因董事长韦尔奇而起:六个 西格玛(SIGMA)理论:杜绝误差。 杜绝误差:每百万次操作中至多只有 3.4次失误。 *统计无处不在“When you analysis any topic, you are involved in statistics.”“当然并非没有统计就无法运作,但有了统 计加

9、入,可以做出更好、更精致的决策。 因此统计是无所不在的。” *数据的产生数据大体上可分为二种:已存在的数据(二手数据)和原 始数据(第一手数据)。二手数据包括公司内部数据和外部数据。如:公司内部现 有的有关商务、经济和管理等方面的资料;公司外部(包括 政府部门)现有的有关商务、经济和管理等方面的资料。每天翻开报纸或打开电视,就可以看到各种数据。比如高速 公路通车里程、物价指数、股票行情、外汇牌价、犯罪率、房 价、流行病的有关数据(确诊病例、疑似病例、死亡人数和出 院人数等等);当然还有国家统计局定期发布的各种国家经济 数据、海关发布的进出口贸易数据等等。这些数据都是二手数 据。 *获得第一手数

10、据则不象得到二手数据那么轻松,它通常需 要通过实验或调查得到。调查得到的数据也称为观测数据。调查得到数据的例子:某些在华的外资企业每年至少要花三四千万元来收集和分 析数据,他们调查其产品目前在市场中的状况和地位并确定 其竞争对手的态势;他们调查不同地区,不同阶层的民众对 其产品的认知程度和购买意愿以改进产品或推出新品种争取 新顾客;他们还收集各地方的经济交通等信息以决定如何保 住现有市场和开发新市场。市场信息数据对企业是至关重要 的。他们很舍得在这方面花钱。因为这是企业生存所必需的 ,绝不是可有可无的。*对于有些问题,比如在不同的医疗手段下某疾病的治疗结 果有什么不同、不同的肥料和土壤条件下某

11、农作物的产量有 没有区别、用什么成分可以提高某物质变成超导体的温度等 等。这种在人工干预和操作情况下收集的数据就称为实验数 据。*数据有时也称为样本。不过,并不是所有的数据都可以 称为样本的。样本总是相对总体而言的。任何一个问题都有其研究对 象,研究对象的全体称为总体。譬如,要想了解上海市民对建设沪杭磁悬浮高速列车的 观点,需要进行调查:调查对象是所有上海市民,调查目的 是希望知道市民中对这个问题的不同看法各自占有的比例。显然,不可能去调查所有的上海市民,而只能够调查一 部分,并根据这一部分的观点来了解整个上海市民的观点。 这种情况下,称所有(每个)上海市民对这个问题的观点为 一个总体,而调查

12、时问到的那部分市民的观点为该总体的一 个样本。总体和样本 *假设我们要考察股票投资者的组成情况, 比如, 股民的受教育程度,则全国几千万股民就是我们要调查了解的对象,我们称 之为总体,而每一位股民称为一个个体。一般,我们可以这样定义总体:总体就是为了某特定研究目的而连结在一起的个体的集合。在统计中总体可分为有限总体和无限总体。如果构成总体的 个体的数量是有限的,则它是一个有限总体,上面提到的几千 万股民就是一个有限总体。若构成总体的个体数量无穷多,则 它是一个无限总体。对有限总体,如果总体中包含的个体数目 很多,通常我们也将其视为无限总体,因为这样处理起来会方 便很多。*例1.6 彩电的彩色浓

13、度彩电的彩色浓度是彩电质量好坏的一个重要指标,它可用一个实数表示。二十世纪七十年代在美国销售的SONY牌彩电有两个产地:美国和日本,两地的工厂是按同一设计方案和相同的 生产线生产同一牌号SONY彩电,连使用说明书和检验合格的标准也是一样的。关于彩色浓度X的标准是:目标值为m,公差为5,即当 X在m-5,m+5内该彩电的彩色浓度合格,否则不合格。在七十年代后期,美国消费者购买日本产SONY彩电的 热情高于购买美国产SONY彩电,原因何在? *表 各等级彩电的比例(%)等级IIIIIIIV美产33.333.333.30日产68.327.14.30.3*例1.7 鱼塘估鱼为了了解鱼塘里大概有多少条鱼

14、,我们先捞出50条鱼, 将其做了标志并放回鱼塘,一天后从鱼塘里再捞出100条 鱼,发现其中8条鱼有我们做的标志,则我们可以粗略地认 为鱼塘里大概有50*100/8=625 条鱼。这里,鱼塘里所有的鱼是总体,其总体数量多少不知道,正是我们要了解的, 而捞出的100条鱼则是样本,根据样本的情况(有标志的鱼所占的比例)可以对总体的情况做出估计。这里估计的效果好不好呢?*样本质量不好的原因通常有如下几种原因:登记性误 差(低级误差);人为干扰(官出数字,数字出官-恶劣 可恶,统计法);代表性误差(代表性不强-数据正确,但它不能说明问题);设计不合理(方便样本)。样本的质量有时可对数据的质量作检查。*统

15、计软件统计软件的种类很多,如SAS,SPSS,S-plus,Statistica ,Eviews,GAUSS,MATLAB,R软件等。有些功能齐全,有 些价格便宜;有些容易操作,有些需要更多的实践才能掌握。 还有些是专门的软件,只处理某一类统计问题。面对太多的选 择往往给决策带来困难。 这里介绍下述二种软件。*Excel:它严格说来并不是统计软件,但作为数据表格软 件,必然有一定统计计算功能。而且凡是有Microsoft Office的 计算机,基本上都装有Excel。但要注意,有时在装Office时没 有装数据分析的功能,那就必须装了才行。当然,画图功能是 都具备的。对于简单分析,Excel还算方便,但随着问题的深 入,Excel就不那么“傻瓜”,需要使用函数,甚至根本没有相应 的方法了。多数专门一些的统计推断问题还需要其他专门的统 计软件来处理。Minitab:这个软件是很方便的功能强大而又齐全的软件 ,也已经“傻瓜化”,但在我国用的不如SPSS与SAS那么普遍, 目前正处于大力推广阶段。其实,对于大多数人来说,只要学会使用一种“傻瓜式”软 件,使用其他的仅仅是举一反三之劳,最多看看帮助和说明即 可。*谢谢 谢谢 ! !

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号