统计建模与r软件-第一讲-(2017)

上传人:F****n 文档编号:88225817 上传时间:2019-04-21 格式:PPT 页数:49 大小:1.45MB
返回 下载 相关 举报
统计建模与r软件-第一讲-(2017)_第1页
第1页 / 共49页
统计建模与r软件-第一讲-(2017)_第2页
第2页 / 共49页
统计建模与r软件-第一讲-(2017)_第3页
第3页 / 共49页
统计建模与r软件-第一讲-(2017)_第4页
第4页 / 共49页
统计建模与r软件-第一讲-(2017)_第5页
第5页 / 共49页
点击查看更多>>
资源描述

《统计建模与r软件-第一讲-(2017)》由会员分享,可在线阅读,更多相关《统计建模与r软件-第一讲-(2017)(49页珍藏版)》请在金锄头文库上搜索。

1、,统计建模与R软件 郭广报 统计计算,课程意义,统计学的目的:解释数据! 统计计算的关键是,拥有自己的code 一些特殊研究机构: 阿里研究院 百度研究院 腾讯研究院 光启研究院,2,课程教材和参考书目, ,薛毅,陈立萍.统计建模与R软件.清华大学出版社, 2007 Kabacoff著,高涛,肖楠等译. R语言实战(R in Action:Data analysis and graphics with R).人民邮 电出版社,2013 何晓群.多元统计分析(第三版).中国人民大学出版 社,2012,课程教材和资料, ,吴喜之.统计学-从数据到结论(第4版).中国统计 出版社,2013 吴喜之.

2、复杂数据统计方法基于R的应用.中国人 民大学出版社,2012,统计之都http:/cos.name/,5,经管之家,6,课程内容与进度,序号 1 2 3 4 5 6 7 8 9,内容 统计建模概论 R软件的使用 数据描述性分析 参数估计 假设检验 回归分析 方差分析 应用多元分析 计算机模拟 7,第一讲 概论, ,统计建模的概念及特点 统计建模的步骤 统计建模常用软件 统计建模大赛,一、统计建模的概念及特点,统计学:收集、分析、展示和解释数据的科学。 统计建模:以计算机统计分析软件为工具,利用各 种统计分析方法对批量数据建立统计模型和探索 处理的过程,用于揭示数据背后的因素,诠释社 会经济现象

3、,或对经济和社会发展做出预测或判 断。,中国统计教育学会,统计建模的意义,随着计算机和网络技术的发展,我们面对着 数据和信息爆炸的挑战,如何迅速有效地将数据 提升为信息、知识和智能,是统计工作者面临的 重要课 题。,统计建模将统计方法、计算机技术完美结合,,带动以数据分析为导向的统计思维,发现和挖掘数 据背后 的规律,为经济社会的发展提供更好更多的 统计信息。,统计建模的特点, ,1. 模型只能是对客观世界的一种近似,是现实的 简单化或理想化。统计建模的宗旨,就是设法建 立 “有用的” 模型,而不是所谓“绝对正确的 ”模型。 Box(1976) “有用的”模型能抓住并凸显现象中与分析目的 最相

4、关之主要特征,因此统计建模的成功与对主 题领域的了解密切相关。 例如:边际消费倾向(或乘法-加法模型) Ct yt,统计建模的特点, ,2. 建模者应根据目的来寻找合适的数据和建模方 法 。 数据:数据的来源;数据的真实性;数据所含信 息;数据是否适合建模。 方法:同一个问题,可采用多种方法,也可能需 要多种方法。 一个好的建模(统计学实证文章)的三要素:, ,idea data model,统计建模的特点, ,3.统计建模是一个学习与实践的过程 统计学:统计学基础、多元统计分析、非参数统 计、贝叶斯统计 计量经济学:时间序列、面板数据、微观计量、 非参数 时间序列分析:一元、多元、波动建模、

5、非线性 专业领域背景知识 统计分析软件 :Matlab、R、SPSS、SAS,统计建模的注意事项, ,避免只用一种方法(未比较其他模型和交叉验证), 应该避免没有根据或比较地任意假定模型形式。 不要过度夸大一个模型的功能,即使是诺贝尔经济 奖获得者也无法预测出任何一次经济危机? 任何一个现成模型必须得经受最新数据的考验,否 则必须被替代或修改:例如,线性非线性;一 元多元;水平二阶矩偏度和峰度 经验:模仿权威文献,适当引入自己变量!,统计的本质,观测/实验 数据,理论/假说 /模型,p2,明确问题,数据收集,数据预处理,撰写论文 结果分析 模型检验 模型估计 模型构建,二、统计建模的步骤,1.

6、明确问题, ,许多数理统计杂志喜欢发表没有任何数据背景的 有关数学模型的文章; 许多统计毕业生只会推导和证明各种模型,却不 擅长处理真实的问题和数据; 许多人面对着有限样本,也假装是大样本,并且 不经验证,据此得到结论; 一些人不从数据出发,在学习或者构建了一个新 模型后,就生搬硬套,寻找“适合”的数据来“ 证明”自己的模型有意义。,长假期间高速免费?节假日火车票免费?火 车梯形退票费问题;高铁票价问题;小微企业相 继倒闭;沿海民工荒问题;富二代问题;二胎问 题;企业税负减免问题;人民币贬值问题;收入 差距扩大问题;大学排行榜问题,明确问题:以问题和数据为导向,明确问题:以问题和数据为导向,可

7、以搜集哪些变量? 哪些是控制变量?,哪些是无法掌控的变量?,哪些是需要重点研究的变量? 适合构建什么模型?,模型结果与理论是否吻合?,预测精度怎样?未来的变化趋势怎样? 有何政策含义?,统计建模已经帮这个世界解决许多真实且实际 的问题(农业、医学、遗传、工业、商业等)。 各个领域都靠统计解决许多问题,所以统计是 问题导向,人们在“没有标准答案的问题”中寻,求近似可靠稳定的模型提供解决方案!,明确问题:以问题和数据为导向,2.数据收集, ,一手数据:调查、实验观察 二手数据:书籍、网络、年鉴 基准数据 统计建模时,一定要写清数据来源!,数据收集,1.政府统计数据, ,统计局网站或年鉴 国家各部委

8、,例如人民银行、国税总局、商务部等,2.国际组织, ,世界银行世界发展指数数据库 国际货币基金组织IMFIFS 数据库 世界贸易组织WTO贸易统计年鉴 国际清算银行、亚洲开发银行、泛美开发银行、联合国 世界粮农组织、联合国环境署、联合国教科文组织等,数据收集,3.权威商业机构统计数据库, ,全球银行、金融机构信息库BvD 全球市场信息数据库GMID 亚洲经济数据库(CEIC ASIA) 英国路透(Reuters)数据库 中经网统计信息数据库,4.非政府组织的抽样调查数据:大学、科研院所组织 的调查统计,美国北卡莱罗纳大学和中国疾病控制与预防中心联合主 办的 “中国健康与营养调查(CHNS),高

9、校常用数据库, ,1.国家统计局官网 2.中经网统计数据库 3.国研网统计数据库 4.CCER统计数据库 5.Wind数据库 6.BvD数据库,如果有些数据库找不到,请与其它高校的 同学或者朋友联系,或者国外同学联系,国家统计局,28,国内常用微观数据库,1. CHIP数据,中国社会科学院经济研究所收入分配课题组(李实、赵人 伟老师主持,福特基金会赞助)于1988年、1995年和 2002年,进行的全国调查中的中国农村和城市居民家庭 收入分配调查得到的。 1995年的调查覆盖19个省(市、自治区),调查了6931户 城镇家庭和7998户农村家庭,分别涉及21696位城镇居民 和34739位农村

10、居民; 2002年的调查覆盖22个省(市、自治区),调查了6835户 城镇家庭和9200户农村家庭,分别涉及20632位城镇居民 和37969位农村居民。,国内常用微观数据库, ,2. CHNS(中国健康与营养调查) 3.CHARLS(中国健康与养老追踪调查) http:/ 4.CFPS(中国家庭动态调查):向北京大学全校 师生公开发布。 5.CHFS(China Health and Fertility Survey ) 这些通常需要先注册,通过邮件获得密码、 ID之类的才能继续下载,所以可能需要点耐心。 其中CFPS还需要寄信函到北京才能取得密码和 ID。 注意保密!禁止传播!,3.数据预

11、处理, ,缺失值(例如,一月份的工业增加值数据) 异常值(例如,国税数据某直辖市为负数) 不一致(例如,名义值实际值、季节调整、人 民币美元转换、时间长度不一致等) 这些工作很可能非常费时而且极其琐碎,但必 须去做,否则后续的分析是不可能的。,数据缺失怎么办?, ,删除 用同一变量其他值的均值或中位数填补 在各个变量之间建立模型(比如回归模型,最近 邻方法等)来填补。 R包:missForest。专门用于填补缺失值。采用 随机森林的方法,同时自动填补定量变量和分 类变量。,4. 模型构建, ,第一步:探索性分析。利用图形(例如散点 图)、各种统计量(均值、标准差、最大值、 最小值、负值等)、或

12、者稍微复杂的探索方法 来查看数据的关联性、线性性、异方差性、多 重共线性、聚类特征、分布形状等。 第二步:寻找适合的模型,例如,统计模型、 计量经济模型、时间序列模型、多元统计分析。,当 代 计 量 经 济 模 型 体 系,单位根检验,ARIMA(时间序列)模型,SARIMA(季节时间序列)模型,PANEL(面板数据)模型、空间计量模型,DS(离散选择)模型、有序响应、计数模型 LDV(受限因变量)模型(删失、截断模型),线性时间序列,时 间 序 列 模 型 回 归 模 型,单 序,列 模 型 向 量 序 列 模 型,时间序列的加法、乘法模型,X12 季节调整,组合模型,截面数据回归 蒙特卡罗

13、模拟技术,非线性时间序列 波动模型 单位根检验 时间序列回归,GAR(广义自回归)、BL(双线性)模型 TAR、STAR(门限自回归、平滑转移)模型 ARCH、GARCH(自回归条件异方差)模型 SV(随机波动)模型 ACD、SCD(自回归、随机条件久期)模型 研究 VAR、VEC(向量自回归、误差修正)模型 单方程(线性、可线性化非线性)回归模型 联立方程模型(结构、简化型、递归模型) 分位数回归模型 单位根检验, ,各种统计方法层出不穷,学习永无止境,怎么 办? (基本思想) 针对不同类型的数据,如何选取合适的模型? 遇到没学过的模型,怎么办? (基本类型) 谷歌和百度!论坛或者QQ群!,

14、5.模型估计,不同的模型有不同的估计方法和检验方法。常见,的模型估计方法包括: 最小二乘(OLS)法, 极大似然估计(MLE)法 广义矩(GMM)法 分位数回归方法 贝叶斯方法 (与经验的结合),6.模型检验 各种检验准则:, ,经济意义检验:定性检验 统计学检验:t检验、F检验、拟合优度检验 计量经济学检验:异方差、自相关、多重共线 性等检验 预测精度检验,比较模型的标准, ,算法模型交叉验证(cross validation):拿一 部分数据作为训练集(training set),得到模型, 再用另一部分数据(称为测试集,testing set)来看 误差是多少。有时需要进行k折交叉验证(

15、k-fold cross validation),即把数据分成k份,每次拿k- 1份作为训练集,用剩下的一份作为测试集,重 复k次,得到k个误差作出平均,以避免仅用一 个测试集可能出现的偏差。 显然,交叉验证的方法也适用于传统模型之间 或者在传统模型和算法模型之间的比较。, ,选择模型不是最终目的,最终目的是解释模型 所产生的结果,而结果必须是应用领域的结果, 必须有实际意义。 仅仅用统计术语说某个模型较好、某个变量显 著之类的话是不够的。 例如,恩格尔定律、边际消费倾向。,7.结果分析,三、常用统计建模软件, ,统计软件的种类很多。有些功能齐全,有些价 格便宜;有些容易操作,有些需要更多的实践 才能掌握。还有些是专门的软件,只处理某一 类统计问题。网上可以获得的统计或者计量软 件起码有多达几百种。面对太多的选择往往给 决策带来困难。这里介绍最常见的几种。 SPSS、EXCEL、SAS、Eviews、R语言、 Matlab、Statistics,统计软件,统计软件的种类很多。差

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号