如何学习统计学,或我的学习之路

上传人:子 文档编号:43793034 上传时间:2018-06-07 格式:DOC 页数:11 大小:37KB
返回 下载 相关 举报
如何学习统计学,或我的学习之路_第1页
第1页 / 共11页
如何学习统计学,或我的学习之路_第2页
第2页 / 共11页
如何学习统计学,或我的学习之路_第3页
第3页 / 共11页
如何学习统计学,或我的学习之路_第4页
第4页 / 共11页
如何学习统计学,或我的学习之路_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《如何学习统计学,或我的学习之路》由会员分享,可在线阅读,更多相关《如何学习统计学,或我的学习之路(11页珍藏版)》请在金锄头文库上搜索。

1、如何学习统计学如何学习统计学, ,或我的学习之路或我的学习之路2009-10-20 10:11 (分类:经济学习) 如何学习统计学,或我的学习之路初学者写给初学者 可能学习和工作还有兴趣都跟统计沾些边,一些朋友和网友也问我些如何学习统计之类的问题,他们当然一样是非统计出身。结合自己的学习经历,这里一并回答了,也权当一个成长备忘录,所以这里取一个柏拉图“智者篇 ,或论正名,逻辑”式的标题。先说说自己在统计方面的学习经历,相信很多非统计出身的朋友会有共鸣。我本科在北京工商大学念经济学,先后修过三门相关的课:1. 统计学。其实应该叫做经济统计基础(很老套的学科了) ,因为除了描述性统计跟统计推断外,

2、这课还包括大量关于经济指数编制等内容。当时我是凭着一只科学计算器完成所有的作业包括考试的,想想是很土。2. 计量经济学。这是经济系学生的主干课,我们天天跟着老师演算公式。这个比较恐怖,至少截止到期末考试的当天,我还记得二元线性回归的所有推导以及最终恐龙般的公式。这门课用的是授课老师编的教材,不值得推荐。当时为了记住一元跟二元回归的公式,我找到一本好像没多少人提到的书,一个叫白砂堤津耶的日本人写的通过例题学习计量经济学 (人大出版社,2003) 。这本书就是要让人手算各种计量模型,符号系统非常简洁,让要背公式考试的我省心不少。需要提一句的是,这本小书居然还提供了邹氏检验(Chow Test)的手

3、算示例。我的第一门计量经济学课程就是这么落伍。现在想想,千般不好也有一个好处,就是让我手推跟手算过基本的线性回归模型,这些东西对我而言不再是黑箱。这门课的最后,老师介绍了一下计量经济学小软件 TSP 的用法,当时没跟着学下来。据师弟师妹反映,该老师的一位研究生教会老师使用 Eviews,以后我们的计量老师就在课堂推广 Eviews 了,福音啊。3. SPSS 与统计分析。这是一门选修课。之前为了培养对统计的兴趣,自学过些用 Excel 分析数据,选修这门 SPSS 是想让自己的工具箱更为强大。这课学得比较积极,跟老师的关系也挺好。当时学习 SPSS 还有一个动力。2003 年秋季学期我去北京大

4、学经济研究中心(CCER)旁听计量经济学。比较幸运,教员是美国刘易斯-科拉克州立大学的计量经济学教授黄少敏。他刚好在北大访问,经济系七七级出来的。黄老师在课堂上推荐 SPSS,并根据这次授课编了一本小书,叫计量经济学入门 (北大出版社,2004) 。那阵子还买了张文彤的两本 SPSS 书,大红版的SPSS 11.0 统计分析教程(基础篇和高级篇,北京希望电子出版社,2002) 。张当时是上海一个大学做医学统计的教授,在 SPSS 学习社区里很有名,现在好久没关注了。本科时就大致如此了。还跟机械系的同学修过一门 Matlab 与系统仿真,仿真我不懂,就是图跟着学习一下 Matlab,不过玩得不是

5、很熟。SPSS 很好上手,让我对数据有了不少信心。要捏着计算器面对一大堆数据,人都要疯的那种。研究生期间我在北大念软件工程,金融信息工程方向,一样要跟数据打交道的专业。先是一门信用评分模型的课,让我自学起 SAS。包括接下来一些数据挖掘应用的课程,我开始用 SAS 完成所有类似的数据分析工作。一般我们提到学 SAS 用 SAS,说的大多是 Base SAS 或者再加上 SAS/STAT,都是编程方式。现我在一家做数据挖掘与商务智能软件的公司实习,接触并学习了 SAS 产品的其他可视化模块,如 Enterprise Guider、Enterprise Miner、JMP 等等。这段时间,统计学的

6、学习,包括多元分析时间序列等,都是通过去数学系旁听和自学。期间也尝试玩过 R、S-Plus、Minitab 之类,都是图个体验,没有认真学的意思。回顾我的统计学习之旅,一个明显的特征就是统计软件一路同行。我的感受是,对于一个非统计出身的统计爱好者,不借助统计软件,几乎无法领略统计之妙你没法通过推导公式研究算法而得到乐趣。跟各种软件打了这么多交道,另一个感触就是,过分依赖工具而忽略统计直觉可能是更为危险的事。这两条平行的观点,就构成了我对以下问题的建议:一个非统计出身的人,如何学习统计?无论你从什么背景转到应用统计,通常的建议是找一本有趣的入门书,这个我觉得大多数国内引进的国外基础教材都不错,取

7、一本而且只取一本学了就是。人大出版社引进的几本厚厚的统计学教材,给商学院学生准备的,突出的是应用,都是非常好的入门读物。商学院出来的学生,有一个好处,即使他们真的不懂数理统计,也不妨碍他们娴熟地运用统计模型向客户兜售观点,赢得单子。因该说,这是应用统计学教育的成功,尽管在统计学的(有意)误用方面,他们常受指摘。这里我熟一点的是安德森的商务与经济统计和林德的商务与经济统计技术 ,也有影印版,都多次重印的经典教材。这方面我走了不少弯路。本科时拿一本学校老师编的书上课,为了考试,还看得特别仔细,每道习题都做。想在想想,当时要是用这等精神攻读安德森或者林德的书,境界就不一样啦。现在也翻他们的书,做参考

8、用,却不是以前苦读的劲头。这处女“读” ,要献给谁,真是很重要。这跟读书一样,我没有师出名门,本科在北工商念,不敢说自己比北大本科的差,只想说,如果本科在北大念,我会表现更好。同样,如果你用院编教材,要达到安德森或林德的水平,你要付出更多的努力。幸运的是,在统计学习方面,你可以一开始就把自己的努力建立在一个较高的水平上:读安德森或林德。去年年底,我翻出一本书来补自己的统计直觉,这部不推荐,是因为这书不好找了,只是个人喜欢,书也薄些,美国 G.H.维恩堡等著的数理统计初级教程 (常学将等译,太原:山西人民出版社,1986) 。这本书的扉页,有位前读者题辞(在图书馆的书乱涂乱画啊):“本书给你统计

9、学的直觉。 ”这书我续借超期再借在续借,已近一年,感受是,这书在培养直觉直观方面,真是下足了功夫。美中不足的是,这个译本没有提到这本书的原名就叫做 Statistics: An Intuitive Approach。前面我好几处提到“直觉” 。统计直觉我没资格发言,以前念经济学,隐隐约约能感觉到 economic intuition 这玩意。这东西不好说,却也能表达一二。跟大部分学科一样,经济学看着也能分成两个类型(接下来我还要强调它们不是对立的) ,一是专业期刊里充满恐龙级数学符号那种,另外就是白话散文那种。分析现实问题(不必是经济问题)时,也就相应两种思路,一是建立数学模型,二就是拿白话解

10、释,偶尔再加一个简单的图表。这两种方式,白话看似容易些,但也容易流于胡说八道,就要为学院人士所不齿。数学的技术活多些,容易出成果,好拿诺贝尔经济学奖。由白话而成巨星的,我们称之为思想家,更是难能可贵,如诺奖得主科斯,主创产权和交易成本理论的。北大出来去芝加哥大学念经济学的王勇讲了一个好故事:在中心的毕业生中,我大概是属于那种数理倾向比较严重的一类,对经济学中一个个美轮美奂的经典模型痴迷地有些“顽固不化” ,要是在自己的论文里突然发现能用上一条在实变函数课上学到的定理会兴奋地跳起来,套用 Ariel Rubinstein 教授在 2004 年国际计量经济学会主席演讲的最后一句话“这真是太美了!不

11、是么?”然而在芝大上了两年课以后,我才慢慢地更能体会到林老师在论经济学方法中提到的很多观点。在上一年级第一学期的课时,我就被深深地震动了。ECON301 的价格理论 I 课的每周作业是 Becker教授和 Murphy 教授各出一道长题,题目中用文字交待一些经济学问题或者社会现象的背景知识,从恐怖主义到健康问题,从国际贸易到贩毒和住房问题,从投资到经济增长,什么都有,然后接二连三地问一堆问题。每个周二傍晚出题,当周周五上午交作业。我有生以来第一次为完成作业而熬夜就是第二次作业的那个周四。怎样分析这些现象,怎样回答这些问题,完全由自己选择分析方法,而我总想把问题抽象成一个严格的数学模型来求解,取

12、怎么样的假设显然也得完全由自己定夺。可是经常是好不容易使建好的模型能回答第一个小问题 a,突然发现很难再用这个模型来回答第二个小问题 b,不是求不出解析解就是出现太多不合理的多重解。只好回头修改我的模型,然后不得不再另加一些技术性假设,当然需要再配上为何作如此取舍的经济学理由。如此反反复复,最终发现窗外已经发白,而自己却只能眼巴巴地望着求解问题 f 时出现的那 12 条非线性方程和 12 个未知变量,心灰意冷地继续写道“假定这个系统的解是存在的并且是唯一的,那么” 。我将近 25 页的作业发下来,10 分我只得了 3.7 分,助教的批语是我采用的是科布道格拉斯函数型的效用函数,而忽略了分析 n

13、on-homothetic 偏好这一重要情况。于是我“耿耿于怀”地去仔细对照那将近 20 页的标准答案。读完后我真的完全惊呆了:真没想到这么一个个二维平面分析图会那么厉害,所给的分析全是替代效应与收入效应的变相综合,所用的也全是诸如正常商品(normal goods)这样的通常假设,没有太“漂亮”的数学,但是在逻辑上分析的明显要比我的模型完整的多、严密的多、深入的多、也更加具有一般性。 王勇:两年后再读有感白话加逻辑,不用数学而对问题有洞见,说的大概就是“直觉”吧。当然,数学公式密布的场合,直觉也有用武之地,比如,满满一黑板你证明出了一个复杂的定理,然后你拿白话说明为什么会有这个结果,The

14、intuition behind this equation is blablabla,那直觉就相当强了。经济学直觉完毕。关于统计学直觉,我是类似这样理解的。对非统计科班出身的我们来说,这种训练可能更为重要,而且更为迫切。我们对统计学抱着非常实用的态度,无暇也无力关注大多模型定理背后的推导过程,但为了解释和理解,我们需要对它们有一个通盘的印象,其中的细节不是通过数学推导而来,但是能够用白话明确地表达出来。比如中心极限定理,一个简单的形式是独立同分布的中心极限定理,大概说,如果随机变量 X1,Xn,相互独立,服从同一分布,且具有相同的数学期望和方差,则随机变量之和 Xi的标准化变量服从标准正态分

15、布,这可以用数学精确地证明出来。我没有掌握这个推导,但我敢说我能理解这个定理,并且能够明确无误地传达出来,用白话,而不是刚才提到的数学语言。我读维恩堡数理统计初级教程 ,里面是这种处理的(下面的文字来自我做的读书笔记,而不必是该书的摘录。很多朋友可能没法看到该书,我在博客里有记)想像一个很大的箱子,装满了小纸条,可供我们无穷无尽地抽取,每张纸条上写有一个数字。为简单起见,假定只有 0、1、2 三个数字,且每个数字出现在每张纸条上的可能性都是 1/3。记住,这个箱子里的纸条如此之多,以致我们可以抽取任一数目的任一种纸条,而不必担心会改变箱中剩下的各种纸条之间的比例。箱子有一个小口,通过它,每次可

16、以释放出一张纸条。箱子还有一个洗牌装置,这种装置会把纸条洗得这样得均匀,以至当我们决定抽取一张时,每张纸条有同样的被释放出来的机会。因此,我们的观察室独立的,而且我们的样本是随机的。现在我们就来抽取等容量的随机样本,假设每个样本都包含 200 张纸条。我们一张一张地抽取 200 张纸条。比如头一张纸条上的数字是 2,第二张纸条的数字是 0,第三张纸条是 2,如此等等。假设构成这个第一份样本的 200 张纸条上的数字总和是 210,这个和成为所产生的新的分布的第一项。第二个样本的 200 张纸条上的数字之和比如是 194.对大量的样本,每个样本都包含 200 张纸条,重复这个过程。中心极限定理告诉我们,这种样本和数越来越多时,样本和的分布近似于正态分布。如何实际运用中心极限定理关于中心极限定理,对被抽取样本的那个总体没有要求任何限制。不管被抽取样本的那个总体,其分布的形状如何,样本和的分布都是正态的。中心极限定理说明,为什么正态分布出现在如此多的不同的问题之中。我们用于纸条取样的那种方法,看来是实际中特别喜欢使用的一种方

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号