如何学习统计研究方法最终版

上传人:新** 文档编号:567919047 上传时间:2024-07-22 格式:PPT 页数:36 大小:376KB
返回 下载 相关 举报
如何学习统计研究方法最终版_第1页
第1页 / 共36页
如何学习统计研究方法最终版_第2页
第2页 / 共36页
如何学习统计研究方法最终版_第3页
第3页 / 共36页
如何学习统计研究方法最终版_第4页
第4页 / 共36页
如何学习统计研究方法最终版_第5页
第5页 / 共36页
点击查看更多>>
资源描述

《如何学习统计研究方法最终版》由会员分享,可在线阅读,更多相关《如何学习统计研究方法最终版(36页珍藏版)》请在金锄头文库上搜索。

1、如何学习统计研究方法如何学习统计研究方法和传媒大学同学的一次交流和传媒大学同学的一次交流 祝迎春祝迎春 2006, 5抚伏湍铁鸯硒袭隘婪会骑熄犬稳高云破晴症理警恢屎烫爹官喝膛滑矩燃桶如何学习统计研究方法最终版如何学习统计研究方法最终版引言引言个人的介绍个人的介绍主题:主题:I.分享学习统计的一些心得(理论方法的知识分享学习统计的一些心得(理论方法的知识地图)地图)II.回归应用的问题(个案学习)回归应用的问题(个案学习)衷涨狈膀殖膏厦透化漆翘疹寂客芜织庙陕趴艰辙遂携桩法喘厩赶拳崔延椿如何学习统计研究方法最终版如何学习统计研究方法最终版 统计是一门致力于研究:收集数据(抽样理论),分析数据(统计

2、统计是一门致力于研究:收集数据(抽样理论),分析数据(统计算法),解释数据(背景知识与理论)的学科。算法),解释数据(背景知识与理论)的学科。 - 我个人的心得我个人的心得 .外加计算机操作研究什么?研究什么?-经过数据计算后产生出有意义的信息事物之间的相关关系(包括因果关系)事物之间的差异(先找出它们的差异然后再找出它们的共性)事物的结构(层次水平)统计是以帮助描述,验证思想的工具性学科 统计是什么?统计是什么?拘谐召顶哮情琢首耀竿稚孝橇未莲绰覆午鹤睹垮汹慨拙灸于哆均遂亲邀柔如何学习统计研究方法最终版如何学习统计研究方法最终版统计的两个应用领域统计的两个应用领域思维过程领域思维过程领域研究方

3、法领域研究方法领域生活学术数字背后的心理活动过程,普通人做统计问题时的思维过程-处理随机事件的能力数字背后的心理活动过程,研究者做学术研究时,逻辑的推理过程关于随机性规律关于随机性规律观察数据 调查数据 抽样数据 试验数据统计中的形象思维:使看不见的随机性被看见 的意义,赋值和建立、描述相关关系欢着努璃咳胖怕泵狡递蜀雏咯尺视陈措捏绞淖篇兆员柴咐迸邯既担彼标礼如何学习统计研究方法最终版如何学习统计研究方法最终版基本知识回顾基本知识回顾总体的描述(随机变量的数字特征:X,)与样本的描述(样本分布的数字特征:,s)之间连接点是:随机变量的分布。.估计量的性质:估计量的性质:1.无偏性(Unbiase

4、dness):样本均值在真值附近摆动而没有系统误差。2.有效性(Efficiency):在所有的不同估计量中的方差最小。3.一致性(Consistency):当n,估计量在真值附近的概率接近1。4.最小离差平方(Mean Square Error):离差最小or方差最小?如果估计量是无偏时此标准等价于有效性。 . .对对估计量的检验:假设检验估计量的检验:假设检验单个总体(估计方差?估计均值?方差已知否?)两个总体(相关系数)点估计(Point Estimation)矩法似然法最小二乘法.估计方法:估计方法:区间估计(Interval Estimation)卸旗趋技振扯瘸伤旧谣感吩酗蔡渍娜喘携

5、浅蜕操式钱枷懂骨醋戮炳卒茵悸如何学习统计研究方法最终版如何学习统计研究方法最终版统计学习分三个部分统计学习分三个部分统计基本原理 统计是应用性很强的学科,在使用某一种方法之前,一定要对所用方法的目的对象和条件有所了解。 目的:描述(集中或离散)?相关关系?差异?H0 对象:变量类型和个数;抽样方式;数据排列(eg.MDS) 条件:参数或非参?模型假设(Assumption)统计软件操作 选择:经济原则,学习最恰原则,兼容性,获得性, 模块数量,创建新变量,前沿性 格式:数据录入格式;数据排列(eg.多重应答) 规范性:命令或鼠标操作正确;探索与重复; 选择软件体现了统计应用的专业性。Spss?

6、Stata?SAS?R?STATISTICA?Minitab统计结果解读 在理解算法原理即统计意义后的软件操作解读。(操作步骤中先看什么后看什么,对应的统计过程是什么?) 每步统计结果中对数字的解读。(eg. )统计技术水平 检验背后代表的是什么?备择假设!说明了什么现实意义(可证伪吗?)。 试验设计或者验证过程的逻辑严密性。 研究经验( eg.每个群的常模,回归的决定系数大小) 高手的处理技巧(体现在操作化过程)。研究功底水平衔拖舜阴唾狐赣年担逃臣翠仆赵柔肠敝底耕纸屎丘拾被霞抛偏晕荆斩壕沪如何学习统计研究方法最终版如何学习统计研究方法最终版学习归纳统计方法的一个案例学习归纳统计方法的一个案例

7、2.相关独立样本1.差异非独立样本组类相关系数Intraclass correlation coefficientPearson相关系数独立样本t检验配对样本t检验在同一对象上两个重复测量值之间的相关系数。 Pearson相关系数研究的是不同变量之间产生的。勇久聘钙刑记诺懒兰缓谰淡瞬骂曙法拉私恿则宛详淳薛挞独咨妥阜嗣夏妄如何学习统计研究方法最终版如何学习统计研究方法最终版研究中要注意的一些问题研究中要注意的一些问题假定(Assumption):在研究中被人为控制(设定,定义)的变量或者常量。针对的是一个变量(常量是特殊的一种变量 )。假设(Hypothesis):可验证性的;陈述两个或多个数个

8、变量间的可能关系,为一种假设性陈述。 变变量量产产生生操作化(operational definition):用变量代替概念。理论是观察陈述的前提概念术语使用的必要性陈述日常用语科学陈述大众共识 学术共识观观察察与与描描述述验验证证过过程程数据管理数据管理数据分析数据分析数据呈现数据呈现数据收集数据收集数据格式的转换储存位置抽样设计研究设计问卷设计执行管理变量选择加权统计模型的选择统计量的含义检验标准(显著性水平)报表表格符号(公式,文字)图形竭滴课爷巳鬃阳纵闹碱精家氏簇更频唤遵帮赤花提邱庐敖航葡暗劫絮竟珍如何学习统计研究方法最终版如何学习统计研究方法最终版客观的世界主观的世界观察解释理论和现

9、象的关系理论和现象的关系物理活动(声,光,机械)化学变化(无机物变化)生物活动(新陈代谢)心理活动(意识与认知)社会变化(文化,人际,阶层,传播)不具有运算功能的符号:绘画,音乐.具有运算功能的符号:逻辑,文字,数字数字随机变量的分布随机性估计变量分布的特征幻榔粟窖烯付拱栈羌酉串缴评绎食衬性颈哗练腻右闹旬考址喘犬秉蚜涡屹如何学习统计研究方法最终版如何学习统计研究方法最终版我们在做什么我们在做什么 科学本质:试验性(包含了证伪性的命题)在错误中不断求真(广泛的解释性和高度一致的预测性),理论是怎样产生的呢?波普尔认为,科学只能从问题开始,理论是为解决问题而做出的尝试,是对问题的猜测,波普尔说:“

10、一种科学理论,一种解释性理论,只不过是解决一个科学问题的一种尝试”。因此,理论是大胆的猜测,即使是那些己经充分确认的科学理论也终究还是一种猜测,一种假说。正因为理论是猜测,它们就具有不确定性和暂时性,最终会被推翻,被新理论所替代。我们是一群问题提出者和企图解答者。我们是一群问题提出者和企图解答者。 波普尔认为,衡量一个理论真的程度的标准即看该理论是否具有高解释力和高预测力,而这又是由理论所包含的信息量来决定的。一般说来,理论所包容的信息量越多,其可解释的范围越广,其预测的力度便越强。但与此同时,科学理论所包容的信息愈多,它接受的范围愈广,其可错性或被证伪的概率便越高。也就是说:科学理论真的概率

11、增大的过程,也是科学理论被证伪的可能性增大的过程,换言之,它是科学理论中可错成分逐渐增多的过程。坠宇杭匿骨蹦非咒仟甲疏伦拓硕哺仍赦惕裔俱结器阐罗挠犊瘤捣薪侧群数如何学习统计研究方法最终版如何学习统计研究方法最终版理想的理论理想的理论 回答现象为什么机制 可验证性,及可以证伪和重复的 与相关之既有知识或理论一致,不宜抵触,不是孤立理论 简约,若为统计模型,参数要尽量少 对应研究之问题 量化形式,不仅是文字建模也是可以数字建模和图形建模 具相当广度(有助推论),具有普适性一个好的社会学理论(实证性): 解释控制变量的产生原因明确指出解释现象的产生原因和结果,以及因果关系的方向性,(没有大小why?

12、),连续性(条件变化后结果的变化,即预测功能)夹蹬些缉污寒伶阎震停践姜按旺泰聊照墒巧迂岁骚勿仿踢愤袍致钉沮搅哭如何学习统计研究方法最终版如何学习统计研究方法最终版Staw and Sutton (1995): “What theory is not?”1.参考文献不是理参考文献不是理论论.不要被文献不要被文献驾驭驾驭2.数据不是理数据不是理论论3.变变量的列表或建造不是理量的列表或建造不是理论论4.图图表不是理表不是理论论-不要用不要用AMOS5.假假设设(或或预预言言)不是理不是理论论周雪光的见解:什麼是“有力的理論”?理論應該回答“為什麼”的問題:泛泛描述性的研究沒有深度理論關心的是現象之

13、間的關係,即我們觀察到的行為、事件、結構或思想為什麼產生的因果關係。“在我們看來,理論的任務是深入地探討解釋導致某一事件或行為發生的內在過程,從而幫助我們理解這一現象產生的系統的原因”(378頁)。實證研究的設計應該為這個基本目的服務。集中在“因果關係”上研究的深入性、系統性型白傈蛆蹋俗返州互冀驰颖泽彬母云颖级趋繁洗翁峡着烤钙兽共祁视斟了如何学习统计研究方法最终版如何学习统计研究方法最终版统计学习的路径:基础统计 社会统计 多元统计不懂统计原理,胡乱调用些proc,得出的P值不是“屁“才怪呢! 不教(写)原理只教技术,“菜谱式”学习只能是制造数据垃圾和伪实证的理论。 clxia:计算机和软件只

14、是辅助思维的工具,不是思维本身。 在使用某一种方法之前,应该认真读一下有关的统计书籍,对所用方法的目的对象和条件有所了解一些有用的统计观点一些有用的统计观点 统计学家发展了许多测量变量关联强度大小的方法;一定条件下,某种方法的选择依赖于所含变量的多少,所使用的量表及关联的本质等等,但大多都遵守一条基本原则:都试图通过与这些特定变量间最大可能关联比较来估计实际关联强度的大小。从统计学上讲,估计关联的常用方法是观察变量值的差异,然后计算从统计学上讲,估计关联的常用方法是观察变量值的差异,然后计算所研究的两个或多个变量含有共同差异时解释总差异的比例。通俗地说,就是将所研究的两个或多个变量含有共同差异

15、时解释总差异的比例。通俗地说,就是将变量中共同部分比成如果变量完全相关时应潜在相同的部分。变量中共同部分比成如果变量完全相关时应潜在相同的部分。 注意研究中的随机性现象的影响。 计量经济学家在无偏性和一致性的取舍上一般要求一致性。 奖洛询滨釉仓孕贝狈驴拟逮漏图困齐拴圭炭哎滑你辩能钻离僵捷餐虹伶庙如何学习统计研究方法最终版如何学习统计研究方法最终版一些有用的统计观点一些有用的统计观点SPSS14STATA9统计学习的“老师”向谁学,学什么:统计软件 统计专著 论文 交流。诣接鸳枢论呕寇枕饼砌坦赎婚魄背迹怠酗涅国勺养皱袖塔夷摔鬃痴巩墓珊如何学习统计研究方法最终版如何学习统计研究方法最终版方差齐性

16、线性关系 效应累加 变量无测量误差 变量服从多元正态分布 观察独立 模型完整(没有包含不该进入的变量、也没有漏掉应该进入的变量) 误差项独立且服从(0,1)正态分布。 第二部分:回归技术的学习第二部分:回归技术的学习为什么要学习:回归模型是实证分析中最广泛使用的工具。作业答案:回归的8个假设:某哲砾票睬翼毯才吝尉笛镊瘦覆辨甭紫教概茵兔漠憨为衷馅披轧刷骤湍悼如何学习统计研究方法最终版如何学习统计研究方法最终版最小二乘法的本质:点估计最小二乘法的本质:点估计统计意义:回归技术就是估计回归系数及其标准误的点估计。回忆一下回归的一些基础知识复习 “回归”一词的由来-父亲和儿子的身高关系(起源) 188

17、9年F.Gallton和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式。后来发展为从误差平方和最小(平方乃二乘也)出发,改称为最小二乘法。yx纵向距离横向距离A为实际点,B为拟合直线上与之对应的点遏蛤磁孜债接己桨迸工雨揖群涸布沽利芋删豪酸棠蝗滨檀曲戳闻濒猴词罗如何学习统计研究方法最终版如何学习统计研究方法最终版共线性无法估计皆坏窝咋抢戏扔澡榆旧欣懂合唆诲西捍挛他促较液启众欠踞牛阿凯趾薛像如何学习统计研究方法最终版如何学习统计研究方法最终版最小二乘法的性质最小二乘法的性质1拟合残差之和等于零2Y的真实值和拟合值的均值相等3

18、拟合残差与自(解释)变量不相关4残差与拟合值不相关不存在自相关高斯高斯马尔可夫定理马尔可夫定理最好线性无偏育盗舅配吊镜餐辈鼓疡袒功秆溢比阜功媒会鸥蓑械籽荚舀擎蓉遮围雕情输如何学习统计研究方法最终版如何学习统计研究方法最终版高斯高斯马尔可夫定理马尔可夫定理(Gauss-Markov theorem) 在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的线性无偏估计量。 当模型参数估计完成,需考虑参数估计值的精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。 一个用于考察总体的统计量,可从三个方面考察其优劣性:(1)线性性(linear):即是否是另一随机变量的线性函数;(

19、2)无偏性(unbiased):即它的均值或期望值是否等于总体的真实值;(3)有效性(efficient):即它是否在所有线性无偏估计量中具有最小方差。深闷吏赦植坟穴写愧卉嫉榔叉姥转办殴聊柴奎腥瞒评眷金景石蝗扩洁矛损如何学习统计研究方法最终版如何学习统计研究方法最终版关于经典回归模型的假定关于经典回归模型的假定1赌藏噬翟删恤涡彦举樊务的帧铸配冕挖尾宏钓天琶角术黑惑赵尘贯奢炉镑如何学习统计研究方法最终版如何学习统计研究方法最终版关于经典回归模型的假定关于经典回归模型的假定2协动无仑禄龙奸闭涧枉磊尾纳兆缎轮羡懦盒顿躲擂喘姿骚慌联拇钧删腆龙如何学习统计研究方法最终版如何学习统计研究方法最终版关于经典

20、回归模型的假定关于经典回归模型的假定3羊躲葛火袁毋帆材撂诈抚滇蠢鸭语踊惶懈旨红嗡陆届肮痈腋樟烷屯囚啊吱如何学习统计研究方法最终版如何学习统计研究方法最终版关于经典回归模型的假定关于经典回归模型的假定4瓜厘活蜡腑艰秋揪秸累州进庭南堂翔门诧竞枝唁膘秉遏春扑攘醋迪锥槛嘛如何学习统计研究方法最终版如何学习统计研究方法最终版随机扰动项 垂直波动(Vertical Error Jumps)关于随机扰动项的古典假设关于随机扰动项的古典假设XiYX1X3X2X4X6X5其数据生成过程叫变量误差模型嘴泪虚滋臆啄红铡娩履葛哼沾悼憨谩液呸弹节嘉刻档曳表窑参慨氰钨蛇硅如何学习统计研究方法最终版如何学习统计研究方法最终

21、版残差分布均值为零(Zero Mean Error Displacement)关于随机扰动项的古典假设关于随机扰动项的古典假设使用最小二乘法一定会保证这个假设满足叠毗汉依筐叉蚂匿紧皇顾峙优撑厘州痕集梭珠盅沙垒碎工虹侩拟碑臭肺者如何学习统计研究方法最终版如何学习统计研究方法最终版随机扰动项的方差为同方差(Homoskedasticity)关于随机扰动项的古典假设关于随机扰动项的古典假设异方差(Heteroskedasticity)同方差假定的意义是指每个i围绕其零平均值的变差,并不随解释变量X的变化而变化,不论解释变量观测值是大还是小,每个i的方差保持相同,即由灭寐彼孕缅戌指叹得碌禾驰丛烯峭驱箭

22、讹惑绊洋混蛹娥敷街皋盯婉刮曙如何学习统计研究方法最终版如何学习统计研究方法最终版异方差关于随机扰动项的古典假设关于随机扰动项的古典假设.x x1x2yf(y|x)x3.E(y|x) = b0 + b1x.x1x2E(y|x) = b0 + b1xyf(y|x)HomoskedasticHeteroskedastic寓殿例瞅昂据磕都皖绝糟耽芜协橙梢叠只圣也尉姚钢红宜慈存盏迎茶耳腺如何学习统计研究方法最终版如何学习统计研究方法最终版后果后果出现异方差之后,最小二乘法的最优性就失效。在社会科学中是必然的。识别识别 Goldfeld-Guandt检验:这种检验的思想时,如果整个总体或经济过程在研究期间

23、都是同方差的,这意味着报研究期间划分为两个时期来考虑和研究总体或经济过程所得到的误差项方差的差异不应该是显著的。 Breuch-Pagan检验:如果异方差的形式不与某个解释变量的观测值,或观测次数有关,而是与一组解释变量有关,此时无法使用Goldfeld-Guandt检验。 White检验处理处理交互回归加权回归稳健回归(似然法)异方差异方差偏言鳃烃椽贾惟涎陀讨市邢爪厘灸轩堵辣抖哇臼卉赔矛荫灌儒惜祭圃劈涉如何学习统计研究方法最终版如何学习统计研究方法最终版共线性共线性当两个或两个以上解释变量之间高度(但非完全相关)时,乘模型中出现多重共线性。多重共线性的后果:使参数估计值的标准误差增大,导致参

24、数估计值的t统计量减少,从而使参数估计值无法通过t检验。 整体拟合很好,但个体估计很差。其含意是:整体的拟合有度R2很大,但个体参数估计值的t统计量却很小,并且无法通过检验。此时我们称模型中出现多重共线性。 相关矩阵 自变量之间回归按照实际理论意义删除自变量(看模型设定问题)忽略增加样本(未必减少标准误反而增加变量相关)主成分回归(社会科学中不可取),偏最小二乘法,岭回归后果后果识别识别处理处理爽住揍釉炎否垄侈方狱形奢打诺胚术藩篷凭骗伐樱扩垫滋式逾哟美蝇粪安如何学习统计研究方法最终版如何学习统计研究方法最终版自相关自相关后果后果相关会导致用最小二乘法求出的参数估计值不是线性估计中方差最小的估计

25、值。识别识别 Durbin-Watson检验处理处理通过广义差分变换消除异方差(计算)蘸事枚瞅丸祥勤梗添功桌跋咐径辽招便抄陵鸿快偏袁若瘩烂龙分函动荫两如何学习统计研究方法最终版如何学习统计研究方法最终版模型设置模型设置自变量存在随机误差自变量存在随机误差非线性和不可相加性非线性和不可相加性遗漏变量或者添加不相关的变量(自变量的选择问题)遗漏变量或者添加不相关的变量(自变量的选择问题)过度设定对我们的参数估计没有影响,OLS仍然是无偏的。但它对OLS估计量的方差有不利影响。遗漏变量将违反“零条件均值” E(u| xp)=0. OLS估计是有偏的遗漏X2偏误方向(二元特例)谨慎使用:逐步回归 信息

26、准则(eg.AIC)Corr(x1, x2) 0Corr(x1, x2) 0Positive bias偏误为正Negative bias偏误为负b2 0Negative bias偏误为负Positive bias偏误为正谢汪末蛆仆食霄签掏醋弊博难雍瑟佑靖卉垮劲禾悬箕瘟痞僚万悍皋峻妇妓如何学习统计研究方法最终版如何学习统计研究方法最终版问题完了吗问题完了吗?你确定你会回归了?你确定你会回归了?回顾以上其实我们只是讨论了模型设定除了问题的情况,模型的元素不仅是模型的模型的形式,还包括了样本本身:如果样本并不完备又如何?样本不完备包括(1)存在测量误差(2)存在分组情况(3)样本存在缺失值球制成谗年

27、晨卖悄抹激晶痉肥痴梆魏獭酸灾暖端烽遭判抛午捂醚缅杠窖赞如何学习统计研究方法最终版如何学习统计研究方法最终版存在测量误差(变量误差存在测量误差(变量误差&方程误差模型)方程误差模型)模型变了,更加广义了!处理处理对误差的设定:彼此独立,为均值为0的正态分布;且不存在自相关;也独立与回归的随机扰动项1. 工具变量估计:寻找一个Z替代X使得 与 不相关,仅与 相关,越高越好。2.组平均法:1的一种特例。识别识别3.加权回归:必须知道自变量和因变量的误差方差比值为常数。级磕业李幻缓絮殆平宪锭单砧纤岛振冈卉贩辈荐颅芳非摹缕铭酶忱俩龙刷如何学习统计研究方法最终版如何学习统计研究方法最终版存在分组情况存在分

28、组情况变量不是来自同一总体的情况,变量存在分组:按一个变量来标定分类叫单向分组数据;按两个变量来标定分类叫双向分组数据。组观测个数X平均值Y平均值1n1(x1)(y1)2n2(x2)(x2):gng(xg)(xg)带有虚拟变量的模型潦埠任途贺几取肄悄宅弦竞播膨轩吐故替滚校函吊煞扫瞄魔罢铬酬刚阵目如何学习统计研究方法最终版如何学习统计研究方法最终版样本存在缺失值样本存在缺失值极大的一个课题,不是我现在可以讲的。极大似然法EM算法(期望步;极大化步,使用迭代直至达到收敛)贝叶斯统计多重插补Eg.零回归估计(使用缺失值的样本均值内插估计是有偏的)处理处理腰氨极肋砌逸客身劳郡玲洁鸽仕谭撑身边柑温抉毛俗

29、内镀短锰影陕盅蔓挚如何学习统计研究方法最终版如何学习统计研究方法最终版我对建立回归模型的建议我对建立回归模型的建议回归是建立在研究者对所有变量的性质,关系有很好的把握的基础之上。变量的选择和要解释的事实联系起来不断“拷问”回归的假设为什么?:现实是复杂的,模型是我们对真实的简化,为了让它更加接近刻画真实的规律,所以我们要在理想的回归模型上加一些贴近真实数据产生过程的约束(假设),再进行对现实的预测,这才体现了实证主义的精要!我们在做一件不可能达到的事情:追求理论和实际的统一,理论-实际=0,但是我们不要灰心,我们可以做到lim理论-实际=已知的某种统计分布,这意味,差距是我们可以理解,把握,更重要的是我们用来解释和预测事实。最后一句:千万小心形式(模型建模与估计)替代内容(理论)!邦忍铬蛮女喻淤枷载叭尝狞谋凡觉休叛为敞惠错岗易若冷顽奈掐架眨毯寝如何学习统计研究方法最终版如何学习统计研究方法最终版

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号