如何学习统计研究方法

资源描述

《如何学习统计研究方法》由会员分享，可在线阅读，更多相关《如何学习统计研究方法（36页珍藏版）》请在金锄头文库上搜索。

1、如何学习统计研究方法如何学习统计研究方法和传媒大学同学的一次交流祝迎春 2006, 5引言个人的介绍主题：分享学习统计的一些心得（理论方法的知识地图）回归应用的问题（个案学习）统计是一门致力于研究：收集数据（抽样理论），分析数据（统计算法），解释数据（背景知识与理论）的学科。- 我个人的心得.外加计算机操作研究什么？-经过数据计算后产生出有意义的信息事物之间的相关关系（包括因果关系）事物之间的差异（先找出它们的差异然后再找出它们的共性）事物的结构（层次水平）统计是以帮助描述，验证思想的工具性学科统计是什么？统计的两个应用领域思维过程领域研究方法领域生活学术数字背后的心理活动过

2、程，普通人做统计问题时的思维过程- 处理随机事件的能力数字背后的心理活动过程，研究者做学术研究时，逻辑的推理过程关于随机性规律观察数据调查数据抽样数据试验数据统计中的形象思维：使看不见的随机性被看见的意义，赋值和建立、描述相关关系基本知识回顾总体的描述（随机变量的数字特征：X，）与样本的描述（样本分布的数字特征：，s）之间连接点是：随机变量的分布。.估计量的性质： 1.无偏性(Unbiasedness)：样本均值在真值附近摆动而没有系统误差。 2.有效性(Efficiency)：在所有的不同估计量中的方差最小。 3.一致性(Consistency)：当n，估计量在真值附近的概

3、率接近1。 4.最小离差平方(Mean Square Error)：离差最小or方差最小？如果估计量是无偏时此标准等价于有效性。.对估计量的检验：假设检验单个总体（估计方差？估计均值？方差已知否？）两个总体（相关系数）点估计 (Point Estimation)矩法似然法最小二乘法.估计方法：区间估计 (Interval Estimation)统计学习分三个部分统计基本原理统计是应用性很强的学科，在使用某一种方法之前, 一定要对所用方法的目的对象和条件有所了解。目的：描述（集中或离散）？相关关系？差异？H0 对象：变量类型和个数；抽样方式；数据排列（eg.MDS）条件：参数或非参？

4、模型假设（Assumption）统计软件操作选择：经济原则，学习最恰原则，兼容性，获得性，模块数量，创建新变量，前沿性格式：数据录入格式；数据排列（eg.多重应答）规范性：命令或鼠标操作正确；探索与重复；选择软件体现了统计应用的专业性。Spss？Stata？ SAS？R？STATISTICA？Minitab统计结果解读在理解算法原理即统计意义后的软件操作解读。（操作步骤中先看什么后看什么，对应的统计过程是什么？）每步统计结果中对数字的解读。（eg. ）统计技术水平检验背后代表的是什么？备择假设！说明了什么现实意义（可证伪吗？）。试验设计或者验证过程的逻辑严密性。研究经验（

5、eg.每个群的常模，回归的决定系数大小）高手的处理技巧（体现在操作化过程）。研究功底水平学习归纳统计方法的一个案例2.相关独立样本1.差异非独立样本组类相关系数 Intraclass correlation coefficientPearson相关系数独立样本t检验配对样本t检验在同一对象上两个重复测量值之间的相关系数。 Pearson相关系数研究的是不同变量之间产生的。研究中要注意的一些问题假定（Assumption）：在研究中被人为控制（设定，定义）的变量或者常量。针对的是一个变量（常量是特殊的一种变量）。假设（Hypothesis）：可验证性的；陈述两个或多个数个变量间的

6、可能关系，为一种假设性陈述。变量产生操作化（operational definition）：用变量代替概念。理论是观察陈述的前提概念术语使用的必要性陈述日常用语科学陈述大众共识学术共识观察与描述验证过程数据管理数据分析数据呈现数据收集数据格式的转换储存位置抽样设计研究设计问卷设计执行管理变量选择加权统计模型的选择统计量的含义检验标准(显著性水平)报表表格符号(公式，文字) 图形客观的世界主观的世界观察解释理论和现象的关系物理活动（声，光，机械）化学变化（无机物变化）生物活动（新陈代谢）心理活动（意识与认知）社会变化（文化，人际，阶层，传播）不具有

7、运算功能的符号：绘画，音乐具有运算功能的符号：逻辑，文字，数字随机变量的分布随机性估计变量分布的特征我们在做什么科学本质：试验性（包含了证伪性的命题）在错误中不断求真（广泛的解释性和高度一致的预测性），理论是怎样产生的呢?波普尔认为，科学只能从问题开始，理论是为解决问题而做出的尝试，是对问题的猜测，波普尔说:“一种科学理论，一种解释性理论，只不过是解决一个科学问题的一种尝试”。因此，理论是大胆的猜测，即使是那些己经充分确认的科学理论也终究还是一种猜测，一种假说。正因为理论是猜测，它们就具有不确定性和暂时性，最终会被推翻，被新理论所替代。我们是一群问题提出者和企图解答者。波普尔认为，

8、衡量一个理论真的程度的标准即看该理论是否具有高解释力和高预测力，而这又是由理论所包含的信息量来决定的。一般说来，理论所包容的信息量越多，其可解释的范围越广，其预测的力度便越强。但与此同时，科学理论所包容的信息愈多，它接受的范围愈广，其可错性或被证伪的概率便越高。也就是说：科学理论真的概率增大的过程，也是科学理论被证伪的可能性增大的过程，换言之，它是科学理论中可错成分逐渐增多的过程。理想的理论回答现象为什么机制可验证性，及可以证伪和重复的与相关之既有知识或理论一致，不宜抵触，不是孤立理论简约，若为统计模型，参数要尽量少对应研究之问题量化形式，不仅是文字建模也是可以数字建模和图形建模具相

9、当广度（有助推论），具有普适性一个好的社会学理论（实证性）：解释控制变量的产生原因明确指出解释现象的产生原因和结果，以及因果关系的方向性，（没有大小why？），连续性（条件变化后结果的变化，即预测功能）Staw and Sutton (1995): “What theory is not?”1.参考文献不是理论论.不要被文献驾驭驾驭 2.数据不是理论论 3.变变量的列表或建造不是理论论 4.图图表不是理论论-不要用AMOS 5.假设设(或预预言)不是理论论周雪光的见解：什麼是“有力的理論”？理論應該回答“為什麼”的問題：泛泛描述性的研究沒有深度理論關心的是現象之間的關係，即我們觀

10、察到的行為、事件、結構或思想為什麼產生的因果關係。 “在我們看來，理論的任務是深入地探討解釋導致某一事件或行為發生的內在過程，從而幫助我們理解這一現象產生的系統的原因”（378頁）。實證研究的設計應該為這個基本目的服務。集中在“因果關係”上研究的深入性、系統性统计学习的路径：基础统计社会统计多元统计不懂统计原理，胡乱调用些proc，得出的P值不是“屁“才怪呢！不教（写）原理只教技术，“菜谱式”学习只能是制造数据垃圾和伪实证的理论。 clxia:计算机和软件只是辅助思维的工具，不是思维本身。在使用某一种方法之前,应该认真读一下有关的统计书籍,对所用方法的目的对象和条件有所了解一

11、些有用的统计观点统计学家发展了许多测量变量关联强度大小的方法；一定条件下，某种方法的选择依赖于所含变量的多少，所使用的量表及关联的本质等等，但大多都遵守一条基本原则：都试图通过与这些特定变量间最大可能关联比较来估计实际关联强度的大小。从统计学上讲，估计关联的常用方法是观察变量值的差异，然后计算所研究的两个或多个变量含有共同差异时解释总差异的比例。通俗地说，就是将变量中共同部分比成如果变量完全相关时应潜在相同的部分。注意研究中的随机性现象的影响。计量经济学家在无偏性和一致性的取舍上一般要求一致性。一些有用的统计观点SPSS14STATA9统计学习的“老师”向谁学，学什么：统计软件

12、统计专著论文交流。方差齐性线性关系效应累加变量无测量误差变量服从多元正态分布观察独立模型完整（没有包含不该进入的变量、也没有漏掉应该进入的变量）误差项独立且服从（0,1）正态分布。第二部分：回归技术的学习为什么要学习:回归模型是实证分析中最广泛使用的工具。作业答案：回归的8个假设：最小二乘法的本质：点估计统计意义：回归技术就是估计回归系数及其标准误的点估计。回忆一下回归的一些基础知识复习“回归”一词的由来-父亲和儿子的身高关系（起源）1889年F.Gallton和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录企图寻找出儿子们身高与父亲们身高之间关系的

13、具体表现形式。后来发展为从误差平方和最小（平方乃二乘也）出发，改称为最小二乘法。yx纵向距离横向距离A为实际点，B为拟合直线上与之对应的点共线性无法估计最小二乘法的性质 1拟合残差之和等于零 2Y的真实值和拟合值的均值相等 3拟合残差与自（解释）变量不相关 4残差与拟合值不相关不存在自相关高斯马尔可夫定理最好线性无偏高斯马尔可夫定理 (Gauss-Markov theorem)在给定经典线性回归的假定下，最小二乘估计量是具有最小方差的线性线性无偏估计量。当模型参数估计完成，需考虑参数估计值的精度，即是否能代表总体参数的真值，或者说需考察参数估计量的统计性质。一个用于考察总体的

14、统计量，可从三个方面考察其优劣性：（1）线性性(linear)：即是否是另一随机变量的线性函数；（2）无偏性(unbiased)：即它的均值或期望值是否等于总体的真实值；（3）有效性(efficient)：即它是否在所有线性无偏估计量中具有最小方差。关于经典回归模型的假定1关于经典回归模型的假定2关于经典回归模型的假定3关于经典回归模型的假定4随机扰动项垂直波动(Vertical Error Jumps)关于随机扰动项的古典假设XiYX1X3X2X4X6X5其数据生成过程叫变量误差模型残差分布均值为零(Zero Mean Error Displacement)关于随机扰动项的古典假设

15、使用最小二乘法一定会保证这个假设满足随机扰动项的方差为同方差(Homoskedasticity)关于随机扰动项的古典假设异方差(Heteroskedasticity) 同方差假定的意义是指每个i围绕其零平均值的变差，并不随解释变量X的变化而变化，不论解释变量观测值是大还是小，每个i的方差保持相同，即异方差关于随机扰动项的古典假设. x x1x2yf(y|x)x3.E(y|x) = b0 + b1x.x1x2E(y|x) = b0 + b1xy f(y|x) HomoskedasticHeteroskedastic后果出现异方差之后，最小二乘法的最优性就失效。在社会科学中是必然的。识别

16、Goldfeld-Guandt检验：这种检验的思想时，如果整个总体或经济过程在研究期间都是同方差的，这意味着报研究期间划分为两个时期来考虑和研究总体或经济过程所得到的误差项方差的差异不应该是显著的。 Breuch-Pagan检验：如果异方差的形式不与某个解释变量的观测值，或观测次数有关，而是与一组解释变量有关，此时无法使用Goldfeld-Guandt检验。 White检验处理交互回归加权回归稳健回归（似然法）异方差共线性当两个或两个以上解释变量之间高度（但非完全相关）时，乘模型中出现多重共线性。多重共线性的后果：使参数估计值的标准误差增大，导致参数估计值的t 统计量减少，从而使参数估计值无法通过t检验。整体拟合很好，但个体估计很差。其含意是：整体的

展开阅读全文