如何学习统计研究方法

上传人:艾力 文档编号:50694621 上传时间:2018-08-10 格式:PPT 页数:36 大小:405.50KB
返回 下载 相关 举报
如何学习统计研究方法_第1页
第1页 / 共36页
如何学习统计研究方法_第2页
第2页 / 共36页
如何学习统计研究方法_第3页
第3页 / 共36页
如何学习统计研究方法_第4页
第4页 / 共36页
如何学习统计研究方法_第5页
第5页 / 共36页
点击查看更多>>
资源描述

《如何学习统计研究方法》由会员分享,可在线阅读,更多相关《如何学习统计研究方法(36页珍藏版)》请在金锄头文库上搜索。

1、如何学习统计研究方法如何学习统计研究方法和传媒大学同学的一次交流 祝迎春 2006, 5引言 个人的介绍 主题: 分享学习统计的一些心得(理论方法的知识 地图) 回归应用的问题(个案学习)统计是一门致力于研究:收集数据(抽样理论),分析数据(统计算法),解释数据(背景知识与理论)的学科。- 我个人的心得.外加计算机操作研究什么?-经过数据计算后产生出有意义的信息事物之间的相关关系(包括因果关系) 事物之间的差异(先找出它们的差异然后再找出它们的共性) 事物的结构(层次水平)统计是以帮助描述,验证思想的工具性学科统计是什么?统计的两个应用领域思维过程领域研究方法领域生活学术数字背后的心理活动 过

2、程,普通人做统计 问题时的思维过程- 处理随机事件的能力数字背后的心理活动 过程,研究者做学术 研究时,逻辑的推理 过程关于随机性规律观察数据 调查数据 抽样数据 试验数据统计中的形象思维:使看不见的随机性被看见 的意义,赋值和建立、描述相关关系基本知识回顾总体的描述(随机变量的数字特征:X,)与样本的描述(样本分布的数 字特征:,s)之间连接点是:随机变量的分布。.估计量的性质: 1.无偏性(Unbiasedness):样本均值在真值附近摆动而没有系统误差。 2.有效性(Efficiency):在所有的不同估计量中的方差最小。 3.一致性(Consistency):当n,估计量在真值附近的概

3、率接近1。 4.最小离差平方(Mean Square Error):离差最小or方差最小?如果 估计量是无偏时此标准等价于有效性。.对估计量的检验:假设检验单个总体(估计方差?估计均值?方差已知否?) 两个总体(相关系数)点估计 (Point Estimation)矩法 似然法 最小二乘法.估计方法:区间估计 (Interval Estimation)统计学习分三个部分统计基本原理统计是应用性很强的学科,在使用某一种方法之前, 一定要对所用方法的目的对象和条件有所了解。 目的:描述(集中或离散)?相关关系?差异?H0 对象:变量类型和个数;抽样方式;数据排列(eg.MDS) 条件:参数或非参?

4、模型假设(Assumption)统计软件操作 选择:经济原则,学习最恰原则,兼容性,获得性,模块数量,创建新变量,前沿性 格式:数据录入格式;数据排列(eg.多重应答) 规范性:命令或鼠标操作正确;探索与重复;选择软件体现了统计应用的专业性。Spss?Stata? SAS?R?STATISTICA?Minitab统计结果解读 在理解算法原理即统计意义后的软件操作解读。(操作步骤 中先看什么后看什么,对应的统计过程是什么?) 每步统计结果中对数字的解读。(eg. )统计技术水平 检验背后代表的是什么?备择假设!说明了什么现实意义(可证 伪吗?)。 试验设计或者验证过程的逻辑严密性。 研究经验(

5、eg.每个群的常模,回归的决定系数大小) 高手的处理技巧(体现在操作化过程)。研究功底水平学习归纳统计方法的一个案例2.相关独立 样本1.差异非独 立样 本组类相关系数 Intraclass correlation coefficientPearson相关系数独立样本t检验配对样本t检验在同一对象上两个重复测量值之间的相关系数。 Pearson相关系数研究的是不同变量之间产生的。研究中要注意的一些问题假定(Assumption):在研究中被人为控制(设定,定义)的变 量或者常量。针对的是一个变量(常量是特殊的一种变量 )。 假设(Hypothesis):可验证性的;陈述两个或多个数个变量间的

6、可能关系,为一种假设性陈述。 变 量 产 生操作化(operational definition):用变量代替概念。理论是观察陈述的前提 概念术语使用的必要性陈述日常用语科学陈述大众共识 学术共识观 察 与 描 述验 证 过 程数据管理数据分析数据呈现数据收集数据格式的转换 储存位置抽样设计 研究设计 问卷设计 执行管理变量选择 加权 统计模型的选择 统计量的含义 检验标准(显著性水平)报表 表格 符号(公式,文字) 图形客观的世界主观的世界观察解释理论和现象的关系物理活动(声,光,机械)化学变化(无机物变化)生物活动(新陈代谢)心理活动(意识与认知)社会变化(文化,人际,阶 层,传播)不具有

7、运算功能的符号:绘画,音乐具有运算功能的符号:逻辑,文字,数字随机变量的分布随机性估计变量分布的特征我们在做什么科学本质:试验性(包含了证伪性的命题)在错误中不断求真(广泛的解 释性和高度一致的预测性),理论是怎样产生的呢?波普尔认为,科学只能从问 题开始,理论是为解决问题而做出的尝试,是对问题的猜测,波普尔说:“一种科 学理论,一种解释性理论,只不过是解决一个科学问题的一种尝试”。因此,理 论是大胆的猜测,即使是那些己经充分确认的科学理论也终究还是一种猜测, 一种假说。正因为理论是猜测,它们就具有不确定性和暂时性,最终会被推翻 ,被新理论所替代。我们是一群问题提出者和企图解答者。波普尔认为,

8、衡量一个理论真的程度的标准即看该理论是否具有高解释力和 高预测力,而这又是由理论所包含的信息量来决定的。一般说来,理论所包容 的信息量越多,其可解释的范围越广,其预测的力度便越强。但与此同时,科 学理论所包容的信息愈多,它接受的范围愈广,其可错性或被证伪的概率便越 高。也就是说:科学理论真的概率增大的过程,也是科学理论被证伪的可能性 增大的过程,换言之,它是科学理论中可错成分逐渐增多的过程。理想的理论回答现象为什么机制可验证性,及可以证伪和重复的与相关之既有知识或理论一致,不宜抵触,不是孤立理论简约,若为统计模型,参数要尽量少对应研究之问题量化形式,不仅是文字建模也是可以数字建模和图形建模具相

9、当广度(有助推论),具有普适性一个好的社会学理论(实证性): 解释控制变量的产生原因 明确指出解释现象的产生原因和结果,以及因果关系的方向 性,(没有大小why?),连续性(条件变化后结果的变化 ,即预测功能)Staw and Sutton (1995): “What theory is not?”1.参考文献不是理论论.不要被文献驾驭驾驭 2.数据不是理论论 3.变变量的列表或建造不是理论论 4.图图表不是理论论-不要用AMOS 5.假设设(或预预言)不是理论论周雪光的见解: 什麼是“有力的理論”? 理論應該回答“為什麼”的問題:泛泛描述性的研究沒有深度 理論關心的是現象之間的關係,即我們觀

10、察到的行為、事件、結構或思想 為什麼產生的因果關係。 “在我們看來,理論的任務是深入地探討解釋導致某一事件或行為發生的內 在過程,從而幫助我們理解這一現象產生的系統的原因”(378頁)。實證研究的設計應該為這個基本目的服務。 集中在“因果關係”上 研究的深入性、系統性统计学习的路径:基础统计 社会统计 多元统计不懂统计原理,胡乱调用些proc,得出的P值不是“屁“才怪呢! 不教(写)原理只教技术,“菜谱式”学习只能是制造数据垃圾和伪实证的理论。 clxia:计算机和软件只是辅助思维的工具,不是思维本身。 在使用某一种方法之前,应该认真读一下有关的统计书籍,对所用方法的目的对象和条件有 所了解一

11、些有用的统计观点统计学家发展了许多测量变量关联强度大小的方法;一定条件下,某种方法的 选择依赖于所含变量的多少,所使用的量表及关联的本质等等,但大多都遵守一 条基本原则:都试图通过与这些特定变量间最大可能关联比较来估计实际关联强 度的大小。从统计学上讲,估计关联的常用方法是观察变量值的差异,然后计算 所研究的两个或多个变量含有共同差异时解释总差异的比例。通俗地说,就是将 变量中共同部分比成如果变量完全相关时应潜在相同的部分。 注意研究中的随机性现象的影响。 计量经济学家在无偏性和一致性的取舍上一般要求一致性。 一些有用的统计观点SPSS14STATA9统计学习的“老师”向谁学,学什么:统计软件

12、 统计专著 论文 交流。方差齐性 线性关系 效应累加 变量无测量误差 变量服从多元正态分布 观察独立 模型完整(没有包含不该进入的变量、也没有漏掉应该进入的变量) 误差项独立且服从(0,1)正态分布。 第二部分:回归技术的学习为什么要学习:回归模型是实证分析中最广泛使用的工具。作业答案:回归的8个假设:最小二乘法的本质:点估计统计意义:回归技术就是估计回归系数及其标准误的点估计。回忆一下回归的一些基础知识复习“回归”一词的由来-父亲和儿子的身高关系(起源)1889年F.Gallton和他的朋友K.Pearson收集了上千个家庭的身高 、臂长和腿长的记录企图寻找出儿子们身高与父亲们身高之间关系的

13、 具体表现形式。后来发展为从误差平方和最小(平方乃二乘也)出发 ,改称为最小二乘法。yx纵向 距离横向距离A为实际点,B为拟合 直线上与之对应的点共线性无法估计最小二乘法的性质 1拟合残差之和等于零 2Y的真实值和拟合值的均值相等 3拟合残差与自(解释)变量不相关 4残差与拟合值不相关不存在自相关高斯马尔可夫定理 最好 线性 无偏高斯马尔可夫定理 (Gauss-Markov theorem)在给定经典线性回归的假定下,最小二乘 估计量是具有最小方差的线性线性无偏估计量。当模型参数估计完成,需考虑参数估计值的精度,即是否能代表总体 参数的真值,或者说需考察参数估计量的统计性质。一个用于考察总体的

14、统计量,可从三个方面考察其优劣性: (1)线性性(linear):即是否是另一随机变量的线性函数; (2)无偏性(unbiased):即它的均值或期望值是否等于总体的真实值; (3)有效性(efficient):即它是否在所有线性无偏估计量中具有最小方 差。关于经典回归模型的假定1关于经典回归模型的假定2关于经典回归模型的假定3关于经典回归模型的假定4随机扰动项 垂直波动(Vertical Error Jumps)关于随机扰动项的古典假设XiYX1X3X2X4X6X5其数据生成过程叫变量误差模型残差分布均值为零(Zero Mean Error Displacement)关于随机扰动项的古典假设

15、使用最小二乘法一定会保证这个假设满足随机扰动项的方差为同方差(Homoskedasticity)关于随机扰动项的古典假设异方差(Heteroskedasticity) 同方差假定的意义是指每个i围绕其零平均值的变差,并不 随解释变量X的变化而变化,不论解释变量观测值是大还是 小,每个i的方差保持相同,即异方差关于随机扰动项的古典假设. x x1x2yf(y|x)x3.E(y|x) = b0 + b1x.x1x2E(y|x) = b0 + b1xy f(y|x) HomoskedasticHeteroskedastic后果 出现异方差之后,最小二乘法的最优性就失效。在社会科学中是必然的。 识别

16、Goldfeld-Guandt检验:这种检验的思想时,如果整个总体或经济过程在研究 期间都是同方差的,这意味着报研究期间划分为两个时期来考虑和研究总体或 经济过程所得到的误差项方差的差异不应该是显著的。 Breuch-Pagan检验:如果异方差的形式不与某个解释变量的观测值,或观测 次数有关,而是与一组解释变量有关,此时无法使用Goldfeld-Guandt检验。 White检验处理 交互回归 加权回归 稳健回归(似然法)异方差共线性 当两个或两个以上解释变量之间高度(但非完全相关)时,乘模型中出现 多重共线性。 多重共线性的后果:使参数估计值的标准误差增大,导致参数估计值的t 统计量减少,从而使参数估计值无法通过t检验。 整体拟合很好,但个体估计很差。其含意是:整体的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号