第三讲第三讲 两变量间关系的度量两变量间关系的度量——相关系数、协方差相关系数、协方差第一节第一节 概述概述1 相关关系的概念和分类相关关系的概念和分类¡相关的概念事物之间的关系种类:因果关系、共变关系和相关关系事物之间存在联系,但又不能直接作出因果关系的解释,也有理由认为这两者不存在共变关系,事物间的这种关系即相关关系¡相关关系的种类正相关与负相关直线相关与曲线相关完全相关、高度相关、低度相关和零相关相关关系的散点图示相关关系的散点图示1 散点呈椭圆形分布,散点呈椭圆形分布,X X、、Y Y 同时同时增减增减------正正相关相关((positive correlation)positive correlation);; X X、、Y Y 此增彼减此增彼减------负负相关相关(negative correlation) (negative correlation) 散点在一条直线上,散点在一条直线上, X X、、Y Y 变化趋势变化趋势相同相同--------完全正相关完全正相关; ;反向反向变化变化--------完全负相关完全负相关。
相关系数示意图相关系数示意图 相关关系的散点图示相关关系的散点图示2零相关图示零相关图示曲线相关图示曲线相关图示2 相关分析相关分析——相关程度的度量相关程度的度量¡相关分析相关分析就是探索变量之间关系的紧密程度及其表现形式的过程¡常用方法:¡图示法:散点图¡计算法:积差相关等级相关(斯皮尔曼等级相关、肯德尔和谐系数)点二列相关双列相关四分相关相关系数的数字特征相关系数的数字特征¡相关系数记为:¡相关系数的值域:[-1,+1]¡相关系数的符号表示相关的方向,绝对值的大小表示关系紧密程度r=1:完全正相关r=-1:完全负相关r=0:零相关0.70≤| r |≤1:高度相关0≤| r |≤0.40:低度相关0.40<| r |<0.70:中等相关3 相关系数的使用条件相关系数的使用条件¡计算相关系数一般要求成对数据任意两个个体之间的观测值不能求相关¡要先考察两变量关系的形式¡相关关系不同于因果关系¡相关系数不是等距变量¡相关系数需要检验计算相关系数、相关系数的计算相关系数、相关系数的解释应该注意哪些问题?解释应该注意哪些问题?4 线性相关的实质线性相关的实质—代数式阐述代数式阐述例:有一组数2、4、5,它由小到大排列。
另外有三个数:3、4、7,这三个数按任意次序排列,可以排出6种不同的式样:3、4、7;3、7、4;4、3、7;4、7、3;7、3、4;7、4、3 对每一种排法,将它与前一组数2、4、5依次相乘相加,结果会是怎样呢?2×3+4×4+5×7=2×3+4×7+5×4=2×4+4×3+5×7=2×4+4×7+5×3=2×7+4×3+5×4=2×7+4×4+5×3=575455514645 从该例中,可以看出:在第一组数据2、4、5呈自然次序的条件下,另一组数据越是呼应这个次序,二者相应项的乘积和就越大,反之就越小推广推广 单位不等,以致于无法比较,怎么办? 数据个数不等,以致于无法比较,怎么办?线性相关的实质是什么?Total Variability of Y. SSYR2XVariability of Y that is predicted by X. SSregY相关系数的方差图示相关系数的方差图示相关系数的双变量总体表示相关系数的双变量总体表示第二节第二节 积差相关积差相关1 积差相关的使用条件积差相关的使用条件¡成对数据(2种情况)¡双变量总体正态¡双变量为连续变量¡两变量关系为直线性5 积差相关积差相关¡1、定义公式:¡2、适用条件:¡两列变量都是等距或等比的测量数据;¡两列变量所来自的总体必须是正态的或近似正态的对称单峰分布;¡两列变量必须具备一一对应的关系。
¡3、差法公式:图解图解积差相关计算实例积差相关计算实例学生政治语文D=X-Y17482-827175-438081-148589-457682-667789-1277788-1186884-1697480-6107487-13返回返回例:10名学生的政治与语文成绩如下表所示,求二者的相关系数习题¡( )6.相关系数可以直接计算其平均数 ¡1、协方差¡七、某班学生12人,他们的期终考试数学成绩和总成绩如下表所示¡请问:(1)两者的相关为多大?估计其95%的置信区间;¡ (2)建立以数学成绩预测总平均成绩的回归方程,并验证其有效性a=0.05,F(1,10)0.05=4.96 ,(25分)¡提示:若Zr=ln[(1+r)/(1-r)]的平方根,Zp=ln[(1+p)/(1-p)]的平方根,则有Zr~N(Zp,1/[(N-3)的平方根])¡学生序号¡数学成绩 80 70 65 60 55 90 78 80 70 70 80 65¡总平均成绩 65 50 75 85 65 86 80 60 55 55 65 75习题¡六、下表给出了某班12名同学两次考试的成绩要求:¡1、计算两次考试成绩(X、Y)的相关¡2、求Y对X的线性回归方程;¡3、对所求方程进行方差分析,以检验其显著性提示:F.05(1,10)=4.96, F.01(1,10)=10.04, F.05(1,11)=4.84, F.01(1,11)=9.65 )。
¡被试 1 2 3 4 5 6 7 8 9 10 11 12¡考试一(X) 65 63 67 64 68 62 70 66 68 67 69 71¡考试二(Y) 68 66 68 65 69 66 68 65 71 67 68 706 协方差协方差¡定义:¡与积差相关系数的关系:第三节第三节 等级相关等级相关 ————非参数的线性相关非参数的线性相关一、一、 斯皮尔曼等级相关斯皮尔曼等级相关rR¡适用条件:适用条件:属直线相关范畴,积差相关体系适用于两列具有等级顺序的测量数据,或总体为非正态的等距、等比数据如果两列变量是连续变量,但样本容量小,且总体分布非正态,常常将连续变量转换为等级变量,然后计算等级相关¡优点:总体分布不作要求¡缺点:精度低于积差相关1 斯皮尔曼等级相关公式斯皮尔曼等级相关公式¡等级差数法公式:¡等级序数法公式(略)¡当相同等级增多时,需校正等级相关计算实例等级相关计算实例车间123456789101112131415质量123456789101112131415纪律143295687101213111415D 0-202-411020-1-1200 例:有人对15个车间的生产质量与纪律的状况进行了调查,各车间的排名如下表所示,问质量与纪律的关系如何?等级相关的校正等级相关的校正学生测验I测验II等级I等级IID180701.55.5-4270755.532.5370705.55.50480751.53-1.55656089.5-1.5670755.532.5775803128606597.52.5970655.57.5-2105560109.50.5例:10名学生的两次测验成绩如表所示,求其等级相关系数。
有两个1.5等有四个5.5等二、肯德尔和谐系数二、肯德尔和谐系数W¡适用条件:适用于多列等级变量的相关分析.¡公式:¡当相同等级增多时,需校正公式变形公式变形肯德尔和谐系数计算实例肯德尔和谐系数计算实例例:6位都是对五篇相同作文所评等级如下表,试分析所评等级的一致性如何一二三四五135241235241334152435142535241635241182910258肯德尔和谐系数计算的校正肯德尔和谐系数计算的校正例:5位评价者对6位教师教学质量评定等级如表所示,试分析这5位评价者的评价一致性程度12345A453.55421.5B111.5216.5C2.521.52210D6554525E2.533.52314F5566628教师1评了两个2.5等教师2评了三个5等习题¡2、对10名同三学生的语文成绩和英语成绩进行排名,得出以下结果: ¡学生编号 1 2 3 4 5 6 7 8 9 10 ¡语文名次 1 2 3 4 5 6 7 8 9 10 ¡英语名次 2 1 3 4 5 7 6 8 10 9 ¡试求语文与英语的相关系数。
10) 习题¡2、有3位教师对5位学生的作文进行等级评定,结果如下: ¡A生得到的等级评定分别是:3、5、3; ¡B生得到的等级评定分别是:1、2、2; ¡C生得到的等级评定分别是:2、1、1; ¡D生得到的等级评定分别是:2、3、2; ¡E生得到的等级评定分别是:2、4、3; ¡请计算3位老师评定的肯德尔和谐系数10%) 习题¡(二)五位教师对甲乙丙三篇作文分别排定名次如下表:¡教师序号 名次 ¡ 甲 乙 丙¡1 3 1 2¡2 3 2 1¡3 3 1 2¡4 1 3 2¡5 1 3 2¡请对上述数据进行相应的统计分析(10)第四节第四节 质量相关质量相关一、点二列相关一、点二列相关¡适用条件:一列为来自正态总体的等距或等比的测量数据;另一列变量为真正二分称名变量¡公式:对对应应关关系系表表示示被试变量1变量2168126513691480157416622763284929572点二列相关系数计算实例点二列相关系数计算实例返回返回例:一次某种能力测验,一考场共14名考生,男生的成绩为分别 为:67、10、20、43、61、26、18、35、23;女生成绩分别为:44、60、10、23、30。
问从该考场看,该能力的测验成绩与性别是否相关?二、双列相关二、双列相关¡1、适用条件:¡两列变量均为来自正态总体的等距或等比变量,而其中一列被人为地划分为两个类别的数据¡2、公式:¡双列相关系数计算实例双列相关系数计算实例双列相关系数计算实例返回返回例:12名学生的测验总分与在某题上的得分如下表如果在题分中,得到大于或等于3分即认为通过该题,否则视为未通过请计算题分与总分的双列相关被试总分题分1205219431734122592615171838163915310143111301291补充知识:偏相关补充知识:偏相关(纯相关纯相关)¡意义:以上讨论的都是独立地考虑两个变量间的相关,称为简相关所谓偏相关系数,就是剔除了其他因素的影响之后,真正反映两变量之间的本质关系的相关系数公式公式谢谢同学们!谢谢同学们!。