《两指标间的相关分析》由会员分享,可在线阅读,更多相关《两指标间的相关分析(60页珍藏版)》请在金锄头文库上搜索。
1、两指标间的关系分析Linear correlation线性相关10.1 相关关系与确定性关系确定性关系:两变量间的函数关系 圆的周长与半径的关系: C2R 速度、时间与路程的关系:LST X与Y的函数关系: Ya+bX R1R1R2R1R2R310.1 相关关系与确定性关系10.1 相关关系与确定性关系非确定性关系:两变量在宏观上存在关系,但并未精确到可以用函数关系来表达。 青少年身高与年龄的关系; 年龄与血脂的关系;身高与体重的关系; 体重与体表面积的关系; 药物浓度与反应率的关系;10.1 相关关系与确定性关系相关关系与确定性关系(2)当对事物的规律了解加深时,相关关系可以转变为确定性关系
2、。父亲患白化病X, (X=是,否);子女患白化病Y, (Y=是,否);X与Y的关系不确定。当母亲患白化病时,X与Y的关系确定: X=是,则Y=是; X=否,则Y=否。 (父亲为异常基因的携带者除外。)相关关系当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,或相关(correlation)。两个变量有共变现象,称为有相关关系。 相关关系不一定是因果关系。10.2 定量资料的相关反映两定量指标间的线性相关关系用 Pearson 相关系数。 (Pearson correlation coefficient)例10.1 10名3岁男童体重与体表面积的关系 编号 体重(X,kg) 体表
3、面积(Y,103cm2) 合计合计10名3岁男童体重与体表面积散点图1112131415165.05.56.06.5体重(kg),X体表面积Y(103cm2)散点图的特点总的趋势:体表面积随体重的增加而增加。总的趋势:直线,无弯曲度。部分观察点的分布有时并不反映这个总趋势,甚至和总趋势相背离。绝大部分散点分布在一条不太宽的倾斜的“带状”区域内Pearson相关系数的计算X 的离均差平方和:Y 的离均差平方和:X与Y 间的离均差积和: 相关系数的含义(了解)(了解)协方差(covariance, COV):两个变量与其均值两个变量与其均值离差乘积的平均数,是相互关系的一种度量。离差乘积的平均数,
4、是相互关系的一种度量。样本协方差相关系数的含义(了解)(了解)cmkgmmkg大大于于基本结论:协方差受计量单位影响,基本结论:协方差受计量单位影响,从而从而不能不能真实反映相关的程度。真实反映相关的程度。相关系数的含义(1) 相关系数:协方差与两变量标准差乘积的比值,是没有量纲的、标准化的协方差。协方差协方差标准差标准差相关系数的含义(2) 标准化离差离均差平方和、离均差积和的展开:r = 0(h)r 0(f)r-1(d)r1(b)0r1(a)-1r0(c)r 0(e)r 0(g)零相关正相关负相关完全正相关完全负相关零相关零相关零相关相关关系示意图相关系数的性质-1 r 1r0为正相关为正
5、相关r0为负相关为负相关r0为零相关或无相关为零相关或无相关|r|=1为完全相关为完全相关|r|越大说明相关程度越密切越大说明相关程度越密切相关系数的正负1112131415165.05.56.06.5体重(kg),X体表面积Y(103cm2)例资料相关系数的计算相关系数的假设检验H 0:0,体重与体表面积无相关关系;H 1:0,体重与体表面积有相关关系。 。t 服从自由度为n-2的 t 分布。例资料相关系数的假设检验自由度102,P拒绝H0,接受H1。可以认为3岁男童体重与体表面积之间有正相关关系。总体相关系数 的区间估计 0:r的分布是对称的的分布是对称的 0:r呈偏态分布呈偏态分布 0:
6、r呈负偏态分布呈负偏态分布 0:r呈正偏态分布呈正偏态分布R.A. Fisher(1921) 的 z 变换 z 近似服从均数为 ,标准差为 的正态分布。 00.20.40.60.81.00100200300 = - - 0.8 = 0 = 0.800.51.01.52.0050100150200-0.8-0.6-0.4-0.20.00100200300-1.0(a) r(d) z-1.0-0.8-0.6-0.4-0.20.00.20.40.60.81.00100200300-2-1012050100150200(b) r(e) z 01234050100150200250(c) r(f) z相
7、关系数的可信区间估计(1) 将 r 变换为 z ;(2) 根据 z 服从正态分布,估计Z的可信区间;(3) 再将 z 变换回 r 。相关系数的可信区间估计 r Fishers 变换 z 正态近似 Z的95CI Fishers 反变换 的95CI例10.2 相关系数的可信区间,则 Z 的95%可信区间: 1.91981.960.3780 = (,)例10.2 相关系数的可信区间 的95%可信限为: 的95%可信区间:例10.3 24名成年男女的心率(X)与收缩时间(Y) 男性 女性 心率 收缩时间 心率 收缩时间 (次/分) (毫秒) (次/分) (毫秒)57405563916139359410
8、633976338766400673746738067385683836837669376703787038272384753887537079366793508337087357863459432924名成年男女的心率(X)与收缩时间(Y)的散点图 男性 女性 5060708090100300350400450心率心率(次次/分分)收缩时间(毫秒)5060708090300350400450100心率心率(次次/分分)24名成年男女的心率(X)与收缩时间(Y)的相关分析 男性 女性相关系数 t 值 P 值 0.0001 0.0001 z 变换值 两相关系数的比较H 0:男子心率与心脏左室电机
9、械收缩时间的相关与 女子的相等,12;H 1:男子心率与心脏左室电机械收缩时间的相关与 女子的不等,12。 。 不拒绝H 0,尚不能认为男子和女子的心率与心脏左室电机械收缩时间间的相关系数不等 。 10.3 定性资料的相关配对四格表的Pearson点相关系数列联系数(contingency coefficient)10.3.1 四格表的列联系数 甲法乙法 a b c d -1 rn +1例10.4 两种方法观察舌象结果的相关性某中医师采用两种方法观察舌象200例,观察结果如下,试分析两种观察方法的结果有无联系? 甲法 乙法 84 (a) 16(b) 20 (c) 80(d)10.3.2 列联表
10、的列联系数Cramr修正列联系数 : R,C分别是列联表的行数和列数。2是列联表的2检验。 0 rC 1例10.5 两种血型系统的相关性 某人按两种血型系统统计某地6094人的血型分布,结果见表,问两种血型的分布间有无关系? ABO MN血型 血型 MNMN 合计O4314909021823A3884108001598B4955879502032AB137179325641 合计14511666297760942为列联表的2。列联系数的假设检验等价于列联表的构成比的假设检验。例题H0:两种方法观察舌象的结果无相关;H1:两种方法观察舌象的结果有相关。v1 , P,按水准,拒绝H0 ,接受H1
11、,认为甲乙两种方法观察舌象的结果有正相关关系 。例题H0: 不同的ABO血型,其MN的血型构成相同;H1: 不同的ABO血型,其MN的血型构成不同;。自由度(4-1)(3-1)6,P。10.4 等级资料的相关Spearman等级相关将各变量X,Y分别编秩RX, RY;计算RX与RY的Pearson相关;所得结果即为Spearman等级相关rS。-1rs1例10.6 抗白指数与临床疗效的关系某研究所用野百合治疗白血病,并作抗白血病指数(简称抗白指数)及疗效的分析,问抗白指数与临床疗效间有无关系? 病例号 抗白指数X 临床疗效Y(1)(2)12+23+39+410+511+630735845955
12、+1070+11881290RX(3)123456789101112RY(4)999 333 33等级相关的假设检验H 0:S0,抗白指数与疗效无相关关系;H 1: S0,抗白指数与疗效有相关关系。 。当n50时,用查“等级相关界值表”;当n50时,用 t 检验:t 服从自由度为n-2的 t 分布。例资料的假设检验本例 n = 12, 查界值表,得: rs(0.05,12)即,若 H0 成立,则等级相关系数有95%的可能在(-0.587,0.587)之间。现 rs ,故 P 。可以认为,抗白指数与疗效有等级相关关系。例10.7 母亲文化程度与儿童智商的关系母亲文化程度 儿童智商等级 (Y)合计
13、 (X) 中下中等中上上等 小学2281303136 初中5723613526454高中或中专1111210517245大专及以上1410722 合计9143328053857rs大样本时的等级相关检验本例 n =857,大于50,用 t 检验:P。可以认为,母亲文化程度与儿童智商等级间存在相关关系,母亲文化程度越高,儿童智商等级亦高。等级相关的含义等级相关反映的是两变量等级间的相关,并不反映两变量间的数值关系。例1 XY1122334455例2 XY1124394 165 25例3XY11例4XY1121031004 1000510000相关分析的正确应用(1)相关关系是一种共变关系,不一定是因果关系;定量资料在进行相关分析(Pearson相关)前,需作散点图,从散点图的趋势判断是否可以作线性相关分析;某地某地160名名20岁男子身高与体重散点图岁男子身高与体重散点图 成都市男中小学生12个年龄组的平均身高 大白鼠进食量(X,g)与体重增加(Y,g)的关系免疫球蛋白A(IgA,g)与火箭电泳高度(Y,mm)的关系 相关分析的正确应用(1)识别离群值;PQ图10.5 离群值对相关的影响相关分析的正确应用(2)排除间杂性。(a)(b) 样本甲观察点 样本乙观察点图10.6 样本的间杂性对相关性的误导