社会统计学与SPSS应用PPT课件

上传人:博****1 文档编号:593269637 上传时间:2024-09-24 格式:PPT 页数:394 大小:6.67MB
返回 下载 相关 举报
社会统计学与SPSS应用PPT课件_第1页
第1页 / 共394页
社会统计学与SPSS应用PPT课件_第2页
第2页 / 共394页
社会统计学与SPSS应用PPT课件_第3页
第3页 / 共394页
社会统计学与SPSS应用PPT课件_第4页
第4页 / 共394页
社会统计学与SPSS应用PPT课件_第5页
第5页 / 共394页
点击查看更多>>
资源描述

《社会统计学与SPSS应用PPT课件》由会员分享,可在线阅读,更多相关《社会统计学与SPSS应用PPT课件(394页珍藏版)》请在金锄头文库上搜索。

1、主讲人:石 伟Email:社社 会会 统计学统计学& SPSS应用应用2021/3/251除了上帝,任何人都必须用数据除了上帝,任何人都必须用数据来说话。来说话。 美国谚语2021/3/252统计的思维方法,就像读和写的统计的思维方法,就像读和写的能力一样,有一天会成为效率公能力一样,有一天会成为效率公民的必备能力。民的必备能力。英国学者威尔斯2021/3/253 我在课堂上曾一再对戏剧理论专业的学生说,与其玩弄几个空泛的理论概念,不如认真做一点观众调查。理论探讨应该面对着一批切实可行的调查数据进行。这些调查所得的数据即使很粗糙、很不准确,总比脱离实际的词汇之争有意思得多。 2021/3/25

2、4观众的反应当然并非艺术的准绳,因此又需要对调查结果进行理性处理,理论家的思辩能力仍然大有用武之地。十六世纪后期的丹麦天文学家第谷(Tycho Brahe)观察天象三十年积累了大量的天文资料,他的助手开普勒(Johannes Kepler)运用数学方法对这一大2021/3/255堆资料进行理论处理,终于发现了行星运动三定律。我们目前对剧场里的观众反应进行调查,也不仅仅为了票房的盈亏和剧目的轮换,而是面向着审美心理规律的透彻揭示,就像开普勒那样。 余秋雨:戏剧审美心理学 2021/3/256第一章第一章 绪论绪论一、什么是统计学一、什么是统计学 统计学是一门研究如何搜集、整理、分析和展示数据的方

3、法科学,其目的是探索数据的内在规律性,以达到对客观事物的科学认识。2021/3/257数据搜集:例如,调查与实验等数据整理:例如,分组、排序等数据分析:例如,平均数、标准差、t检验、方差分析、回归分析等数据展示:例如,图和表等2021/3/2582021/3/259二、什么是社会统计学二、什么是社会统计学2021/3/25102021/3/25112021/3/2512三、社会统计学的作用三、社会统计学的作用描述统计(descriptive statistics):通过对搜集到的数据的整理与分析,以表、图和各种代表量的形式来描述数据的特征,找出数据的基本规律。2021/3/25132021/3

4、/25142021/3/25152021/3/25162021/3/2517推断统计(inferential statistics):通过对样本数据的统计分析,在一定可靠程度上推测相应的总体的数据特征及规律。2021/3/25182021/3/25192021/3/25202021/3/2521四、四、SPSSSPSS简介及数据编码录入简介及数据编码录入简介Statistical Package for Social ScienceStatistical Program for Social ScienceStatistical Product & Service SolutionsPredi

5、ctive Analytics Software (PASW, 2009) IBM SPSS Statistics 19 2021/3/2522http:/ 电信行业 政府行业 教育行业 2021/3/2524 客户分析 市场细分 市场调查 市场预测 新产品开发 满意度调查 信用度分析 2021/3/2525数据录入2021/3/2526问题问题1:您认为打工的外地人对重庆市的社会秩序:您认为打工的外地人对重庆市的社会秩序是否有影响?(单选)是否有影响?(单选)1有很大影响 2有较大影响 3没有影响 4不好说 4编码答案2021/3/2527问题问题2:您有几个儿子?几个女儿?:您有几个儿子?

6、几个女儿? 1儿子_人 2女儿_人 23问题变量1变量2变量1的值变量2的值2021/3/2528232021/3/25291000112021/3/2530外部式录入内部式录入采用文本文件(*.dat;*.txt)。这种录入方式的特点是,数据之间没有间隔,录完一个数码后自动后移,录入速度较快。缺点是容易错位。采用SPSS数据编辑器(SPSS Data Editor)录入。其优点是不容易错位,缺点是不能自动后移,录入速度慢,数据错误不容易修改。2021/3/2531例题:某系甲、乙两班同学的性别及统计成绩如下:例题:某系甲、乙两班同学的性别及统计成绩如下:IDID性别性别班级班级分数分数IDI

7、D性别性别班级班级分数分数1 1女女甲班甲班86861212男男乙班乙班81812 2男男甲班甲班82821313女女乙班乙班77773 3男男甲班甲班74741414男男乙班乙班63634 4男男甲班甲班85851515男男乙班乙班75755 5女女甲班甲班76761616女女乙班乙班69696 6男男甲班甲班79791717男男乙班乙班86867 7男男甲班甲班82821818男男乙班乙班81818 8男男甲班甲班83831919女女乙班乙班60609 9女女甲班甲班83832020女女乙班乙班69691010男男甲班甲班79792121女女乙班乙班73731111男男甲班甲班828222

8、22女女乙班乙班89892021/3/25322021/3/25332021/3/25342021/3/2535测量水平测量水平定类水平定类水平定序水平定序水平定距水平定距水平定比水平定比水平五、数据的测量水平五、数据的测量水平2021/3/2536定类水平(nominal level)计量层次最低对事物进行平行的分类各类别可以指定数字代码表示使用时必须符合类别穷尽和互斥的要求数据表现为“类别”具有或的数学特性2021/3/25372021/3/2538定序水平(ordinal level)对事物分类的同时给出各类别的顺序,数据表现为有序的类别。比定类水平精确不能测量出类别之间的准确差值具有或

9、的数学特性2021/3/2539定距水平(interval level)具有定类水平和定序水平的性质数据直接表现为“数值”,不用赋值具有或的数学特性可以转变为定序尺度和定类尺度比定序尺度精确没有绝对零点绝对零点2021/3/2540v定比水平(ratio level)有绝对零点具有定距水平的性质具有或的数学特性2021/3/2541四种计量尺度的比较四种计量尺度的比较2021/3/2542第二章 单变量描述统计分布、统计表、统计图分布、统计表、统计图集中趋势测量法集中趋势测量法离散趋势测量法离散趋势测量法2021/3/2543第一节 分布、统计表、统计图一、分布一、分布(distributio

10、n)的概念的概念 一个变量的各个取值出现的次数或频次,又叫频次分布。例:家庭结构(X)为,可取3个值:X1核心家庭X2直系家庭X3联合家庭 于是有: (X1, n1)(X2, n2)(X3, n3)2021/3/2544分布的一般形式:2021/3/2545v当n表示频次时,以上变量值频次对的集合称作频次分频次分布布。v当n表示百分比时,以上变量值百分比对的集合称作百百分比分布分比分布,又称频率或相对频次分布频率或相对频次分布。v当n表示概率时,以上变量值概率对的集合称作概率分概率分布布。2021/3/2546二、统计表二、统计表以表格的形式来表示变量的分布。(一)定类变量2021/3/254

11、72021/3/25482021/3/2549注意事项:百分比统计表必须注明统计总数。统计表的组成要素:表号、表头(标题等)、标识行、主体行、表尾(资料来源等)。满足互斥性要求百分比总和可以为100.1或99.9,若要保证为100,则改变频次最多项的数字。2021/3/2550(二)定序变量定序变量的统计表的内容、制作方法与定类变量相同,不同的是定序变量的取值需按顺序排列。2021/3/25512021/3/2552(三)定距、定比变量离散型变量(如家庭人数等)连续型变量(如身高等)对于变量值较少的离散型变量,其制表方法同定序变量的制表方法。2021/3/2553例:某生产车间50名工人日加工

12、零件数(单位:个)如下,试做频数分布表。2021/3/25542021/3/2555对于连续型变量或变量值较多的离散型变量,分组计算频次。组距:每组的上限与下限之差。对于等组距分组,其计算公式为: i全距/组数组限:每组的起止范围。每组的最低值为下限,最高值为上限。2021/3/2556例:下表是100个同龄儿童的身高数据,试作频次分布统计表。2021/3/2557练习练习例:某生产车间50名工人日加工零件数(单位:个)如下,试做分组(7组)频数分布表。2021/3/25582021/3/2559三、统计图以图形的形式来表示变量的分布。 1. 定类、定序变量:Pie图(饼图)、bar图(条形图

13、)Pie图的SPSS演示bar图的SPSS演示2021/3/25602021/3/2561练习练习评价下面的统计表是否有误,为什么?2021/3/2562根据以下统计资料2021/3/25632. 定距、定比变量:histogram(直方图),line(线图)直方图:以一组无间隔的直条表现频数分布特征的统计图。直方图的每一条形高度分别代表相应组别的频数。对于等距分组,用频次作为条形高度;对于非等距分组,用频次密度作为条形的相对高度。 频次密度频次/组距2021/3/25642021/3/25652021/3/2566四、表和图的累积表示累积表或累积图表示的是大于某个变量值的频次(或频率)一共是

14、多少或小于某个变量值的频次(或频率)一共是多少。向上累积(cf或c):是指位于某一变量值“以上”的频次或频率的总和。向下累积(cf或c):是指位于某一变量值“以下”的频次或频率的总和。2021/3/25672021/3/25682021/3/25692021/3/2570第二节 集中趋势测量法一、集中趋势测量法一、集中趋势测量法(measures of central tendency)用一个具有某种典型特征的数值来代表变量,这样的特征值就叫做集中值集中值或集中趋势集中趋势,对这样的数值的求取就叫做集中趋势测量集中趋势测量。2021/3/2571二、集中趋势的类型二、集中趋势的类型众值(mod

15、e) 中位值(median)均值(mean)2021/3/2572(一)众值(一)众值M Mo o1.1.众值的概念众值的概念众值指频次分布中最大频次所对应的变量值。(1)定类、定序变量2021/3/25732021/3/2574Mox22021/3/2575(2)定距、定比变量原始数据。例:成绩分组数据(连续型数据):众值为具有最高频次或频次密度的那一组的组中值bi。例:无众值。2021/3/25762021/3/25772021/3/25782.2.众值的意义众值的意义 众值的代表性在于其估计或预测每一个研究对象(个案)的值所犯错误总数是最小的。3.3.众值的适用范围众值的适用范围适合于任

16、何层次的变量,特别是定类变量。适合于单峰对称分布,不适合于多峰分布(众值不唯一)。2021/3/25792021/3/2580(二)中位值(二)中位值M Md d1.1.中位值的概念中位值的概念 中位值是指位于一组数据数列中间位置的那个值。数据数列数据依序排列。中间位置大于等于中位值的数据个数小于等于中位数的数据个数。2021/3/2581(1)原始数据当观察总数当观察总数N N为奇数时,为奇数时,M Md d为位于为位于(N+1)/2(N+1)/2的那个值。的那个值。2021/3/2582当观察总数当观察总数N N为偶数时,为偶数时,M Md d取居中位置左右两数的平均值。取居中位置左右两数

17、的平均值。2021/3/2583(2)频次分布数据2021/3/25842.2.中位值的意义中位值的意义 对于含有极端数据的一组数据,中位值更具有代表性。例:收入3.3.中位值的适用范围中位值的适用范围 定序变量及其以上。例:成绩 2021/3/2585(三)均值(三)均值M M或或1.1.均值的概念均值的概念2.2.均值的意义均值的意义 以均值来估计定距或定比数据中个案的数值,错误最小。3.3.均值的适用范围均值的适用范围 适用于定距和定比变量。2021/3/25864.4.均值的数学性质均值的数学性质(1)各变量值与均值的离差之和等于零。(2)各变量值与均值的离差平方和最小。2021/3/

18、2587(四)众值、中位值和均值的比较(四)众值、中位值和均值的比较三值设计的目的都是希望通过一个数值来描述一个变量的整体特征,以便简化资料。它们都反映了变量的集中趋势。 2021/3/2588Scale/MeasurementModeMedianMeanNorminalOrdinalInternal/Ratio2021/3/2589均值受极端值的变化影响,而中位值则不受影响。 2021/3/2590练习1.以下是甲、乙两村9户家庭人口数的原始数据:甲村:3;3;4;4;4;5;6;7;8乙村:3;3;4;4;4;4;5;5;5(1)计算两村家庭人口数的众值、中位值和均值。(2)对三种集中值作

19、出讨论。2021/3/25912.以下是68名职工婚姻状况的调查:(1)试作统计表和统计图。(2)选择适当的集中值并讨论之。2021/3/25923.以下是某厂职工教育程度的调查:2021/3/2593(1)试作统计表和统计图。(2)选择适当的集中值并讨论之。4.设以下是某区家庭子女数的统计表:2021/3/2594(1)试作频率统计表、直方图和线图。(2)试求均值。5.设以下是72名离婚者婚龄的统计。2021/3/2595(1)试作频率统计表、直方图和线图。(2)试求众值、中位值和均值,并简单讨论之。2021/3/25962021/3/25977.指出下面的统计表存在的问题,并画一个完整的频

20、次和频率统计表,在表中把真实组限、组距和组中值都列上。 某厂工人的月收入分布15011900401301150014111011300158901110013670190065501700102021/3/25988.某制鞋厂家为了制定生产计划,调查了100个成年女性穿鞋的尺寸,数据如下:尺寸尺寸21.521.5222222.522.5232323.523.5242424.524.5252525.525.52626人数人数3 36 6101018181818151510106 63 31 1(1)求这个数据集的平均数、中位数和众数; (2)对这个数据集,用什么指标作为数据集中趋势的度量比较合适

21、?2021/3/25999.某市40个百货公司12月份的销售额资料如下(单位:万元):试根据以上资料编制第一组为50万元60万元的等距数列,并计算出频率和累积频次。2021/3/251002021/3/2510110.一项研究调查了19名中学教师,他们的月经济收入如下:1200,1270,1300,1310,1320,1350,1360,1370,1390,1400,1450,1460,1490,1530,1580,1600,3200,4000。现欲了解他们的平均月经济收入。2021/3/2510211.下表是39名学生的总评:2021/3/2510312.随机抽取18名同学对西大进行5点量表

22、的评价(1为非常不满意;2为不满意;3为一般;4为满意;5为非常满意),结果如下:1,1,1,2,2,2,2,2,2,3,3,3,4,4,4,4,5,5(1)试作频次分布、频率分布、向上累积频次、向上累积频率、向下累积频次、向下累积频率表。(2)求中位值;(3)说明中位值的意义。2021/3/2510413.下面是某班20名学生的某心理特征的得分,请描述这班学生在此心理特征上的数量特征。12,10,8,9,6,6,23,15,17,5,14,13,7,6,8,19,16,15,13,12 2021/3/2510514.若你是某大公司的人力资源部的经理,公司老板要求你确定公司产品开发工程师的薪酬

23、标准。(1)你该如何着手开展工作?(2)若你通过调查获得了如下数据,那你确定的薪酬标准是什么?2021/3/25106A A公司公司年总收入年总收入B B公司公司年总收入年总收入C C公司公司年总收入年总收入助理工程助理工程师师5300053000助理工程助理工程师师5100051000助理工程助理工程师师5500055000助理工程助理工程师师5200052000助理工程助理工程师师5200052000助理工程助理工程师师5400054000助理工程助理工程师师5400054000工程师工程师5900059000助理工程助理工程师师5300053000工程师工程师6100061000工程师工

24、程师6100061000工程师工程师6400064000工程师工程师6000060000高工高工6500065000高工高工7000070000高工高工6500065000高工高工6400064000高工高工71000710002021/3/25107作业作业以下题目请用SPSS完成。1.我们在某高校采访了16名大学生,了解他们平时的学习情况,以下数据是大学生每周用于看电视的时间:2.15,14,12,9,20,4,17,26,15,18,6,10,16,15,5,8。3.试计算这批数据的均值、中位值、众值、全距、四分位差、方差和标准差。2021/3/251082.客户在银行的等待服务时间是反

25、映银行服务质量的一项重要指标,以下是一份来自某调查公司的调查资料:等待时间人数不超过2分钟7超过2分钟但不超过4分钟15超过4分钟但不超过6分钟8超过6分钟但不超过8分钟3超过8分钟但不超过10分钟12021/3/251093.以下是某班参加业余活动情况的调查:4.C“书社”;P“摄影组”;5.J“舞蹈团”;O=“体育组”。6.(1)试作统计表和统计图;7.(2)选择适当的集中值和离散值,并讨论之。2021/3/25110第三节 离散趋势测量法A:7, 7, 8, 8, 8, 9, 9 Md 8; =8 ; R=Max-Min=2 B:4, 5, 7, 8, 9, 11, 12 Md 8; =

26、8; R=Max-Min=8 C:1, 4, 7, 8, 9, 12, 15 Md 8; =8; R=Max-Min=14 这三组数这三组数据的均值、据的均值、中位值都中位值都是是8,但它,但它们的整齐们的整齐程度却不程度却不一样一样2021/3/25111一、离散趋势测量法一、离散趋势测量法(measures of dispersion)是用一个值来代表数据之间的差异情况,这样的代表值就叫做离散值离散值或离散趋势离散趋势,对这样的值的求取就叫做离散趋势测量离散趋势测量。二、离散趋势与集中趋势的关系二、离散趋势与集中趋势的关系集中值代表性的高低要受数据之间差异情形的影响。要全面反映一个变量的数

27、据特征,必须同时考察集中趋势和离散趋势。2021/3/25112三、离中趋势的类型三、离中趋势的类型异众比率异众比率 全距全距四分位差四分位差方差与标准差方差与标准差四、异众比率四、异众比率异众比率是非众值的频次之和在总数N中所占的比例。 2021/3/25113五、全距或极差(五、全距或极差(rangerange,简称,简称R R)全距R最大变量值最小变量值2021/3/25114R越大,数据越分散;R越小,数据越集中。只受最大变量值和最小变量值的影响,没有考虑其他变量值的差异。难以准确反映变量的变异情况。适用于定序、定距、定比变量。2021/3/25115六、四分位差六、四分位差(inte

28、rquartile range,简称,简称Q)(一)四分位值(一)四分位值1.四分位值的概念四分位值是指位于一组数据数列中第25、第50、第75三个位置上的值。中位值或中位值或Q Q5050Q Q1 1或或Q Q2525Q Q3 3或或Q Q75752021/3/251162.四分位值的位置3.中位值位于(N1)/24.Q25位于5.Q75位于Q1表明至少有25的变量值小于等于它;同时至少有75的变量值大于等于它。Q3表明至少有75的变量值小于等于它;同时至少有25的变量值大于等于它。(N1)/43(N1)/42021/3/25117例:抽样调查甲村和乙村的家庭人数。甲村11户人家,每户人数如

29、下:2,2,3,4,6,9,10,10,11,13,15Md的位置:(n1)/2=(111)/2=6Md=9Q1的位置:(n+1)/4=(111)/43Q13Q3的位置:3(n+1)/4=3(111)/49Q3=112021/3/25118乙村8户人家,每户人数如下:2,3,4,7,9,10,12,12Md的位置:(n1)/2=(81)/2=4.5Md=8Q1的位置:(n+1)/4=(81)/42.25Q13+0.25(4-3)=3.25 Q3的位置:3(n+1)/4=3(81)/46.75Q3=10+0.75(12-10)=11.52021/3/25119(二)四分位差1.四分位差的概念QQ

30、75Q25上例:甲村:Q甲=Q3Q1=1138乙村:Q乙=Q3Q1=11.53.258.252021/3/251202.四分位差的意义Q愈大,表示有50的变量值愈远离中位值,因而中位值的代表性愈小。四分位差通常与中位值一起使用。上例:因Q甲 Q乙若以中位值作估计,在甲村所犯的错误会略小于在乙村所犯的错误。2021/3/25121练习练习1. 7位评审对华裔溜冰选手关颖珊关颖珊的溜冰成绩评分为 5.8 , 5.6 , 5.8 ,5.7 , 5.6 , 5.9 , 5.8, 求Q1、Q2、Q3与四分位差。2. 12位学生各在罚球在线投篮十次,投中次数分别为3,2,3,7,5,3,6,4,1,3,6

31、,8,求Q1、Q2、Q3与四分位差。 2021/3/251223. 有4,6,6,7,7,10,11,11,13,15等十个样本,求下列各统计量: Q1、Q2、Q3与四分位差。4. 试求下列8个数值的四分位差:90, 60, 75, 86, 80, 78, 92, 68。 2021/3/25123百分位值简介百分位值简介“中新网11月29日电 11月2日,由某杂志主办的“2004中国MBA商学院排行”揭晓,排行榜显示复旦MBA毕业生起薪排行最高,平均年薪19万。复旦大学管理学院职业发展中心代理主任黄智颖告诉记者,近日有很多复旦MBA学生问他这个数据的可信度。”2021/3/25124该杂志主编

32、杨俊杰先生在给记者的电子邮件中如此解释:“排行榜中薪酬部分,是以该校全部毕业生起薪点的80分位值的平均收入来计算的,收入的80分位值反映出该校毕业生的收入的中高端水平,最能体现一个学院毕业生薪酬的整体水准及未来发展趋势。复旦MBA毕业生首份工作的起薪点,即指有20%的毕业生达到或超过了年薪19万,而80%的人则达不到19万。”2021/3/25125七、方差(七、方差(variance)与标准差()与标准差(standard deviation)1.方差也称变异或均方差(mean square deviation),表示一组数据平均的离散程度。样本样本方差方差总体总体方差方差2021/3/25

33、1262.标准差:是方差的正平方根;其单位与原变量X的单位相同。样本样本标准差标准差总体总体标准差标准差2021/3/251272021/3/251282021/3/251292021/3/25130例:随机抽取6个被试,测量其对死刑的态度。态度量表为5点量表,1表示坚决反对,5表示坚决支持,依次类推。2021/3/25131被试被试变量变量x x1 14 42 21 13 32 24 42 25 54 46 63 31.33-1.67- 0.67- 0.671.330.331.772.790.450.451.770.112021/3/251323.简化计算2021/3/25133变量变量x

34、x7272518451848181656165618686739673966969476147615757324932492021/3/251344.如果数据已被整理为频次分布,则:2021/3/25135SD=1.852021/3/251365.对于等距分组数据,用组中值来代替变量值xi,公式同上。这样的计算不及用原始数据计算精确。SD=7.872021/3/251376.方差与标准差是使用了所有的数据来计算变异情形的。7.方差与标准差的意义值越大,数据的离散程度越大,分布的范围越广,以均值来估计或预测变量值犯错的可能性越大,均值的代表性越小。标准差通常与均值一起使用。8.适用于定距和定比变

35、量。2021/3/25138第四节 正态分布与标准分数2021/3/251392021/3/251402021/3/25141单峰、对称 MoMd离差 y , y0 2021/3/25142当恒定时2021/3/25143当恒定时2021/3/251442021/3/25145标准分数(standard score)又称为Z分数,是以标准差为单位,表示一个数在团体中所处位置的相对位置量数。2021/3/251462021/3/251472021/3/25148正态曲线各部分面积表例:一学生分数115分,总体平均数100分,标准差15,问该生的成绩所处位置。例:一学生分数82分,总体平均数100

36、分,标准差15,问该生的成绩所处位置。2021/3/251492021/3/25150练习练习数据文件:SAQ.sav2021/3/251512021/3/25152第三章 双变量关系的描述统计第一节第一节 统计相关的性质统计相关的性质例:调查例:调查100100人快乐之源,人快乐之源,3 3个选项,其中个选项,其中4040人选金人选金钱,钱,5050人选工作,人选工作,1010的人选情感。的人选情感。2021/3/25153一、相关的概念一、相关的概念 如果一个变量的取值发生变化,另外一个变量的值也相应发生变化,则这两个变量相关。2021/3/25154性别与四级英语考试通过率的相关统计性别

37、与四级英语考试通过率的相关统计表述:统计结果显示,当性别取值不同时,通过率变量的表述:统计结果显示,当性别取值不同时,通过率变量的取值并未发生变化,因此性别与考试通过率无关。取值并未发生变化,因此性别与考试通过率无关。通过率变量性别变量2021/3/25155性别与四级英语考试通过率的相关统计性别与四级英语考试通过率的相关统计表述:统计结果显示,当性别取值不同时,通过率变量的表述:统计结果显示,当性别取值不同时,通过率变量的取值发生了变化,因此性别与考试通过率相关。取值发生了变化,因此性别与考试通过率相关。通过率变量性别变量2021/3/25156二、相关的程度二、相关的程度大多数的统计法是以

38、0代表无相关或零相关,以1代表全相关。介于0与1之间的数值如果愈大,就表示相关的程度愈强。abcdX1212Y2021/3/25157全相关是指在一个变量上的每个增量都对应于另一个变量上的一个增量。零相关是指两个变量值变化方向无一定规律,即当一个变量值变大时,另一个变量值可能变大也可能变小,并且变大变小的机会趋于相等。如学生身高与学习成绩的关系。2021/3/25158三、相关的方向三、相关的方向正相关:是指当一个变量的值增加时,另一个变量的值也增加。负相关:是指当一个变量的值增加时,另一个变量的值却减少。相关方向的分析不适合于定类变量。2021/3/25159三、相关的方向三、相关的方向正相

39、关:是指当一个变量的值增加时,另一个变量的值也增加。负相关:是指当一个变量的值增加时,另一个变量的值却减少。相关方向的分析不适合于定类变量。2021/3/251602021/3/25161四、变量间的对称性四、变量间的对称性相关关系不代表因果关系如果假定变量X影响变量Y,而变量Y不影响变量X,则变量X和Y之间的关系为不对称关系。如果不确定或不区分变量X与变量Y影响的方向,则变量X和Y之间的关系为对称关系。2021/3/25162四、变量间的对称性四、变量间的对称性相关关系不代表因果关系。如果假定变量X影响变量Y,而变量Y不影响变量X,则变量X和Y之间的关系为不对称关系。如果不确定或不区分变量X

40、与变量Y影响的方向,则变量X和Y之间的关系为对称关系。2021/3/25163第二节第二节 列联描述统计列联描述统计一、列联表的概念一、列联表的概念就是同时依据两个变量的值,将所研究的个案分类统计的频次或频率分布表。二、列联表的格式二、列联表的格式2021/3/25164边缘次数边缘次数边缘次数边缘次数条件次数条件次数条件次数表条件次数表2021/3/25165行百分比行百分比列百分比列百分比2021/3/25166三、列联表的大小三、列联表的大小表的大小就是横行数目(rows,简写r)乘上纵列数目(columns,简写c),即表的大小表的大小rc一般用横行表示因变量,纵列表示自变量。列联表的

41、简单分析2021/3/25167第三节第三节 相关测量法相关测量法一、两个定类变量:一、两个定类变量:Lambda,tau-y (一)Lambda相关测量法 E1YE2YXE1- E2 在不知道在不知道X值的情况下预测值的情况下预测Y值所产生的全部误差值所产生的全部误差根据根据X的每个值来预测的每个值来预测Y值所产值所产生的误差总数生的误差总数以以X X值来预测值来预测Y Y值时所减少值时所减少的误差的误差2021/3/251681.消减误差比例(proportionate reduction in error,简称PRE) PRE愈大,以X值预测Y值能够减少的误差所占的比例愈大;即X与Y的相

42、关愈强。2021/3/251692.Lambda相关测量法就是以一个定类变量的众值来预测另一个定类变量的值时,可以减除多少误差。如果消减的误差在全部误差中所占的比例愈大,就表示这两个变量的相关越强。例:若性别为自变量X,快乐之源为因变量Y。依PRE的定义,E1=nMY;E2nmy; E1- E2=(nMY)-(nmy)= my- MYY变量的众值次数X变量的每个值之下Y变量的众值次数2021/3/251702021/3/25171对于2个不对称的定类变量,若X为自变量,Y为因变量,则PRE表示为其中,My为Y变量的众值次数; my为X变量的每个值之下Y变量的众值次数; n为全部个案数目。202

43、1/3/25172对于2个对称的定类变量,则PRE表示为其中,Mx为X变量的众值次数;mx为Y变量的每个值之下X变量的众值次数。2021/3/251732021/3/25174若全部众值集中在条件次数表的同一列或同一行中,则Lambda系数就会等于0。这时就不适合于采用Lambda相关测量法。及y介于0与1之间。其值越大,消减的误差越大,2个变量之间的相关越强。2021/3/251752021/3/25176(二)tau-y相关测量法 tau-y系数属于不对称相关测量法。 tau-y系数的计算公式 2021/3/25177n:n:全部个案数目全部个案数目Fy:Y变量变量的边缘次数的边缘次数F

44、Fx x:X X变量的变量的边缘次数边缘次数f:条件次数条件次数2021/3/251782021/3/251792021/3/25180tau-y系数的解释 2021/3/25181由于tau-y测量法考虑了全部的次数,故其敏感度高于Lambda测量法。 对于不对称关系,最好选用tau-y来简化两个变量的相关情形。2021/3/25182二、两个定序变量:二、两个定序变量:Gamma,dy 对称关系Gamma系数; 不对称关系dy系数或Somersd 其值范围1,1,都具有消减误差比例的意义。2021/3/251832021/3/25184(一)Gamma相关测量法 同序对数同序对数Ns:在:

45、在两个变量上的相两个变量上的相对等级相同的一对等级相同的一对个案为对个案为1个同个同序对。序对。异序对数异序对数Nd:在:在两个变量上的相两个变量上的相对等级不同的一对等级不同的一对个案为对个案为1个异个异序对。序对。若全部个案数目为若全部个案数目为n,则会组成,则会组成0.5n(n-1)对个案。)对个案。2021/3/25185Ns=4Nd=3G=(4-3)/(4+3)=+0.14可见,工人积极性与产量成正相关。然而,二者可见,工人积极性与产量成正相关。然而,二者的相关程度很弱。若以一个变量来预测另一个变的相关程度很弱。若以一个变量来预测另一个变量,只可以消减量,只可以消减14的误差。的误差

46、。2021/3/25186(二)dy相关测量法 在因变量上的同分在因变量上的同分对数对数Ty:只在因变:只在因变量上的等级相同的量上的等级相同的一对个案为一对个案为1个同个同分对。分对。2021/3/25187Ns=4Nd=32021/3/25188(三)列联表计算Gamma和dy 2222表表2021/3/251892323表表2021/3/251903232表表Ty=f11(f12)+f21(f22)+f31(f32)2021/3/25191f11f12f13f21f22f23f31f32f33 1 2 3 123X XY YNS=f11(f22+f23+f32+f33)+f12(f23+

47、f33)+f21(f32+f33)+f22(f33)Nd=f13(f22+f21+f32+f31)+f12(f21+f31)+f23(f32+f31)+f22(f31)Ty=f11(f12+f13)+f12(f13)+f21(f22+f23)+f22(f23)+f31(f32+f33)+f32(f33)3333表表2021/3/25192NS=f11(f22+f23+f32+f33)+f12(f23+f33)+f21(f32+f33)+f22(f33)=23(55+28+94)+20(28+24)+11(27+24)+55(24)6003Nd=f13(f22+f21+f32+f31)+f12(

48、f21+f31)+f23(f32+f31)+f22(f31)4(55+11+27+8)+20(11+8)+28(27+8)+55(8)=2204Ty=f11(f12+f13)+f12(f13)+f21(f22+f23)+f22(f23)+f31(f32+f33)+f32(f33)=23(20+4)+20(4)+11(55+28)+55(28)+8(27+24)+27 (24)=41412021/3/25193可见,婆媳冲突与住户密度呈正相关,即住户的人口密度越高,婆媳冲突越大。如果以住户人口密度来预测或估计婆媳冲突的大小,可以消减30.8%的误差。2021/3/25194(四)斯皮尔曼等级相关

49、系数rs D D表示每个个表示每个个案在两个变案在两个变量上的等级量上的等级差异量差异量2021/3/251952021/3/251962021/3/25197适用于对称关系 rs取值范围为-1,+1rs2具有消减误差比例的意义2021/3/25198Rs=+0.472021/3/25199(五)Kendalls tau系数2021/3/25200三、两个定距变量三、两个定距变量:Pearson积差相关积差相关(一)公式(二)r取值范围-1,+12021/3/25201(三)计算示例2021/3/25202(四)r系数适用于对称关系,也可近似用于非对称关系(五)r2具有消减误差的意义2021/

50、3/25203四、定类变量与定距变量四、定类变量与定距变量:相关比率相关比率E2(一)适用于一个定类变量X为自变量,一个定距变量Y为因变量的情形2021/3/252042021/3/25205(二)计算公式(三)E2具有消减误差比例的意义;E值范围0,1。2021/3/25206E2=0.70, E=0.842021/3/25207五、定类变量与定序变量五、定类变量与定序变量: Lambda,tau-y 2021/3/252082021/3/25209练习:请分别计算练习:请分别计算tau-y tau-y tau-y1.138; tau-y2.2242021/3/25210相关系数值在相互比较

51、时,更显出其意义。然而要相互比较,就要尽可能采用同样的相关测量法。2021/3/25211六、定序变量与定距变量六、定序变量与定距变量: :相关比率相关比率E E2 22021/3/25212练习:请分别计算练习:请分别计算E E2 2及及E EE21=0.02, E1=0.14; E22=0.70, E2=0.842021/3/25213七、本章小节七、本章小节2021/3/25214第四章第四章 概率与统计推断概率与统计推断第一节 抽样的意义与问题第二节 抽样的历程第三节 随机与非随机抽样法参阅 风笑天:现代社会调查方法2021/3/25215第四节第四节 概率与抽样分布概率与抽样分布推断

52、统计推断统计(inferential statistics):通过对样本数据的统计分析,在一定可靠程度上推测相应的总体的数据特征及规律。统计值统计值(statistic):即样本值参数值参数值(parameter):即总体值代表性样本代表性样本(representative sample):是指可以从这个样本的数据对总体的特征做出准确的、无偏估计的一个样本。2021/3/25216一、二项抽样分布一、二项抽样分布 2021/3/252172021/3/252182021/3/252192021/3/252202021/3/25221二项抽样分布特征:每次抽样只有两种可能结果;每次抽样“成功”的

53、概率为P,失败的概率为Q,P+Q=1,且每次抽样的概率都相同;每次抽样相互独立;抽样可重复N次;在N次抽样中,出现“成功”的次数的概率分布就叫二项分布。2021/3/25222二、均值抽样分布2021/3/252232021/3/252242021/3/252252021/3/252262021/3/25227均值抽样分布特征:如果样本相当大,则抽样分布接近正态分布;抽样分布的均值就是总体均值,抽样分布的标准差叫标准误(standard error);2021/3/252282021/3/252292021/3/25230有95%的样本均值在M1.96SE范围内,有99%的样本均值在M2.58

54、SE范围内。2021/3/252312021/3/252322021/3/25233三、参数估计与假设检验参数估计:统计值(样本)参数值(总体)假设检验:假设参数值,用样本统计值检验参数值是否正确。2021/3/25234第五章第五章 参数估计参数估计一、点估计与区间估计(一)点估计:用样本统计值来代表总体参数值。无偏估计与有偏估计(二)区间估计:估计总体参数值可能落入的区间范围。置信度:总体参数值落在某一区间时正确的概率。置信区间:总体参数值的区间范围。2021/3/25235置信区间与置信度成正比。二、均值的区间估计 =.052021/3/252362021/3/25237 =.01置信区

55、间的大小与样本的大小成反比。置信区间的大小与样本的大小成反比。2021/3/25238例:2021/3/252392021/3/25240三、百分比的区间估计 =.052021/3/25241 =.012021/3/25242例:2021/3/252432021/3/252442021/3/252452021/3/25246四、积矩相关系数的区间估计2021/3/252472021/3/252480.489 r0.6952021/3/25249第六章第六章 假设检验假设检验一、研究假设与虚无假设研究假设H1 虚无假设H0抽样分布H0为真,则为真,则H1为假;为假; H0为假,则为假,则H1为真

56、。为真。2021/3/25250二、否定域与显著性水平2021/3/252512021/3/252522021/3/25253而显著水平表示否定域在整个抽样分布中所占的比例,而显著水平表示否定域在整个抽样分布中所占的比例,也即表示样本的统计值落在否定域内的概率。也即表示样本的统计值落在否定域内的概率。否定域否定域CR就是抽样分布内一端或两端的小区域,如就是抽样分布内一端或两端的小区域,如何样本的统计值在此区域范围内,则否定虚无假设。何样本的统计值在此区域范围内,则否定虚无假设。2021/3/25254三、单侧(尾)与双侧(尾)检验2021/3/25255四、型错误与型错误型错误:拒绝H0时所犯

57、的错误。犯型错误的概率通常以表示,故又称型错误。型错误:接受H0时所犯的错误。犯型错误的概率通常以表示,故又称 型错误。型错误与 型错误成反比。2021/3/252562021/3/25257五、单均值的Z检验适用条件样本是随机抽取的n100或n30均值的抽样分布近似为正态分布2021/3/252582021/3/25259例:从全区工人中随机抽取n=120名工人进行一项政治水平的测验,发现样本平均分为 =57分,标准差S=18.5。可否证明全区工人该项测验的平均分M=60分。设p=0.05。2021/3/25260解:n=120,2021/3/252612021/3/25262Z-1.96,

58、故接受H0,即全区工人该项测验的平均分为60分。2021/3/25263若H1:M60 H0:M=60解:这是单尾检验,查表得Z-1.652021/3/252642021/3/25265Z-1. 65,故否定H0,接受H1,即全区工人该项测验的平均分小于60分。若p=0.01,仍为左侧单尾检验,查表得Z-2.33,样本统计值Z=-1.78-2.33,故接受H0,即该区工人该项测验的平均分为60分。2021/3/25266例:有人调查早期教育对儿童智力发展的影响,从受过良好早期教育的儿童中随机抽取n=70人进行韦氏儿童智力测验,结果样本平均数为 =103.3,能否认为受过良好早期教育的儿童智力高

59、于一般水平(总体M=100,=15)。2021/3/252672021/3/25268H1:M100 H0:M=100p=.05查表得:Z1.65 依题意:2021/3/25269Z=1.84 1.65 拒绝H0,接受H1,即即受过良好早期教育的儿童的平均智力要优于一般儿童的智力。 2021/3/25270六、单均值的t检验适用条件样本是随机抽取的n302021/3/25271自由度(degrees of freedom,df):有多少个案的数值可以随意变更。自由度是指样本中独立的或能自由变化的数据的个数。自由度是指样本中独立的或能自由变化的数据的个数。例:一个样本n=4,数据分别为 8、9、

60、11、12 , =10 要保证平均数恒定,只能自由改变3个数据,如7、15、8,第四个数必定为10。 2021/3/25272对于样本,由于 是固定的,所以df=n-1对于总体,由于是未知的,所以df=n2021/3/25273t的抽样分布的形状(如扁平或高耸的程度)取决于自由度。2021/3/25274t分布表(P391,附录5:t分布)2021/3/25275例:一个随机样本,n=26, =65,S=10。H1:M60 H0:M=60p.05解:df=n-1=26-1=25,查表得:t1.708样本2021/3/25276t=2.51.708拒绝H0,接受H1,即全校学生的平均成绩优于60

61、分。2021/3/25277七、两个均值差异的Z检验H1:M1M2 or M1M20 H0:M1=M2 or M1M2=0 2021/3/25278适用条件两个样本都是随机抽样;两个总体都是正态分布;两个总体的标准差(方差)是相等的(?)大样本,n1+n2100或n302021/3/252792021/3/25280例:2021/3/25281解:Z=1.311.96,故接受H0,即甲乙两地农民请客送礼平均支出无显著差异(两样本均值的差异只是抽样误差造成的而已)。 2021/3/25282练习练习:从某地区的六岁儿童中随机抽取男生30人,测量身高,平均为=114cm;抽取女生27人,平均身高=

62、112.5 c m。根据以往累积资料,该地区六岁儿童身高的标准差1=5cm,女童身高标准差2=6.5cm,能否根据这一次抽样测量的结果下结论:该地区六岁男女儿童身高有显著差异?参考答案:Z=0.961.96,即P0.05,所以该地区六岁儿童男女身高差异不显著。 2021/3/25283八、两个均值差异的t检验 适用条件两个样本都是随机抽样;两个总体的标准差(方差)是相等的(?)小样本,n1+n2100或n302021/3/252842021/3/25285例:解:解:2021/3/25286查表得:查表得:2021/3/25287t=2.5302.528,故否定虚无假设,接受备择假设,即戒烟运

63、动可显著减少抽烟量。 2021/3/25288例例:从某地区的六岁儿童中随机抽取男生30人,测量身高,平均为=114cm;抽取女生27人,平均身高=112.5 c m。根据以往累积资料,该地区六岁儿童身高的标准差1=5cm,女童身高标准差2=6.5cm,能否根据这一次抽样测量的结果下结论:该地区六岁男女儿童身高有显著差异?2021/3/25289解:查表得:t0.05/2(30+27-2)=t0.05/2(55)=2.00,所以t=0.96t0.05/2(55)=2.00,即该地区男女儿童身高差异不显著。2021/3/25290相关样本的t检验例:某幼儿园在儿童入园时对49名儿童进行比奈智力测

64、验, 结果平均智商为106,一年后再对同组被试施测,结果智商平均分为110,已知两次测验结果的相关系数为0.74,问能否说随着年龄的增长与一年的教育,儿童的智商有了显著提高?2021/3/252912021/3/25292例:2021/3/25293t=1.6672.015,故接受虚无假设,即,故接受虚无假设,即计划生育宣传不能达到减少男青年的理计划生育宣传不能达到减少男青年的理想儿女数目。想儿女数目。 查表得:查表得:2021/3/25294例:某幼儿园在儿童入园时对49名儿童进行比奈智力测验, 结果平均智商为106,一年后再对同组被试施测,结果智商平均分为110,已知两次测验结果的相关系数

65、为0.74,问能否说随着年龄的增长与一年的教育,儿童的智商有了显著提高?2021/3/25295t0.05(49-1)=t0.05(48)1.684t0.01(49-1)=t0.01(48)2.4232021/3/25296例:某研究者认为哥哥比弟弟更具创造性,故随机抽取10对兄弟进行创造性测验,结果如下,假设测验成绩符合正态分布。问兄弟之间的创造性是否有显著的差异?哥哥:65 48 63 52 61 53 63 70 65 66 合计 弟弟: 61 42 66 52 47 58 65 62 64 69 d 4 6 -3 0 14 -5 -2 8 1 -3 20d2 16 36 9 0 196

66、 25 4 64 1 9 360查表得:t0.05(10-1)=t0.05(9)=2.2632021/3/25297SPSS演示与实作2021/3/25298九、单百分率与百分率差异的检验百分率是均值的一种特殊形式百分率是均值的一种特殊形式(一)单百分率的Z检验当n30,且nP5 & n(1P)5,样本较大,百分率的抽样分布近似正态分布,可用Z作为检验统计量。 2021/3/252992021/3/25300回忆比较:百分比的区间估计 =.052021/3/25301 =.012021/3/25302例:一休闲娱乐杂志声称其读者群中女性占80%,为验证这一说法是否属实,某研究机构抽取了由200

67、人组成的一个随机样本,发现有146个女性经常阅读该杂志。分别取显著性水平=0.05和=0.01,检验该杂志读者群中女性的比例是否为80%。 2021/3/25303解:H0=80%,H180%P0.05,则|Z|1.96 检验统计量 2021/3/25304Z=2.4751.96,故否定H0,接受H1,即该杂志的说法并不属实,该杂志女性读者的比例应超过80%。 2021/3/25305(二)两个百分率差异的Z检验两个随机样本百分率之差的抽样分布接近正态分布,用两个随机样本百分率之差的抽样分布接近正态分布,用Z检验法。检验法。 2021/3/25306例:P0.001,查表得 2021/3/25

68、307Z=6.5603.30,故否定H0,接受H1,即两地小家庭所占比例是不同的。 2021/3/25308练习:1.国际色觉障碍讨论会宣布,每12个男子中,有一个是先天性色盲。从某校抽取的1200名男生中有60人是色盲,问该校男子色盲比率与上述比例是否有显著差异?(答案:Z=1.211.96) 2.从甲乙两校各自随机抽出学生160名和150名,发觉体育“达标”人数分别是115和130,问甲乙两校学生体育“达标”率是否有显著差异?(答案: Z=3.1961.96 ) 2021/3/25309第七章第七章 双变量关系的假设检验双变量关系的假设检验相关样本总体2021/3/25310E1=40(1

69、0040)/100+ 50(10050)/100+ 10(10010)/100=58E2=10(60-10)+40(60-40)+10(60-10)/60 +30(40-30)+10(40-10)+0(40-0)/40=45tau-y=(58-40)/58=0.2242021/3/25311一、卡方检验(chi square test)适用条件:(1)随机样本;(2)两个变量都是定类变量或一个定类一个定序变量。 2021/3/25312实际次数实际次数预期次数预期次数2021/3/25313边缘次数边缘次数边缘次数边缘次数条件次数条件次数条件次数表条件次数表2021/3/25314列联表的大小

70、列联表的大小表的大小就是横行数目(rows,简写r)乘上纵列数目(columns,简写c),即表的大小表的大小rc一般用横行表示因变量,纵列表示自变量。列联表的简单分析2021/3/253152021/3/25316性别与四级英语考试通过率的相关统计性别与四级英语考试通过率的相关统计表述:统计结果显示,当性别取值不同时,通过率变量的表述:统计结果显示,当性别取值不同时,通过率变量的取值并未发生变化,因此性别与考试通过率无关。取值并未发生变化,因此性别与考试通过率无关。通过率变量性别变量2021/3/25317性别与四级英语考试通过率的相关统计性别与四级英语考试通过率的相关统计表述:统计结果显示

71、,当性别取值不同时,通过率变量的表述:统计结果显示,当性别取值不同时,通过率变量的取值发生了变化,因此性别与考试通过率相关。取值发生了变化,因此性别与考试通过率相关。通过率变量性别变量2021/3/253182021/3/253192021/3/253202021/3/25321例:2021/3/253222021/3/25323df=(r1) (c1)= (21) (21)=1, 2021/3/25324查附录六表得,23.841 2=30.3893.841,故否定H0,接受H1,即性别与最敬佩父亲还是母亲有关。 2越大,越大,H0正确的可能性越小,正确的可能性越小,H1正确正确的可能性越大

72、。的可能性越大。 2021/3/25325SPSS演示及练习P404(八A)前三个问题。 P82,表4-1。P83,表4-2。P85,表4-3。2021/3/25326边缘次数边缘次数边缘次数边缘次数条件次数条件次数条件次数表条件次数表2021/3/253272021/3/253282021/3/25329P0.001,df=4,218.465 2021/3/253302=35.83318.465,故否定H0,接受H1,即青年人的受教育水平与其最大志愿显著相关。 2021/3/25331Pearson卡方:n40,e 5Continunity correction卡方:22表(df=1), n

73、40, 1e 52021/3/253322021/3/25333与卡方有关的相关测量法:Phi相关系数列联相关系数V相关系数2021/3/25334Ns=4Nd=3G=(4-3)/(4+3)=+0.14可见,工人积极性与产量成正相关。然而,二者可见,工人积极性与产量成正相关。然而,二者的相关程度很弱。若以一个变量来预测另一个变的相关程度很弱。若以一个变量来预测另一个变量,只可以消减量,只可以消减14的误差。的误差。回顾两个定序变量的相关回顾两个定序变量的相关2021/3/25335dy相关测量法 在因变量上的同分在因变量上的同分对数对数Ty:只在因变:只在因变量上的等级相同的量上的等级相同的一

74、对个案为一对个案为1个同个同分对。分对。2021/3/25336Ns=4Nd=32021/3/25337二、两个定序变量相关的检验适用条件:(1)随机样本;(2)两个变量都是定序变量;(3)n1002021/3/25338G=0时,时,G值的抽样分布近似正态分布值的抽样分布近似正态分布大样本大样本n302021/3/25339小样本小样本n302021/3/25340NS=f11(f22+f23+f32+f33)+f12(f23+f33)+f21(f32+f33)+f22(f33)=23(55+28+94)+20(28+24)+11(27+24)+55(24)6003Nd=f13(f22+f2

75、1+f32+f31)+f12(f21+f31)+f23(f32+f31)+f22(f31)4(55+11+27+8)+20(11+8)+28(27+8)+55(8)=2204Ty=f11(f12+f13)+f12(f13)+f21(f22+f23)+f22(f23)+f31(f32+f33)+f32(f33)=23(20+4)+20(4)+11(55+28)+55(28)+8(27+24)+27 (24)=41412021/3/25341可见,婆媳冲突与住户密度呈正相关,即住户的人口密度越高,婆媳冲突越大。如果以住户人口密度来预测或估计婆媳冲突的大小,可以消减30.8%的误差。2021/3/2

76、53422002021/3/25343单尾检验单尾检验查表得:查表得:Z=3.3463.09,故否定H0,接受H1,即住户人口密度与婆媳冲突呈正相关。2021/3/25344SPSS演示及练习P404(八A)最后一个问题。P405(八B)。P400(三)P401402(四A)、(四B)、(四C)2021/3/25345三、单因素方差分析与F检验ANOVAanalysis of varianceone-way ANOVA2021/3/25346回顾一个定类变量与一个定距变量的相关回顾一个定类变量与一个定距变量的相关2021/3/253472021/3/253482021/3/25349单因素方差

77、分析(one-way ANOVA)F检验适用条件(1)随机样本;(2)一个定类变量,一个定距变量;(3)各组总体正态分布。2021/3/253502021/3/253512021/3/25352查附录七 F分布表得:F6.11F=19.836.11,故否定H0,接受H1,即三类家庭背景学生的英文平均成绩有显著差异。2021/3/253532021/3/25354F检验的原理总平方和TSS (total sum of squares)2021/3/25355组间平方和BSS (between groups sum of squares)2021/3/25356组内平方和WSS (within g

78、roups of squares)2021/3/253572021/3/25358查附录其七表得:F=0.354.41,故接受H0,即家庭收入高与低的学生的英语水平没有显著差异,或家庭收入与学生的英语水平不相关。2021/3/25359SPSS演示及练习计算Viagra.sav数据的F值。P405(八C)SPSSTeach.sav、Tumour.sav2021/3/25360四、两个定距变量相关的检验2021/3/25361回顾回顾pearsonpearson积矩相关积矩相关三、两个定距变量三、两个定距变量:Pearson积差相关积差相关(一)公式(二)r取值范围-1,+12021/3/253

79、62(三)计算示例2021/3/25363(四)r系数适用于对称关系,也可近似用于非对称关系(五)r2具有消减误差的意义2021/3/25364回顾简单线性回归回顾简单线性回归2021/3/25365Record1.sav2021/3/253662021/3/253672021/3/253682021/3/253692021/3/25370例:若p=0.01,查附录表七得:F=13.3612.25,故否定H0,接受H1,即女青年受教育水平与其家务劳动时间显著负相关。2021/3/25371若p=0.01,单侧检验,查附录表五得:因t=3.654 2.998,故否定H0,接受H1,即女青年受教育

80、水平与其家务劳动时间显著负相关。2021/3/25372SPSS演示及练习P405(八D)Record1.sav t检验P402(四D)2021/3/25373五、U检验Mann-Whitney U test适用条件: 一个二分定类变量与一个定序变量。2021/3/253742021/3/25375H0:大城市的空气质量等级与小城镇的无关H1:大城市的空气质量等级与小城镇的有关2021/3/253762021/3/253772021/3/253782021/3/25379P0.01,则|Z|2.58Z= - 2.60-2.58,故拒绝H0,接受H1,即大城市与小城镇的空气质量有显著的差异。从R

81、2与R1的值可知,小城镇的空气质量显著优于大城市的。2021/3/25380六、H检验Kruskal-Wallis test适用条件: 一个2个水平以上的定类变量与一个定序变量。2021/3/253812021/3/253822021/3/25383H0:分类变量各组的等级无差异H1:分类变量各组的等级有差异2021/3/25384P0.05,df=2,查附录表六得:25.991 因H=6.4795.991,故接受H0,即三组的等级无显著差异。2021/3/25385SPSS演示及练习MenLikeDogs.sav U检验coulrophobia.sav H检验(0为完全不怕小丑,5为非常害怕

82、小丑)2021/3/25386复习一复习一书第四章、第八章(PPT第三章:双变量关系的描述统计;第七章:双变量关系的假设检验) 2021/3/253872021/3/25388练习练习2021/3/253892021/3/253902021/3/25391Barglow等(1987)研究婴儿在其母亲照看和由保姆照看时表现出的安全感有无差异。研究者选取了110名12个月大的婴儿进行研究,这些婴儿都来自于中产阶层的三口之家。其中大约一半的家庭,其妈妈待在家中照看孩子,另一半家庭的妈妈至少近4个月内白天在外全职工作。结果发现“全职妈妈”组56名婴儿中,属于“回避型”、“安全型”及“矛盾型”三种依恋模式的分别为5、40、11人;而“全职工作”组54名婴儿中,分属于三种依恋模式的分别为17、29、8人。试对上述数据进行统计分析并对结果进行解释。 2021/3/253922021/3/25393Thank you!2021/3/25394

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号