七统计方法与spss应用课件

资源描述

《七统计方法与spss应用课件》由会员分享，可在线阅读，更多相关《七统计方法与spss应用课件（96页珍藏版）》请在金锄头文库上搜索。

1、第七章：统计分析方法与SPSS应用探讨如何运用统计分析软件探讨如何运用统计分析软件SPSS对你的数据进行分析对你的数据进行分析.本部分主要内容Spss简介简介问卷编码问卷编码单变量描述性统计单变量描述性统计假设检验假设检验双变量统计分析双变量统计分析-相关与回归分析相关与回归分析第一讲 Spss概览-SPSS是软件英文名称的首字母缩写，原意为StatisticalPackagefortheSocialSciences，即“社会科学统计软件包”。但是随着SPSS产品服务领域的扩大和服务深度的增加，SPSS公司已于2000年正式将英文全称更改为StatisticalProductandServic

2、eSolutions，意为“ “统计产品统计产品统计产品统计产品与服务解决方案与服务解决方案与服务解决方案与服务解决方案” ”，标志着SPSS的战略方向正在做出重大调整。功能强大、实用与美观统一的视窗风格SPSS最突出的特点就是操作界面极为友好，它使最突出的特点就是操作界面极为友好，它使用用Windows的窗口方式展示各种管理和分析数据的窗口方式展示各种管理和分析数据方法的功能，使用对话框展示出各种功能选择项，方法的功能，使用对话框展示出各种功能选择项，只要掌握一定的只要掌握一定的Windows操作技能，粗通统计分操作技能，粗通统计分析原理，就可以使用该软件为特定的科研工作服析原理，就可以使用

3、该软件为特定的科研工作服务。务。非专业统计人员的首选统计软件！非专业统计人员的首选统计软件！界界面面概概览览菜单栏工具栏变量栏数据区数据变量切换变量工作区变量工作区SPSSforWindows的界面的界面一一.SPSS的主窗口的主窗口v启动启动SPSS后，弹出对话框选项如下：后，弹出对话框选项如下：1.Runthetutorial-浏览操作指导浏览操作指导2.Typeindata-显示数据编辑窗口建立新数据文件显示数据编辑窗口建立新数据文件3.Runanexistingquery-运行一个已存在的文件运行一个已存在的文件4.CreatnewqueryusingDatabaseWizard-使用

4、数据库向导建立使用数据库向导建立一个新的文件一个新的文件5.Openanexistingdatasource-打开一个已存在的数据文件，打开一个已存在的数据文件，可可选择选择“.sav”文件文件6.Open another type of file-打开一个已存在的其它类型的文件7.Dont show this dialog in the future-再运行SPSS系统时不显示该对话框，直接进入数据编辑窗口v数数据据编编辑辑窗窗口口（SPSS SPSS Data Data EditorEditor）或或称称数数据据编编辑辑器器的的左左下下角角包包括括 “Data Data Vie

5、w”View”和和 “Variable Variable View”View”两两个个视视区区，分分别别定定义义变变量量的的值值（即即数数据据）和和变量（名称、类型等）。变量（名称、类型等）。二二.数据编辑窗口的主菜单数据编辑窗口的主菜单Edit：文件编辑文件编辑。vView：浏览编辑浏览编辑。vFile：文件操作文件操作。vData：数据管理数据管理。vTransform：数据转换数据转换。vAnalyze：统计分析统计分析。vGraphs：统计图表统计图表。vUtilities：实用程序实用程序。vHelp：帮助：帮助。vWindows：窗口控制：窗口控制。选择“VariableView”

6、项，定义变量（不不要要忘忘了了保存）保存）qName：变量名。变量名。不能超过不能超过8个字符个字符qType：变量类型。变量类型。共共8种类型，分别为：种类型，分别为：三、三、建立数据文件建立数据文件（一）定义变量（一）定义变量数值型变量（数值型变量（Numeric）Numeric为为标准数值型变量：默认总长度为8位，小数是2位。Comma为逗号型变量为逗号型变量：位数同上。整数部分，从右向左，每3位一个逗号。Dot为句号型变量为句号型变量：位数同上。整数部分，从右向左，每3位一个圆点，但对小数位的分割，应用逗号表示。字符串型变量（字符串型变量（String）变量的长度是任意的。Scient

7、ificnotation为为科科学学计计数数型型变变量量。如原始数据1231.3表示成科学计数型为12.313E2；Dollar为美元型变量。为美元型变量。在Comma型的基础上，增加一个美圆符号。CustomCurrency自定义型变量。自定义型变量。机器自动提示选择方法。日期型变量（日期型变量（Date）dd-mm-yy（日-月-年）如06-05-04mm-dd-yy（月-日-年）如05-06-04dd-mmmm(英文)-yyyy如06-May-2004当你选择当你选择Data类型后，系统会自动显示类型后，系统会自动显示日期类型，供你选择。日期类型，供你选择。qWidth：数数据据或或字字

8、符符串串的的宽宽度度。默默认认值值为为8个字符。个字符。qDecimal：小数位数。小数位数。qLabel：变变量量标标签签。用用来来说说明明变变量量所所代代表表的的意义。意义。qValue：对变量值的进一步说明。对变量值的进一步说明。如：如：1=男，男，2=女女qMissing：定义缺失值类型。定义缺失值类型。系系统统遗遗漏漏值值：数数值值变变项项读读入入了了空空白白值值或或非非数数值值数数据据，SPSSSPSS的的数据表上显示数据表上显示“.”.”。自自定定义义遗遗漏漏值值：特特殊殊的的数数据据，自自己己指指定定一一个个值值，计计算算机机会会作作为特殊值，计算时跳过。为特殊值，计算时跳过。

9、Columns：定定义义数数据据在在屏屏幕幕上上该该变变量量对对应应列列的的显显示示列列宽宽。默默认值为认值为8个字符，范围是个字符，范围是1-255。qAlign：定义数据在单元中的对齐方式。定义数据在单元中的对齐方式。qMeasure：定定义义度度量量变变量量类类型型。可可有有Scale、Ordinal和和Nominal。Scale：可可以以是是数数值值型型、日日期期型型和和货货币币型型变变量量，但但不不能能是是字字符符串型变量串型变量Ordinal：可可以以是是数数值值型型和和字字符符串串型型变变量量，一一般般要要求求变变量量有有较较明显的次序明显的次序Nominal：与与Ordinal

10、一一样样，只只是是不不要要求求变变量量有有次次序序关关系系，但但要要有较明显的类别有较明显的类别定义变量属性，建立数据库文件定义变量属性，建立数据库文件注意：变量名字母为首，后面可以跟字母和数字，注意：变量名字母为首，后面可以跟字母和数字，不超过不超过8位，不能跟其他字符，关键词不能做变位，不能跟其他字符，关键词不能做变量名量名最好不用中文作变量名，兼容性不好最好不用中文作变量名，兼容性不好注意宽度注意宽度标签标签数值标签数值标签缺失值缺失值（二）输入数据（二）输入数据选择选择“DataView”项，输入变量数据项，输入变量数据l l直接从数据编辑器中输入。直接从数据编辑器中输入。l l用用“

11、OpenFile”选择已存在的数据文件读入数据。选择已存在的数据文件读入数据。l l用用“OpenDatabase”读入数据。读入数据。用用“OpenFile”读入数据操作步骤如下读入数据操作步骤如下：在SPSS数据编辑器中按照“FileOpenData”可打开“OpenFile”对话框；在“OpenFile”对话框中打开“文件类型”下拉列表框，选中所要读入数据的类型，根据路径找到要读入的文件双击文件名即可。常用的是读入常用的是读入Excel数据。数据。例例1请将下面表格内容在请将下面表格内容在SPSS数据编辑器中输入。数据编辑器中输入。表1药品名药品名产地产地生产时间生产时间价格价格规格规格

12、滴眼液A中国2003/4/14日2.5元8毫升滴眼液A日本2002/12/2日2.7元8毫升滴眼液A美国2002/8/29日2.85元8毫升滴眼液B美国2003/2/18日3.2元5毫升（三）编辑数据（三）编辑数据1.修改数据修改数据找到所要修改的数据，激活（双击），修改即可。2.插入或删除一行数据插入或删除一行数据插入行：点击所要插入的行号，点击工具栏（或击右键）的“插入行Insertcase”的图标（望远镜图标的后面），就在此行增加一空行。删除行：找到所要删除的行，选中，按Delete键。3.插入或删除一列（一个变量）插入或删除一列（一个变量）插入列：点击所要插入的列号，点击工具栏的“插入

13、列Insertcase”的图标（望远镜图标的后面第2个），就在此列增加一空列。删除列：找到所要删除的列，选中，按Delete键。例例2.在例在例1的数据文件中完成插入与删除的功能的数据文件中完成插入与删除的功能.（四）保存分析结果（四）保存分析结果保存结果文件保存结果文件在结果浏览窗口中选择菜单File=Save，在文件名框中键入“文件名”并回车即可.Export:选择输出的内容选择输出的内容ExprotFile:填入输出的目标文件名填入输出的目标文件名ExportWhat:选择输出结果的哪些部分选择输出结果的哪些部分File:选择网页格式和纯文本格式选择网页格式和纯文本格式例例5.将例将例1

14、中保存的数据文件导出为文本文件中保存的数据文件导出为文本文件.第二讲第二讲问卷和编码问卷和编码对单选：对单选：顺序编码，顺序编码，1，2，3，4。对多选：对多选：01编码，几个选项几个变量编码，几个选项几个变量有限制数而多选了的，任意处理有限制数而多选了的，任意处理一、问卷调查表的编码一、问卷调查表的编码(一）单选题问卷调查表的编码一）单选题问卷调查表的编码1.题号代号不能重复，变量名称最好以英文字母为开头，字题号代号不能重复，变量名称最好以英文字母为开头，字母大小写均可。如母大小写均可。如A1,A2;B1,B2。2.同一量表的题号最好有相同的识别码。如表同一量表的题号最好有相同的识别码。如表

15、1都用都用a1,a2;表表2都用都用b1,b2。3.名义或类别变量的变量代码最好与其意义内涵有关。如年名义或类别变量的变量代码最好与其意义内涵有关。如年龄为龄为AGE，年级为，年级为YEAR，工作类别为，工作类别为JOB等。等。4.变量代码不要用中文字，如要加注部分变量的中文说明，变量代码不要用中文字，如要加注部分变量的中文说明，可于可于SPSS操作中修改。操作中修改。（二）复选题问卷调查表的编码（二）复选题问卷调查表的编码问卷调查表问卷调查表您的性别：您的性别：1男生 2女生您的职务：您的职务：1主任 2组长 3教师一一.您认为目前教改阻力来自哪些单位？（可复选）您认为目前教改阻力来自哪些

16、单位？（可复选）1教育行政单位 2学校行政人员 3家长团体4教师本身 5其他团体二二.您认为目前教改对哪些人会有影响？（可复选）您认为目前教改对哪些人会有影响？（可复选）1教师 2行政人员 3学生 4其他NUMsexjobA11 A12 A13 A14 A15 A21 A22 A23 A240011110110110100212001111000 变量编码表变量编码表NUM-编码编码（问卷编号）（问卷编号）Sex-性别性别 job-职务职务（单选）单选）A11-A15代表第一题代表第一题5个选项，选中者输入个选项，选中者输入1，未选中，未选中者输入者输入0注意：1、排序题：、排序题：如：您

17、一般在什么情况下送礼（选择最经常送如：您一般在什么情况下送礼（选择最经常送礼的礼的两个两个场合）？场合）？（1）婚嫁（2）生日（3）搬迁新居（4）探亲（5）探病（6）生子（7）中国传统节日（7）西方传统节日（8）其他第一经常场合第一经常场合_第二经常场合第二经常场合_对这样的排序题，可以按照要求，设计对这样的排序题，可以按照要求，设计2个变个变量，量，“第一经常场合第一经常场合”和和“第二经常场合第二经常场合”2、选多了、选多了单选选了多项，或者限制多选超额单选选了多项，或者限制多选超额两种处理办法：两种处理办法：无效处理随机处理，如：您的经济状况在学校属于的经济状况在学校属于（1）上层（2）

18、中上层（3）中层（4）中下层（5）下层同事选中同事选中1和和2，那么，第一次遇到这种情况，我，那么，第一次遇到这种情况，我就取第一个被选项，第二次遇到则取后一个被选就取第一个被选项，第二次遇到则取后一个被选中项，减少数据的缺失和误差中项，减少数据的缺失和误差3、没选（缺失值）、没选（缺失值）用户缺失值（非系统缺失值），用用户缺失值（非系统缺失值），用0或者或者9编码编码比如：您的年龄是_岁。没填则为99您的性别：男女没填则为0注意与栏位有关注意与栏位有关4、不适用情况、不适用情况当碰到被调查者不适用的情况时，被调查者不需要对这些问题进行作答，研究者可以用8，98等来赋值，如果答案有8，可以用0

19、代替。5、最好有一个问卷编号，便于出错之后的、最好有一个问卷编号，便于出错之后的修正修正请大家来看一份问卷，并试图进行编码请大家来看一份问卷，并试图进行编码编码二、调查数据录入二、调查数据录入在在spss中直接录入中直接录入数据窗口输入命令行输入从foxpro数据库dbf文件中读取*注意降低版本从excel文档中读取30名被访者的资料：名被访者的资料：（续）（续）30名被访者的资料：名被访者的资料：（续）（续）30名被访者的资料：名被访者的资料：数据录入之后的校验数据录入之后的校验先用频数统计命令进行先用频数统计命令进行简单频数分布统计简单频数分布统计其他方法：其他方法：if命令命令第三讲用第

20、三讲用SPSSSPSS进行基本统计分析进行基本统计分析例如：数据排序例如：数据排序l选择采单DataSort Casesl将主排序变量从左面的列表框中选到Sort by框中，并在Sort by框中选择按该变量的升序还是降序排序Ascending-升序，Descending-降序例：某班级男生的身高数据（单位：厘米）171182175177178181185168170175177180176172165160178186190176163183SPSS输出的频数分布表输出的频数分布表分类数据的众数分类数据的众数（算例）某城市居民关注广告类型的频数分布广告类型人数比例频率(%)商品广告服务广告金

21、融广告房地产广告招生招聘广告其它广告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计2001100数据：分类数据0商品广告商品广告顺序数据的众数（顺序数据的众数（算例算例）甲城市家庭对住房状况评价的频数分布回答类别甲城市户数（户）百分比（）非常不满意不满意一般满意非常满意24108934530836311510合计300100数据：顺序数据数据：顺序数据0不满意不满意SPSS的单变量描述统计命令的单变量描述统计命令一、一、Frequencies:频数分析频数分析AnalyzeDescriptiveStatistics

22、Frequencies示例：美国汽车家庭保有量示例：美国汽车家庭保有量变量值频数百分比有效百分比累计百分比二、平均数分析二、平均数分析AnalyzeCompare MeansMeans示例：美国汽车家庭保有量示例：美国汽车家庭保有量第四讲第四讲假设检验假设检验(Hypothesistesting)(Hypothesistesting)统计假设和检验统计量统计假设和检验统计量所谓统计假设，就是关于总体分布特征的某种论断。所谓统计假设，就是关于总体分布特征的某种论断。记总体参数为记总体参数为，若要判断，若要判断是否等于某已知数值是否等于某已知数值0，则该参数假设可表示为：，则该参数假设可表示为：H

23、0:=0，H1:0其中，假设H0:=0就是所要检验的假设，称为原假设或零假设；而假设H1:0则称为对立假设或备择假设。要检验某个假设是否正确，需根据样本所提供的信要检验某个假设是否正确，需根据样本所提供的信息来进行。息来进行。假设检验所以可行假设检验所以可行, ,其理论背景为实际其理论背景为实际推断原理推断原理, ,即即“小概率原理小概率原理”假设检验的内容假设检验的内容参数检验参数检验（8.28.2）非参数检验非参数检验总体均值总体均值,均值差的检验均值差的检验总体方差总体方差,方差比的检验方差比的检验分布拟合检验分布拟合检验（8.38.3）符号检验符号检验秩和检验秩和检验假设检验的理论依据

24、假设检验的理论依据假设检验的基本思路假设检验的基本思路是首先对总体参数值提出假设，然后再利用样本告知的信息去验证先前提出的假设是否成立。如果样本数据不能够充分证明和支持假设，则在一定概率条件下，应拒绝该假设；相反，如果样本数据不能够充分证明和支持假设是不成立的，则不能推翻假设成立的合理性和真实性。上述假设检验推断过程所依据的基本信念是小概率原理，即发生概率很小的随机事件，在某一次特定的实验中是几乎不可能发生的。用样本指标估计总体指标，其结论有的完全可靠，有的只有不同程度的可靠性，需要进一步加以检验和证实。通过检验，对样本指标与假设的总体指标之间是否存在差别作出判断，是否接受原假设。这里必须明确

25、，进行检验的目的不是怀疑样本指标本身是否计算正确，而是为了分析样本指标和总体指标之间是否存在显著差异。从这个意义上，假设检验又称为显著性检验。假设检验假设检验：先假定总体参数为：先假定总体参数为，用一个随机样本的，用一个随机样本的统计量统计量来检验总体参数为来检验总体参数为的假设是否成立。的假设是否成立。总体总体=38%样本样本32%? ?（或者说）假设检验：是建立在样本信息基础假设检验：是建立在样本信息基础上，上，“接受接受”或或“拒绝拒绝”假设的统计过程。假设的统计过程。（又称（又称“显著性检验显著性检验”）所有这些听起来非常专业的技术，都是我们每所有这些听起来非常专业的技术，都是我们每天

26、在做的推理形式，只不过没有用天在做的推理形式，只不过没有用“假设假设”或或“参数参数”这些术语罢了。这些术语罢了。例如：比尔为什么开始系安全带了？例如：比尔为什么开始系安全带了？直觉假设检验直觉假设检验假设检验的五个基本步骤假设检验的五个基本步骤1、开始陈述你相信存在于总体的事实，即总体均值和百分、开始陈述你相信存在于总体的事实，即总体均值和百分率率。（如，比尔相信只有。（如，比尔相信只有10%的司机系安全带。）的司机系安全带。）2、抽取一个随机样本，然后测定样本统计量、抽取一个随机样本，然后测定样本统计量。（比尔发现。（比尔发现他的朋友中有他的朋友中有80%的人系安全带。）的人系安全带。）3

27、将统计量与假设的参数进行比较将统计量与假设的参数进行比较。（比尔注意到。（比尔注意到80%和和10%有很大区别。）有很大区别。）4、决定样本是否支持最初的假设、决定样本是否支持最初的假设。（观察到。（观察到80%的司机系的司机系安全带的事实并不支持只有安全带的事实并不支持只有10%的人系安全带的假设。）的人系安全带的假设。）5、如果样本不支持假设，修正假设使得他与样本统计量一、如果样本不支持假设，修正假设使得他与样本统计量一致致。（驾驶员系安全带的事实事件发生率约为。（驾驶员系安全带的事实事件发生率约为80%。）。）第一：提出原假设（记为H0）第二：选择检验统计量第三：计算检验统计量观测值发生

28、的概率。第四：给定显著性水平，并作出统计决策。正确正确正确正确假设检验的两类错误假设检验的两类错误犯第一类错误的概率通常记为犯第一类错误的概率通常记为犯第二类错误的概率通常记为犯第二类错误的概率通常记为表H0为真为真H0为假为假真实情况真实情况所作判断所作判断接受接受H0拒绝拒绝H0第一类错误第一类错误( (弃真弃真) )第二类错误第二类错误( (取伪取伪) ) 一般一般, ,作假设检验时作假设检验时, ,先控制犯第一类错先控制犯第一类错误的概率误的概率 , ,在此基础上使在此基础上使尽量地小尽量地小. .要降要降低低一般要增大样本容量一般要增大样本容量. .当当H H0 0不真时不

29、真时, ,参数值越接近真值参数值越接近真值, , 越大越大. .备择假设可以是单侧备择假设可以是单侧, ,也可以双侧也可以双侧. .注注 1 1 注注 2 2 关于原假设与备择假设的选取关于原假设与备择假设的选取H H0 0与与H H1 1地位应平等地位应平等, ,但在控制犯第一类但在控制犯第一类错误的概率错误的概率的原则下的原则下, ,使得采取拒使得采取拒绝绝H H0 0 的决策变得较慎重的决策变得较慎重, ,即即H H0 0 得到特得到特别的保护别的保护. .因而因而, ,通常把有把握的、有经验的结论通常把有把握的、有经验的结论作为原假设作为原假设, ,或者尽可能使后果严重的或者尽可能使

30、后果严重的错误成为第一类错误错误成为第一类错误. .注注 3 3 任何检验方法都不能完全排除犯错任何检验方法都不能完全排除犯错假设检验的指导思想是控制犯第一类假设检验的指导思想是控制犯第一类误的可能性误的可能性. .理想的检验方法应使犯两类理想的检验方法应使犯两类错误的概率都很小错误的概率都很小, ,但在样本容量给定的但在样本容量给定的情形下情形下, ,不可能使两者都很小不可能使两者都很小, ,降低一个降低一个, , 往往使另一个增大往往使另一个增大. .错误的概率不超过错误的概率不超过 , , 然后然后, ,若有必要若有必要, ,通通过增大样本容量的方法来减少过增大样本容量的方法来减少 .

31、 .假设检验步骤(三部曲三部曲) 其中其中q根据实际问题所关心的内容根据实际问题所关心的内容, ,建立建立H H0 0与与H H1 1q在在H H0 0为真时为真时, ,选择合适的统计量选择合适的统计量V V, ,由由H H1 1确确给定显著性水平给定显著性水平 , ,其对应的拒绝域其对应的拒绝域双侧检验双侧检验左边检验左边检验定拒绝域形式定拒绝域形式q根据样本值计算根据样本值计算, ,并作出相应的判断并作出相应的判断. .右边检验右边检验三部曲CompareMeans过程可计算对已知原始数据资料情况下的单样本T检验（One-SampleTTest）、独立样本T检验（Independent-S

32、amplesTTest）和配对样本T检验（Paired-SamplesTTest）独立样本独立样本T检验：即用两个独立样本的原检验：即用两个独立样本的原始资料对两个总体均值之差进行比较始资料对两个总体均值之差进行比较独立样本独立样本T检验举例：检验举例：例例1：由以往资料知道，甲、乙两个煤矿蕴藏的煤：由以往资料知道，甲、乙两个煤矿蕴藏的煤含灰量都服从正态分布并且有公共方差。现从两矿含灰量都服从正态分布并且有公共方差。现从两矿各抽几个试样，分析其含灰率得（各抽几个试样，分析其含灰率得（%）：）：甲矿甲矿：24.5、21.3、23.5、22.4、27.1、18.6、19.8、20.7、21.2、1

33、6.9乙矿乙矿：15.7、24.9、25.1、23.2、18.8、19.0、19.9、26.1、16.8、17.5、22.4、20.6问两矿所采煤的平均含灰率有无显著差异问两矿所采煤的平均含灰率有无显著差异（=0.05）？）？解：依题意，设解：依题意，设H0:u=u1，H1:uu1（1）定义变量）定义变量X(含灰量）和分类变量含灰量）和分类变量g（1，甲矿；，甲矿；2，乙矿），乙矿）（2）AnalyzeCompareMeansIndependent-SamplesTTest单样本T检验l住房状况调查：推断家庭人均住房面积住房状况调查：推断家庭人均住房面积的平均值是否为的平均值是否为20平方米。

34、平方米。lAnalyze-CompareMeans-One-sampleTtest两独立样本T检验住房状况问卷调查：推断本市户口总体住房状况问卷调查：推断本市户口总体和外地户口总体的家庭人均住房面积的和外地户口总体的家庭人均住房面积的平均值是否有显著性差异。平均值是否有显著性差异。Analyze-CompareMeans-Independent-sampleTtest两配对样本的t检验为研究某冲减肥茶是否具有明显的减肥效果，为研究某冲减肥茶是否具有明显的减肥效果，某美体健身机构对某美体健身机构对3535名肥胖志愿者进行了减肥名肥胖志愿者进行了减肥跟踪调查。首先将其喝减肥茶以前的体重记录跟踪调查

35、。首先将其喝减肥茶以前的体重记录下来，三个月后再将其喝茶后的体重记录下来。下来，三个月后再将其喝茶后的体重记录下来。通过这两组样本的数据的对比分析，推断减肥通过这两组样本的数据的对比分析，推断减肥茶是否具有明显的减肥作用。茶是否具有明显的减肥作用。Analyze-CompareMeans-Paired-sampleTtest方差分析在制定某商品广告宣传策略时，不同组合的方案所获得的广告效果是不一样的。广告效果可能会受到广告的形式、地区规模、选择的栏目、播放的时间段、播放的频率等因素的影响。人们需要研究在影响广告效果的众多因素中，哪些因素是主要的，它们是如何产生影响的，哪些因素的搭配是最合理的，

36、等等。这里可以用方差分析的方法进行分析。方差分析的原理方差分析认为观测变量值的变化受两类因素的影响：第一类是控制因素（控制变量）不同水平所产生的影响；第三类是随机因素（随机变量）所产生的影响。单因素方差分析举例某企业在制定某商品的广告策略时，收集了某企业在制定某商品的广告策略时，收集了该商品在不同地区采用不同广告形式促销后该商品在不同地区采用不同广告形式促销后的销售额数据，希望对广告形式和地区是否的销售额数据，希望对广告形式和地区是否对商品销售额产生影响进行分析。文件名：对商品销售额产生影响进行分析。文件名：“广告地区与销售额广告地区与销售额”原假设：原假设：不同广告形式没有对销售额产生显著影

37、响；（即不同广告形式没有对销售额产生显著影响；（即不同广告形式对销售额的效应同时为不同广告形式对销售额的效应同时为0）不同地区的销售额没有显著差异。（不同地区对不同地区的销售额没有显著差异。（不同地区对销售额的效应同时为销售额的效应同时为0）非参数检验非参数检验（AnayzeNonparametricTests）参数检验参数检验（如上例，利用样本统计量去测如上例，利用样本统计量去测试总体参数所做的假设试总体参数所做的假设）通常适用于一些特定的、严格的条件环境之下，其中一个典型的条件就是样本资料必须来自于正态样本资料必须来自于正态分布的总体分布的总体；当必要条件无法满足时，我当必要条件无法满足时

38、，我们可以采用们可以采用非参数统计方法非参数统计方法。其中的样本一致性检验和独立性检验则是其中的样本一致性检验和独立性检验则是使用使用DescriptiveStatistics中的中的Crosstabs过程完过程完成的。（成的。（举例：）举例：）例例2：两种产品购买者所喜欢收看的电视节：两种产品购买者所喜欢收看的电视节目有无差异？目有无差异？某市场研究进行了一次调查，藉以找出两产品的购买者某市场研究进行了一次调查，藉以找出两产品的购买者所喜爱收看的电视节目，从而为有关产品公司作广告提所喜爱收看的电视节目，从而为有关产品公司作广告提供参考资料。两产品购买者最喜欢收看电视节目的人数供参考资料。两产

39、品购买者最喜欢收看电视节目的人数调查结果如下：根据以上资料判断两种产品的购买者所调查结果如下：根据以上资料判断两种产品的购买者所喜欢收看的电视节目有无差异（喜欢收看的电视节目有无差异（=0.05）？）？电视节目电视节目甲产品甲产品乙产品乙产品总计总计新闻新闻电视剧场电视剧场体育体育实事论坛实事论坛音乐欣赏音乐欣赏娱乐游戏娱乐游戏戏剧园地戏剧园地1501201001401001509011017080100130130110260290180240230280200总计总计8508301680解：列联表，需要判断A产品和B产品购买者所喜欢收看的电视节目是否一致，可采用Chi-Square一致性检

40、验方法。（1）依题意，设）依题意，设H0:两种产品购买者所喜欢的电视节目无两种产品购买者所喜欢的电视节目无差异。差异。H1:两种产品购买者所喜欢的电视节目无差异。两种产品购买者所喜欢的电视节目无差异。（2）Spss过程过程-示例示例第五讲双变量关系描述统计（一）相关分析1定距定距定距尺度定距尺度（PearsonCor.）1）相关的含义）相关的含义:相关相关(Correlation)是用来作两个定距变量关是用来作两个定距变量关系的统计分析，考察两变量是否存在共同变化的系的统计分析，考察两变量是否存在共同变化的趋势。如年龄与收入。趋势。如年龄与收入。当两变量在同一方向上变化，称为有当两变量在同一

41、方向上变化，称为有正相关正相关；相；相反方向变化，称为反方向变化，称为负相关负相关；无变化即；无变化即无相关无相关。相关系数相关系数即用来表示相关的程度。即用来表示相关的程度。如：2）相关系数的计算公式：）相关系数的计算公式：由此公式可看出：由此公式可看出：1相关就是共变异数的标准化。相关就是共变异数的标准化。2相关系数相关系数r的取值范围在（的取值范围在（-1，+1）之间。）之间。+1代表完全正相关；代表完全正相关；-1表示完全负相关；表示完全负相关；0表示无相关。表示无相关。示例：通过此题来演算相关系数示例：通过此题来演算相关系数。2定序定序定序尺度定序尺度（SpearmanCor.）积差

42、相关的公式：积差相关的公式：积差相关又称积差相关又称等级相关等级相关，用来考察两个，用来考察两个定序变量间定序变量间的相关关系。的相关关系。它的公式是由积矩相关转变而来，它的公式是由积矩相关转变而来，其中，D是每一对因变量和自变量的序数的差值；N是总的排序的序数。3.SPSS中的相关统计命令中的相关统计命令Statistics-CorrelateBivariate（双变量相关分析）（双变量相关分析）4相关统计的输出格式相关统计的输出格式相关系数人数1、回归的含义：回归的含义：回归（回归（Regression，或，或LinearRegression）和相）和相关同样都用来分析两个定距变量间的关系

43、，但回关同样都用来分析两个定距变量间的关系，但回归有明确的因果关系假设。即要假设一个变量为归有明确的因果关系假设。即要假设一个变量为自变量，一个为因变量，自变量对因变量的影响自变量，一个为因变量，自变量对因变量的影响就用回归表示。如年龄对收入的影响。就用回归表示。如年龄对收入的影响。由于回归构建了变量间因果关系的数学表达，它由于回归构建了变量间因果关系的数学表达，它具具有统计预测功能。有统计预测功能。（二）线性回归2、回归的统计原理：、回归的统计原理：两个定距变量的回归是用函数两个定距变量的回归是用函数y=f（x）来分析的。我们最常用的是一元回归方程来分析的。我们最常用的是一元回归方程其中其中

44、x为自变量；为自变量；y为因变量；为因变量；a为截距，即常量；为截距，即常量；b为回归系数，表明自变量对因变量的影响程度。为回归系数，表明自变量对因变量的影响程度。Y=350+20xY=350+20x在统计学中，这一方程中的系数是靠在统计学中，这一方程中的系数是靠x与与y变量的变量的大量数据拟合出来的。大量数据拟合出来的。XYY=a+bx（x，y）由图中可以看出，回归直线应该是到所有数据点最由图中可以看出，回归直线应该是到所有数据点最短距离的直线。该直线的求得即使用短距离的直线。该直线的求得即使用“最小二乘方最小二乘方法法”，使，使:在拟合的回归直线方程中，回归系数：在拟合的回归直线方程中，回

45、归系数：表示表示x每变化一个单位时，每变化一个单位时，x与与y共同变化的程度（共共同变化的程度（共变异数）。变异数）。常数常数比如通过比如通过上学年数上学年数和和工资工资的关系计算得出下列的的关系计算得出下列的回归公式：回归公式：y=472+14.8x就可知上学年数每增长就可知上学年数每增长1年，工资会增加年，工资会增加14.8元；元；也可推测，上学年数为也可推测，上学年数为15年的人，工资收入应为年的人，工资收入应为472+14.8*15=694元。元。自变量因变量回归方式3、SPSS线性回归的输出格式：线性回归的输出格式：常数自变量回归系数标准化回归系数每月工资每月工资=823.3-3.4

46、87年龄年龄4、SPSS线性回归的统计命令线性回归的统计命令StatisticsRegressionLinear例例3：人均国民收入与人均消费额的关系分析：人均国民收入与人均消费额的关系分析现有现有1991-2003年某地区人均消费额与人均国民收入的数据，年某地区人均消费额与人均国民收入的数据，试研究人均国民收入对人均消费额产生的影响。试研究人均国民收入对人均消费额产生的影响。年份年份人均国民收入（元）人均国民收入（元）人均消费金额人均消费金额（元）（元）年份年份人均国民收人均国民收入（元）入（元）人均消费金人均消费金额（元）额（元）199119921993199419951996199739

47、3.8419.14460.86544.11668.29737.73859.972492672893294064515131998199920002001200220031068.81169.21250.71429.51725.92099.56436997138039471148解：该题属于一元线性回归问题。首先要判断解：该题属于一元线性回归问题。首先要判断地区人均消费额（地区人均消费额（Y）和人均国民收入（）和人均国民收入（X）是否显著相关。是否显著相关。（1）绘制散点图）绘制散点图（GraphsScatter.）(2)相关分析相关分析。（。（AnalyzeCorrelationBivaria

48、te）(3)线性回归分析线性回归分析。（AnalyzeRegressionLinear）结果说明：结果说明：示例示例汇报什么？汇报什么？假定你是一个公司的财务经理，掌握了公司的假定你是一个公司的财务经理，掌握了公司的所有数据，比如所有数据，比如固定资产、流动资金、每一笔固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等的分工和教育程度等等。如果让你向上面介绍公司状况，你能够把这些如果让你向上面介绍公司状况，你能够把这些指标和数字都指标和数字

49、都原封不动地摆出去吗原封不动地摆出去吗？当然不能。当然不能。你必须要把各个方面作出高度概括，你必须要把各个方面作出高度概括，用一两个用一两个指标简单明了地把情况说清楚。指标简单明了地把情况说清楚。主成分分析主成分分析每个人都会遇到有每个人都会遇到有很多变量很多变量的数据。的数据。比比如如全全国国或或各各个个地地区区的的带带有有许许多多经经济济和和社社会会变变量量的的数数据据；各各个个学学校校的的研研究究、教教学学等等各各种种变变量量的数据等等。的数据等等。这这些些数数据据的的共共同同特特点点是是变变量量很很多多，在在如如此此多多的的变变量量之之中中，有有很很多多是是相相关关的的。人人们们希

50、希望望能能够够找找出它们的出它们的少数少数“代表代表”来对它们进行描述。来对它们进行描述。介介绍绍两两种种把把变变量量维维数数降降低低以以便便于于描描述述、理理解解和和分分析析的的方方法法：主主成成分分分分析析（ principal principal component component analysisanalysis）和和因因子子分分析析（factor factor analysisanalysis）。实实际际上上主主成成分分分分析析可可以以说说是是因因子子分分析析的的一一个个特特例例。在在引引进进主主成成分分分分析析之之前前，先先看下面的例子。看下面的例子。成绩

51、数据（成绩数据（student.sav）100个个学学生生的的数数学学、物物理理、化化学学、语语文文、历历史、英语的成绩如下表（部分）。史、英语的成绩如下表（部分）。从本例可能提出的问题从本例可能提出的问题目目前前的的问问题题是是，能能不不能能把把这这个个数数据据的的6 6个变量用一两个综合变量来表示呢？个变量用一两个综合变量来表示呢？这这一一两两个个综综合合变变量量包包含含有有多多少少原原来来的的信信息呢？息呢？能能不不能能利利用用找找到到的的综综合合变变量量来来对对学学生生排排序序呢呢？这这一一类类数数据据所所涉涉及及的的问问题题可可以以推推广广到到对对企企业业，对对学学校校进进行行分分析

52、析、排排序序、判别和分类等问题。判别和分类等问题。主成分分析与因子分析的概念需要与可能：在各个领域的科学研究中，往往需要对反需要与可能：在各个领域的科学研究中，往往需要对反映事物的多个变量进行大量的观测，收集大量数据以便映事物的多个变量进行大量的观测，收集大量数据以便进行分析寻找规律。多变量大样本无疑会为科学研究提进行分析寻找规律。多变量大样本无疑会为科学研究提供丰富的信息，但也在一定程度上增加了数据采集的工供丰富的信息，但也在一定程度上增加了数据采集的工作量，更重要的是在大多数情况下，许多变量之间可能作量，更重要的是在大多数情况下，许多变量之间可能存在相关性而增加了问题分析的复杂性，同时对分

53、析带存在相关性而增加了问题分析的复杂性，同时对分析带来不便。如果分别分析每个指标，分析又可能是孤立的，来不便。如果分别分析每个指标，分析又可能是孤立的，而不是综合的。盲目减少指标会损失很多信息，容易产而不是综合的。盲目减少指标会损失很多信息，容易产生错误的结论。因此需要找到一个合理的方法，减少分生错误的结论。因此需要找到一个合理的方法，减少分析指标的同时，尽量减少原指标包含信息的损失，对所析指标的同时，尽量减少原指标包含信息的损失，对所收集的资料作全面的分析。由于各变量间存在一定的相收集的资料作全面的分析。由于各变量间存在一定的相关关系，因此有可能用较少的综合指标分别综合存在于关关系，因此有可

54、能用较少的综合指标分别综合存在于各变量中的各类信息。各变量中的各类信息。主成分分析与因子分析就是这样一种降维的方法。主成分分析与因子分析就是这样一种降维的方法。主成分分析与因子分析是将多个实测变主成分分析与因子分析是将多个实测变量转换为少数几个不相关的综合指标的量转换为少数几个不相关的综合指标的多元统计分析方法多元统计分析方法直线综合指标往往是不能直接观测到的，直线综合指标往往是不能直接观测到的，但它更能反映事物的本质。因此在医学、但它更能反映事物的本质。因此在医学、心理学、经济学等科学领域以及社会化心理学、经济学等科学领域以及社会化生产中得到广泛的应用。生产中得到广泛的应用。Thanks for your attention.Thanks for your attention.

展开阅读全文

七统计方法与spss应用课件

最新文档