EXCEL数据分析工具课件

资源描述

《EXCEL数据分析工具课件》由会员分享，可在线阅读，更多相关《EXCEL数据分析工具课件（192页珍藏版）》请在金锄头文库上搜索。

1、1.1 数据1.2 Excel基础1.3 属性数据分析1.4 数据展示图1.5 数值型数据分析第第1章章数据和数据分析数据和数据分析l根据数据的属性：数值型：123.1万元、23.5、4700点连续型数据：温度变化，如23.5、离散型数据：5个篮板、120个集装箱、属性型：用文字、判断等表示的数据天气晴、阴、雨；股市升、降；CPI高、中、低；质量好、中、差，属性型数据都是离散的。1.1 数据第第1章章数据和数据分析数据和数据分析商务数据的分类l根据数据的变化不随状态变化、相对稳定的数据称为静态数据。随状态变化的数据称为动态数据。项目数据数据性质姓名王大明静态性别男静态出生年月1970年

2、4月静态年龄37岁动态出生地北京静态学历本科静态身高176厘米静态体重73公斤动态年收入13万元动态1.1 数据商务数据的分类时间序列数据时间序列数据截面数据年份199619971998199920002001200220032004农村居民家庭56.355.153.452.649.147.746.245.647.2城镇居民家庭48.846.644.742.139.438.237.737.137.71996年2004年农村与城镇家庭恩格尔系数（食品支出占家庭总支出的百分比，单位：）按照时间前后发生的数据称为时间序列数据。按照时间前后发生的数据称为时间序列数据。1.1 数据20022006年某市

3、旅游接待与收入情况年某市旅游接待与收入情况年份20022003200420052006人次（万） 490229526565620人均消费（元）135138140145202收入总量（亿元）6.633.97.398.212.5l按时间划分序号地区2007年经济指标GDP（亿元）人口（万人）占地面积（平方千米） 1汉中 291.21 379.36 27246 2商洛 135.8 238.45 19292 3安康 189.85 265.25 23539 陕南陕南 2007年经济年经济指标：指标：同一时间段发生的数据称为截面数据。同一时间段发生的数据称为截面数据。1.1 数据截面数据截面数据定类数

4、据定类数据（Categorical/NominalData）由不同类别组成的数据称为定类数据。各类数据的类型和单位一般都不相同。不同类的数据之间有些可以运算，有些则不能运算。户总数（万户）总人口数（万人）男（万人）女（万人）全市204.52651.68332.62319.06市区120.56401.59204.43197.16桐庐县14.3239.4420.119.34淳安县14.6545.1623.3521.81建德市17.2150.8226.3724.45富阳市20.262.7832.0530.73临安市17.5951.8926.3125.571.1 数据l按相互关系划分定序数据定序数据

5、（OrdinalData）城市重庆德阳绵阳达县雅安西昌环境评价值环境评价值（无量纲）（无量纲）0.98830.1732 0.3172 0.7885 0.3713 0.6037评价等级评价等级三级一级二级三级二级二级仅表明对象的排列次序的数据称为定序数据，定序数据之间的差或比值一般没有意义。1.1 数据定距数据定距数据（Interval Data）数据没有绝对的零值，没有倍数、比例关系，只有相互之间的差距有实际意义。20082008年中国城市金融中心指数（引自年中国城市金融中心指数（引自“中国城市竞争力报告中国城市竞争力报告”）城市国际金融产业集聚金融业人才规模综合分上海北京深圳天津南

6、京杭州西安 10.7470.2470.3030.1850.0280.00610.7340.470.3010.3740.1870.31510.9410.690.6410.4930.4920.3961.1 数据定比数据（定比数据（Ratio Data）定比数据具有明确的零点，可以计算数据的比例。例如2008年美国的GDP是中国的4.15倍。国家GDP（亿美元）人均（美元）1美国139800462802日本52900414803中国3370025204德国32800397105英国25700424306法国25200412007意大利20900359808西班牙14100308209加拿大136

7、004147010俄罗斯1140080301.1 数据l根据数据的连续性离散数据离散数据数据是整数或者若干可能的结果之一。例如顾客投诉的次数，产品中不合格的个数，天气是晴天、阴天或下雨。连续数据连续数据数据是连续变量。例如产品的成本、利润、交货时间等。1.1 数据数据数据按类型划分数值数据属性数据按相互关系划分时序数据截面数据定类数据定序数据定距数据定比数据连续数据离散数据按时间划分静态数据动态数据按变化划分1.1 数据EXCEL软件简介n Microsoft ExcelMicrosoft Excel是一个功能强大、使是一个功能强大、使用灵活方便的电子表格软件，也是最为流行用灵活方便的电子表格

8、软件，也是最为流行的办公自动化软件，本课程主要利用的办公自动化软件，本课程主要利用EXCELEXCEL的统计分析功能和丰富的统计图表。的统计分析功能和丰富的统计图表。1.2 Excel 基础p工作表和单元格工作表和单元格p单元格的格式单元格的格式p数据输入方法数据输入方法p条件格式工具条件格式工具p数据分列工具数据分列工具1.2 Excel 基础主要内容p工作表和单元格工作表和单元格1.2 Excel 基础默认的Excel工作薄由三张工作表组成。最多可以包括255张工作表；最多可以输入256列。p工作表和单元格工作表和单元格1.2 Excel 基础单元格是Excel工作表的基本元素。单元格可分

9、为数据单元格和公式单元格。数据单元格=SUM(B$8:B$11)=SUM(C$8:C$11)=SUM(D$8:D$11)=$B$5*B8+$C$5*C8+$D$5*D8=$B$5*B9+$C$5*C9+$D$5*D9=$B$5*B10+$C$5*C10+$D$5*D10=$B$5*B11+$C$5*C11+$D$5*D11=SUM(F8:F11)p工作表和单元格工作表和单元格1.2 Excel 基础公式单元格例例1.1：p 单元格的格式单元格的格式Excel单元格有多种格式，包括：“常规、数值、货币、日期、时间、百分比、分数、科学计数、文本、特殊、自定义”等11种格式。1.2 Excel 基础

10、选定需要定义格式的单元格，打开Excel菜单：格式单元格，弹出单元格格式对话窗口：其中，“常规”和“文本”两种格式没有格式选项，其他格式都有不同的选项。例如“数值”格式有小数位数、是否选用千分位分隔符、负数的显示方式等选项。1.2 Excel 基础p 单元格的格式日期格式:可以把日期系列数显示为定义的日期格式。日期系列数是从1开始的整数，数字1表示1900年1月1日，2表示1900年1月2日等等。1.2 Excel 基础p 单元格的格式日期系列数和日期格式的转换如下图所示：=A2=A3=A201.2 Excel 基础p 单元格的格式不同的时间格式如下：1.2 Excel 基础p 单元格的格式数

11、据输入是数据分析和建模的第一步，采用正确的数据输入方法可以提高数据输入的效率、减少数据输入的错误。p数据输入方法1.2 Excel 基础Excel数据输入的方法有：l直接键盘输入l用自定义格式输入l输入序列l用“有效性”工具输入l用条件函数IF输入l用字符提取函数RIGHT、LEFT、MID输入l用查找函数VLOOKUP输入l直接键盘输入键盘输入是Excel数据输入最基本、最常用的输入方法。键盘输入遇到的常见问题有：数值格式输入的数字最大为15位，多于15位的数字将自动转换成科学计数格式。例如，常规或数值格式的单元格中输入18位身份证号码：，按回车确认后，显示为：3.3106E+17。因此，如

12、果需要输入15位以上的数字，需要将单元格定义为文本格式，或者在常规或数值格式单元格中，先输入撇号，然后输入数字。p数据输入方法l自定义格式输入如果某些单元格中输入的数据有相同的字符，例如，出生于20世纪、出生地为杭州市的身份证号码前8个字符“33010619”，可以将需要输入身份证号码的单元格定义为“自定义格式”如下：“33010619”。这样，输入身份证号码时，只需要输入后面10个字符，即可完整显示身份证号码。p数据输入方法以上“自定义格式”的对话窗口如下：p 数据输入方法用自定义格式输入后的效果如下图。其中黄色的单元格是用”33010619”自定义格式。p数据输入方法l输入序列1，2，3，

13、4，；一，二，三，四，；A，B，C，D，；甲，乙，丙，丁，；子，丑，寅，卯，等都是序列。数字序列的输入方法：输入数字序列的前两个数字，拖动单元格右下十字钮。或用Excel菜单“编辑填充序列”工具生成数据序列。p数据输入方法1.2 Excel 基础其他序列的方法：打开Excel菜单“工具选项自定义序列”；在对话框中输入一个序列，单击“添加”；定义序列以后，就可以用数字序列一样的方法输入。具体过程如下：Excel菜单：“工具选项自定义系列”对话窗口如下：p数据输入方法序列可以在对话窗口中直接输入，单击“添加”后生成。如下图：p数据输入方法也可以事先在Excel表中输入序列，然后在对话窗口中选用“从

14、单元格中导入序列”，选定$A$1:$A$7，单击“导入”生成序列。这种方法比较适合生成较长的序列。p数据输入方法1.2 Excel 基础自定义序列后，只要输入序列第一个值，拖动单元格右下十字钮，就可以输入整个序列。如图：p数据输入方法l用用“有效性有效性”工具输入工具输入Excel有效性工具是数据输入的常用方法，它可以提高输入效率，减少输入错误。打开Excel菜单：“数据有效性”，出现以下“数据有效性”对话窗口。其中有四个卡片：“设置”、“输入信息”、“出错警告”和“输入法模式”。p数据输入方法其中，“设置”卡片用来设置数据的有效性范围。例如，数值型数据可以设置最小值和最大值、字符型数据可以设

15、置字符长度等。一旦输入的数据在有效范围以外，将会出现出错警告。例如，职工“出生年月”的值应该在1949年（60岁）到1991年（18岁）之间；手机号码应该为11位，固话号码应该为8位，等等。p数据输入方法如果输入的数据是职工出生年月，在“允许”下拉菜单中选定“日期”，输入“开始日期”和“结束”日期：p数据输入方法如果输入的数据是职工身份证号码，在“允许”下拉中选定“文本长度”，“数据”下拉选定“等于”，“长度”输入18.p数据输入方法“输入信息”卡片用于用户定制选定输入单元格时出现的提示信息。例如，对于输入身份证号码的单元格，提示信息如下：p数据输入方法当选定输入单元格时，出现提示信息的效果如

16、下：p数据输入方法数据有效性工具还可以定制输入出错警告。定制输入职工出生日期的“出错警告”如下图：p数据输入方法定制输入职工身份证号码的“出错警告”如下图：数据输入方法输入的身份证号码不足18位时出现的错误警告。数据输入方法有效性工具中，可以建立输入项目的下拉菜单，特别适合输入定制的项目。先选定单元格C2:C17，然后打开“允许”下拉菜单，选定“序列序列”。p数据输入方法在“来源”中，输入定制项目单元格范围E2:E13，单击确定。将光标置于选定的C2:C17的每一个单元格，都将出现下拉箭头。数据输入方法选定下拉菜单中的院校名称，就可以方便地输入所选内容。数据输入方法如果出现的条件有两个以上，可

17、用嵌套的IF函数实现。例如：如果奖金发放金额由考核等级确定：AB1考核等级奖金额度2A20003B10004C0设考核等级单元格为A2，计算奖金额度的函数为：IF(A2=“A”,2000,IF(A2=“B”,1000,0)IF函数嵌套的层数最多为7层。由于多层嵌套的IF函数构造比较复杂，容易出错。多个条件的情况，还是推荐用函数VLOOKUP来实现。数据输入方法l用字符提取函数RIGHT、LEFT、MID输入（选读）许多数据包含不同的信息，例如18位身份证号码中就包含了出生地、出生日期、性别等信息。身份证中不同位置的数字对应的信息如下：123456789101112131415161718出生地

18、出生日期序号出生省出生市年份月份日期性别出生县要从身份证号码中提取相应的信息，就需要用以上三个函数。数据输入方法123456789101112131415161718出生地出生日期序号出生省出生市年份月份日期性别出生县设身份证号码单元格为A2，提取出生省份： LEFT(A2,2)*10000提取出生市：MID(A2,3,2)*100提取出生县：MID(A2,3,4)提取出生日期：MID(A2,7,4)&”-”&MID(A2,11,2)&”-”&MID(A2,13,2)提取序号：RIGHT(A2,4)提取性别：MOD(MID(A2,17,1),2)返回值1为男性，0为女性数据输入方法l用查找函数

19、VLOOKUP输入（选读）在表格或数值数组的首列查找指定的数值，并由此返回表格或数组当前行中指定列处的数值。VLOOKUP中的“V”代表垂直。VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)lookup_value为需要在数组第一列中查找的数值。col_index_num为table_array中待返回的匹配值的列序号。range_lookup为一逻辑值，指明函数VLOOKUP返回时是精确匹配还是近似匹配。如果为TRUE（1）或省略，则返回近似匹配值，也就是说，如果找不到精确匹配值，则返回小于lookup_value的最大

20、数值；如果range_value为FALSE（0），函数VLOOKUP将返回精确匹配值。table_array为需要在其中查找数据的数据表。对于非精确匹配查找，table_array的第一列必须排序，对于精确匹配查找，则不必排序。数据输入方法=VLOOKUP(B3,$G$2:$G$6,2,0)=VLOOKUP(B2,$G$2:$G$6,2,0)=VLOOKUP(B13,$G$2:$G$6,2,0)用VLOOKUP函数可以实现多个条件数据的查找和输入。数据输入方法lVLOOKUP在计算个人所得税中的应用=(B13-B14)*VLOOKUP(B13-B14,A2:E10,4,1)-VLOOKUP(

21、B13-B14,A2:E10,5,1)数据输入方法“条件格式”工具是将符合一定的条件的单元格的格式（边框、底色、文本格式、文本颜色等）改变为用户定制的形式。条件格式常用于突出显示某些单元格的内容，也可以用于美化Excel表格。例如，在根据考核等级评定奖金的Excel表中，将考核等级为A用红色表示。选定“考核等级”B2:B13，打开Excel菜单：“格式条件格式”：p条件格式工具1.2 Excel 基础在“条件1”下拉菜单中选择“单元格数值”，中间下拉菜单选择“等于”，右侧下拉菜单输入“A”。然后单击“格式”，选定文本字体和颜色。单击“确定”。p条件格式工具1.2 Excel 基础得到效果如下：

22、p条件格式工具1.2 Excel 基础在“条件格式”对话窗口中单击“添加”，可以增加第二个条件。“条件格式”最多可以有三个条件。p条件格式工具1.2 Excel 基础设置两个条件的“条件格式”产生的效果如下图：如果设置的多个条件是互相冲突的，不会出现任何提示，所定义的格式也不会起作用。p条件格式工具1.2 Excel 基础并不是所有的Excel的数据都需要用键盘输入，很多数据来自网络或其他信息系统，Excel读入这些数据后，往往需要根据数据不同的属性，将这些数据分为不同的列。Excel菜单：“数据分列”的数据分列工具就可以完成这一工作。Excel读入的数据有三种情况：读入的数据有三种情况：1.

23、字段之间有空格、逗号、制表符等分割符。字段之间有空格、逗号、制表符等分割符。2.字段没有任何分隔符，但每个字段的长度是确定的。字段没有任何分隔符，但每个字段的长度是确定的。3.字段之间既没有分隔符，字段的长度也各不相同。字段之间既没有分隔符，字段的长度也各不相同。对于前两种情况，对于前两种情况，Excel分列工具可以方便地实现分列。第分列工具可以方便地实现分列。第三种情况则需要用户分析数据的特点，在字段之间插入分隔三种情况则需要用户分析数据的特点，在字段之间插入分隔符，然后再实现数据分列。符，然后再实现数据分列。p数据分列工具数据分列工具1.2 Excel 基础p工作表和单元格工作表和单元格p

24、单元格的格式单元格的格式p数据输入方法数据输入方法p条件格式工具条件格式工具p数据分列工具数据分列工具从网上搜素并下载“身份证号码和地址对照表”如下：这个表只有一列，其中包括身份证号的前六位和相应的地址，两个字段之间有空格分隔。需要把身份证号和地址分为两列。p数据分列工具数据分列工具1.2 Excel 基础打开Excel菜单：“数据分列”，弹出“文本分列向导”，选择“分隔符号”，单击“下一步”。数据分列工具数据分列工具在“分隔符号”中选定“空格”，预览中出现分列的演示。单击“下一步”。数据分列工具数据分列工具设置数据的类型为“常规”，单击“完成”。数据分列工具数据分列工具这样就完成了数据分列。

25、数据分列工具数据分列工具注意到这个数据的第一个字段“身份证号”是六个字符，因此也可以用“固定宽度”分列。选定“固定宽度”，单击“下一步”。数据分列工具数据分列工具用户可以用“拖动分列线”自定义列宽。单击“下一步”。数据分列工具数据分列工具同样可以完成分列。数据分列工具数据分列工具实际应用中，所要分析的对象（公司、政府部门、人等）通常具有多个不同的属性，例如，部门、姓名、性别、年龄、职务、职称、专业等。在数据统计表中，这些数据称为“属性数据”。1.3 属性数据分析属性数据分析序号姓名性别生日专业部门职务职称学历月薪1邓赛鹏男1954年1月7日计算机控制研究室副所长高级工程师硕士78002吴起杭男

26、1964年11月9日通信通信研究室工程师本科57003曹平原男1977年11月27日通信通信研究室工程师本科37004马良男1980年1月1日计算机控制研究室助理工程师本科31005顾琳英女1962年3月31日管理控制研究室工程师本科59006马大晖男1968年12月16日计算机控制研究室工程师硕士51007孙晓斌男1974年4月24日管理光电研究室工程师本科43008车大明男1969年10月28日通信通信研究室工程师本科50009侯显耀男1976年6月2日计算机图形研究室工程师本科3900第第1章章数据和数据分析数据和数据分析1.1 数据1.2 Excel基础1.3 属性数据分析1.4 数

27、据展示图1.5 数值型数据分析实际应用中，所要分析的对象（公司、政府部门、人等）通常具有多个不同的属性，例如，部门、姓名、性别、年龄、职务、职称、专业等。在数据统计表中，这些数据称为“属性数据”。1.3 属性数据分析属性数据分析运用数据透视表可以对属性数据进行统计分析运用数据透视表可以对属性数据进行统计分析。p数据透视表数据透视表p单变量属性数据分析单变量属性数据分析p双变量属性数据分析双变量属性数据分析p数据透视表在问卷调查中的应用数据透视表在问卷调查中的应用数据透视表是Excel中的功能强大的工具。运用数据透视表可以对大量数据进行快速汇总，创建相应的多维统计表格。1.3 属性数据分析数据

28、透视表1.3 属性数据分析数据透视表例如：例如：创建汇总统计表格 1.3 1.3 属性数据分析属性数据分析单变量属性数据分析单变量属性数据分析用途：对性别、职称、品牌等单列属性数据进行分布统计。用途：对性别、职称、品牌等单列属性数据进行分布统计。序号姓名性别生日专业部门职务职称学历月薪1邓赛鹏男1954年1月7日计算机控制研究室副所长高级工程师硕士78002吴起杭男1964年11月9日通信通信研究室工程师本科57003曹平原男1977年11月27日通信通信研究室工程师本科37004马良男1980年1月1日计算机控制研究室助理工程师本科31005顾琳英女1962年3月31日管理控制研究室工程师

29、本科59006马大晖男1968年12月16日计算机控制研究室工程师硕士51007孙晓斌男1974年4月24日管理光电研究室工程师本科43008车大明男1969年10月28日通信通信研究室工程师本科50009侯显耀男1976年6月2日计算机图形研究室工程师本科39001.分析该研究所“男、女职工”的人数。n步骤：步骤： 1.打开打开“数据数据”菜单；菜单； 2.选择选择“数据透视表数据透视表”，按下一步；，按下一步； 3.选择选择“布局布局”； 4.单击变量单击变量“性别性别”，拖到，拖到“行行”区域中；区域中； 5.单击变量单击变量“性别性别”，拖到，拖到“数据数据”区域中；区域中； 6.双击

30、双击“求和项求和项”，在，在“汇总方式汇总方式”中选择中选择“计计数数”； 7.单击单击“确定确定”。单变量属性数据分析单变量属性数据分析1.3 属性数据分析示例：示例：对济南市饭店业进行前景调查，问卷数据如对济南市饭店业进行前景调查，问卷数据如下表所示。要求统计出下表所示。要求统计出业主类型业主类型的分类人数。的分类人数。 1.3 属性数据分析单变量属性数据分析单变量属性数据分析1.分析研究所的分析研究所的“职称结构职称结构”。序号姓名性别生日专业部门职务职称学历月薪1邓赛鹏男1954年1月7日计算机控制研究室副所长高级工程师硕士78002吴起杭男1964年11月9日通信通信研究室工程师

31、本科57003曹平原男1977年11月27日通信通信研究室工程师本科37004马良男1980年1月1日计算机控制研究室助理工程师本科31005顾琳英女1962年3月31日管理控制研究室工程师本科59006马大晖男1968年12月16日计算机控制研究室工程师硕士51007孙晓斌男1974年4月24日管理光电研究室工程师本科43008车大明男1969年10月28日通信通信研究室工程师本科50009侯显耀男1976年6月2日计算机图形研究室工程师本科39001.3 属性数据分析例1.2，打开教学光盘中的“研究所员工资料”：单变量属性数据分析单变量属性数据分析序号姓名性别生日专业部门职务职称学历月薪1

32、邓赛鹏男1954年1月7日计算机控制研究室副所长高级工程师硕士78002吴起杭男1964年11月9日通信通信研究室工程师本科57003曹平原男1977年11月27日通信通信研究室工程师本科37004马良男1980年1月1日计算机控制研究室助理工程师本科31005顾琳英女1962年3月31日管理控制研究室工程师本科59006马大晖男1968年12月16日计算机控制研究室工程师硕士51007孙晓斌男1974年4月24日管理光电研究室工程师本科43008车大明男1969年10月28日通信通信研究室工程师本科50009侯显耀男1976年6月2日计算机图形研究室工程师本科39001.分析各部门中分析各部

33、门中“男、女职工男、女职工”的人数。的人数。序号姓名性别生日专业部门职务职称学历月薪1邓赛鹏男1954年1月7日计算机控制研究室副所长高级工程师硕士78002吴起杭男1964年11月9日通信通信研究室工程师本科57003曹平原男1977年11月27日通信通信研究室工程师本科37004马良男1980年1月1日计算机控制研究室助理工程师本科31005顾琳英女1962年3月31日管理控制研究室工程师本科59006马大晖男1968年12月16日计算机控制研究室工程师硕士51007孙晓斌男1974年4月24日管理光电研究室工程师本科43008车大明男1969年10月28日通信通信研究室工程师本科5000

34、9侯显耀男1976年6月2日计算机图形研究室工程师本科39001.3 属性数据分析例1.2，打开教学光盘中的“研究所员工资料”：双变量属性数据分析两维表格（列联表）两维表格（列联表）用途：对性别、职称等属性数据进行相关关系描述。用途：对性别、职称等属性数据进行相关关系描述。1.3.1 数据透视表数据透视表1.3.2 单变量属性数据分析单变量属性数据分析1.3.3 双变量属性数据分析双变量属性数据分析1.3.4 数据透视表在问卷调查中的应用数据透视表在问卷调查中的应用序号姓名性别生日专业部门职务职称学历月薪1邓赛鹏男1954年1月7日计算机控制研究室副所长高级工程师硕士78002吴起杭男196

35、4年11月9日通信通信研究室工程师本科57003曹平原男1977年11月27日通信通信研究室工程师本科37004马良男1980年1月1日计算机控制研究室助理工程师本科31005顾琳英女1962年3月31日管理控制研究室工程师本科59006马大晖男1968年12月16日计算机控制研究室工程师硕士51007孙晓斌男1974年4月24日管理光电研究室工程师本科43008车大明男1969年10月28日通信通信研究室工程师本科50009侯显耀男1976年6月2日计算机图形研究室工程师本科3900p数据透视表期望结果：二维列联表二维列联表1.3 属性数据分析双变量属性数据分析两维表格（列联表）两维表格（

36、列联表）步骤：步骤： 1.打开打开“数据数据”菜单；菜单； 2.选择选择“数据透视表数据透视表”，按下一步；，按下一步； 3.选择选择“版式版式”； 4.单击变量单击变量“部门部门”，拖到，拖到“行行”区域中；区域中； 5.单击变量单击变量“性别性别”，拖到，拖到“列列”区域中；区域中； 5.单击变量单击变量“姓名姓名”，拖到，拖到“数据数据”区域中；区域中； 6.双击双击“求和项求和项”，在，在“汇总方式汇总方式”中选择中选择“计数计数”； 7.单击单击“确定确定”。打开菜单：“数据数据透视表和数据透视图”1.3 属性数据分析双变量属性数据分析选择图表类型：选择数据区域：1.3 属性数据分

37、析确定数据透视表生成的位置：1.3 属性数据分析接着，选择接着，选择“布局布局”:双变量属性数据分析分别将分别将“部门部门”拉到拉到行区域、行区域、“性别性别”拉到拉到列区域、列区域、“姓名姓名”拉到拉到数据区域。数据区域。1.3属性数据分析双变量属性数据分析得到数据透视表：1.3属性数据分析1.3.3双变量属性数据分析继续：继续：单击“部门部门”单元格的下拉菜单，可以选择统计的范围。例如，“部门”中不包括“办公室”：1.3 属性数据分析双变量属性数据分析得到不包括部门“办公室”的人数统计：1.3 属性数据分析双变量属性数据分析为什么拉到数据区域的是“姓名”，数据区域出现的数字是“人数”？右

38、键单击数据区域，出现右键菜单，选定“字段属性”：1.3 属性数据分析双变量属性数据分析可以看到默认的字段属性为“计数”，因此数据字段出现的数字是人数。1.3 属性数据分析双变量属性数据分析2. 分析分析“部门、职称、性别、学历部门、职称、性别、学历”平均工资。平均工资。序号姓名性别生日专业部门职务职称学历月薪1邓赛鹏男1954年1月7日计算机控制研究室副所长高级工程师硕士78002吴起杭男1964年11月9日通信通信研究室工程师本科57003曹平原男1977年11月27日通信通信研究室工程师本科37004马良男1980年1月1日计算机控制研究室助理工程师本科31005顾琳英女1962年3月31

39、日管理控制研究室工程师本科59006马大晖男1968年12月16日计算机控制研究室工程师硕士51007孙晓斌男1974年4月24日管理光电研究室工程师本科43008车大明男1969年10月28日通信通信研究室工程师本科50009侯显耀男1976年6月2日计算机图形研究室工程师本科39001.3 属性数据分析双变量属性数据分析生成三维表格生成三维表格在二维列联表上，把“学历”拉到“性别”下面，就可以产生三维列联表：1.3 属性数据分析双变量属性数据分析生成三维表格生成三维表格1.3 属性数据分析双变量属性数据分析生成三维表格生成三维表格或者，在二维列联表上，把“职称”拉到“部门”右边，也可以产生

40、三维列联表：1.3 属性数据分析双变量属性数据分析生成三维表格生成三维表格或者，在二维列联表上，把“职称”拉到“部门”右边，也可以产生三维列联表：1.3 属性数据分析双变量属性数据分析生成三维表格生成三维表格把“职称”拉到“部门”右边，把“学历”拉到“性别”下面，就可以产生四维列联表：1.3 属性数据分析双变量属性数据分析生成四维表格生成四维表格1.3 属性数据分析双变量属性数据分析生成四维表格生成四维表格把“职称”拉到“部门”右边，把“学历”拉到“性别”下面，把把“姓名姓名”拖出数据透视表外，把拖出数据透视表外，把“月薪月薪”拉拉进数据区域，进数据区域，就可以产生数据区域为“月薪”的四维列联

41、表：1.3 属性数据分析双变量属性数据分析生成四维表格，且数据区域为生成四维表格，且数据区域为“月月薪薪”把“职称”拉到“部门”右边，把“学历”拉到“性别”下面，把“月薪”拉到数据区域，就可以产生数据区域为“月薪”的四维列联表：1.3 属性数据分析双变量属性数据分析生成四维表格，且数据区域为生成四维表格，且数据区域为“月月薪薪”右键单击数据区域，选择“字段设置字段设置”，将数据区域的属性定义为“平均工资”，则数据区域的数字是“合计工资”。同样的方法，也可以求“最高工资”、“最低工资”或“求和”。1.3属性数据分析双变量属性数据分析生成四维表格，且数据区域为生成四维表格，且数据区域为“月月薪薪”

42、四维列联表如下：1.3 属性数据分析双变量属性数据分析生成四维表格，且数据区域为生成四维表格，且数据区域为“月薪月薪”1.4 数据展示图数据展示图1.1 数据1.2 Excel基础1.3 属性数据分析1.4 数据展示图1.5 数值型数据分析pExcel数据展示图形有13种。p柱形图垂直柱状组成的图形称为柱形图，水平条状组成的图形称为条形图。1.4 数据展示图数据展示图年份第一产业第二产业第三产业20011.541184.875003.3153020021.611735.298023.6074820031.692816.127413.91880 20042.076817.238724.37206

43、例例1.7 创建我国创建我国20012004年第一、第二和第三产业产值年第一、第二和第三产业产值数量的变化的柱形图。数量的变化的柱形图。1.打开Excel表，单击“插入图标”工具图标，选择图表类型柱形图和子图标类型，点击“下一步”。p用图表和曲线图展示数据1.4 数据展示图图表向导2.从“数据区域”选择目标数据，用鼠标选定B4:D8，单击“系列”卡片，点击“下一步”。p用图表和曲线图展示数据1.4 数据展示图3.在“系列”中，选择输入系列名称，用鼠标选定“分类(X)轴标志”A5:A8，单击“下一步”p用图表和曲线图展示数据1.4 数据展示图4.输入或修改“标题”、“坐标轴”、“网格线”、“图例

44、”、“数据标志”、“数据表”等属性，单击“下一步”。p用图表和曲线图展示数据1.4 数据展示图5.选择图表位置，单击“完成”。p用图表和曲线图展示数据1.4 数据展示图6.图表完成。如果需要，可以双击图表中任何一部分进行修改。p用图表和曲线图展示数据图表区分类轴分类轴标题数值轴图例图表标题系列“第一产业”绘图区数值轴主要网格线数值轴标题系列“第二产业”系列“第三产业”1.4 数据展示图条形图的制作是类似柱形图。垂直柱状组成的图形称为柱形图，水平条状组成的图形称为条形图。例例1.8：我国20012004年三次产业的条形图如下：p条形图1.4 数据展示图例1.92004年我国三类产业产值p饼图饼图

45、常用来表示一项数据中各部分的比例。1.4 数据展示图年份第一产业第二产业第三产业20042.0768 7.2387 4.3721 p折线图常用来表示数据随时间或项目不同的变化。年份总量煤炭石油天然气水电19785714440400.8112971.691828.611942.9019806027543518.5512476.931868.532411.0019857668258124.9613112.621687.003757.4219899693473766.7716575.712035.614555.9019909870375211.6916384.702072.765033.851991

46、10378378978.8617746.892075.664981.58199210917082641.6919104.752074.235349.33199311599386646.7721110.732203.876031.64199412273792052.7521356.242332.006996.01例例1.101978年2004年我国能源消费总量及组成（单位：万吨标煤）1.4 数据展示图试创建“19782004年中国能源消费.xls”中的“总量”、“煤炭”、“石油”、“天然气”、“水电”消费量的折线图。1.4 数据展示图p折线图例例1.11 原油消费量和天然气消费量的散点图p散点图

47、用于表示两个变量数值之间的相关关系。1.4 数据展示图例1.12有两家企业A和B，它们的资产属性评估结果如下表：收益性安全性流动性成长性生产性企业10.70.80.80.60.9企业20.90.60.40.50.7p雷达图用来表示两组变量相应数值的比较。1.4 数据展示图例1.132004年10省市的GDP和人均GDP数据。p气泡图可以对一组数据的三个指标进行展示和比较。1.4 数据展示图序号地区GDP（亿元）人均GDP（元/人）1广东16039 197072山东15491 169253江苏15403 207054浙江11243 239425河南8815 94706河北8769 12

48、9187上海7450 553078辽宁6873 162979湖北6310 1050010福建6053 17218例1.132004年10省市的GDP和人均GDP数据。1.4 数据展示图气泡的高度表示气泡的高度表示GDP总量的大小，气泡的大小表示人均总量的大小，气泡的大小表示人均GDP的高低。的高低。数值型数据分析的主要内容，包括： 1.5.1. 数值型单变量数据分析数值型单变量数据分析 1.5.2. 数值型双变量数据分析数值型双变量数据分析1.5 数值型数据分析Excel中的数值型数据统计功能有以下二种实现方法中的数值型数据统计功能有以下二种实现方法使用使用Excel菜单的数据分析工具菜单的

49、数据分析工具使用使用Excel统计函数统计函数1.1 数据1.2 Excel基础1.3 属性数据分析1.4 数据展示图1.5 数值型数据分析1.5 数值型数据分析1.5.1. 数值型单变量数据分析数值型单变量数据分析例某班DMD考试成绩如下： 80 85 76 78 67 93 88 90 75 66 65 77 74 80 85 76 78 67 93 88 90 75 66 65 77 74 83 81 70 83 64 96 60 79 86 80 7183 81 70 83 64 96 60 79 86 80 71试用相关统计量对成绩进行分析。 ExcelExcel有有3 3种分析工

50、具用来描述数值型单种分析工具用来描述数值型单变量数据：变量数据：1.1.描述性统计描述性统计2.2.直方图直方图3.3.排位和百分比排位排位和百分比排位1.5.1. 数值型单变量数据分析p描述性统计（数据的分布属性）数据的分布属性包括数据的集中属性、数据的分散属性以及数据频数的形态三大类：n数据集中属性的指标l均值Averagel中位数Medianl众数Moden数据的分散属性的指标l极差Rangel方差Variancel标准差StandardDeviationl标准误StandardErrorn数据频数的分布形态指标l偏度Skewnessl峰度Kurtosis1.5.1. 数值型单变量数据分

51、析p描述性统计（数据的分布属性）数据的分布属性包括数据的集中属性、数据的分散属性以及数据频数的形态三大类：n数据集中属性的指标l均值Averagel中位数Medianl众数Moden数据的分散属性的指标l极差Rangel方差Variancel标准差StandardDeviationl标准误StandardErrorn数据频数的分布形态指标l偏度Skewnessl峰度Kurtosis1.5.1. 数值型单变量数据分析Excel中的值型单变量数中的值型单变量数据统计功能有以下三种据统计功能有以下三种实现方法实现方法1.描述性统计描述性统计2.直方图直方图3.排位和百分比排位排位和百分比排位步骤：

52、步骤： 1）打开）打开“工具工具”菜单；菜单； 2）选择）选择“数据分析数据分析”； 3）选择）选择“描述统计描述统计”； 4) 根据对话框，选择或输入相关数据。根据对话框，选择或输入相关数据。nC:My Documents模拟成绩.xlsp描述性统计（数据的分布属性）1.5.1. 数值型单变量数据分析数值型单变量数据分析步骤：步骤：单击“工具”/“数据分析”：p描述性统计（数据的分布属性）例某班DMD考试成绩统计。打开Excel菜单：“工具数据分析描述统计描述统计”:选择“描述统计”，单击“确定”。p描述性统计（数据的分布属性）1.5.1. 数值型单变量数据分析数值型单变量数据分析步骤：步骤

53、：选择“输入区域”、“分组方式”，在“输出选项”中选择“新工作表组”和新工作表名称，选定“汇总统计”。单击“确定”。DMDp描述性统计（数据的分布属性）步骤：步骤：得到DMD考试成绩的汇总统计结果：注：Excel2003中文版描述统计工具输出结果中，“区域”是“Range”的误译，应该译为“全距”。p描述性统计（数据的分布属性）l算术平均数算术平均数(Average)l设总体包括N个观察值x1，x2，.，xN，则总体平均值（均值）为：l设n个样本为x1，x2，xn，样本平均值（均值）为：p描述性统计（数据的分布属性）有关指标说明有关指标说明1.5.1. 数值型单变量数据分析数值型单变量数据分析

54、=AVERAGE(B2:B24)一组数据按大小顺序排列以后，处于中间位置的数据。对于奇数组，中位数是中间的一个，对于偶数组，中位数是中间的两个的平均值。l中位数(Median)=MEDIAN(B2:B24)1.5.1. 数值型单变量数据分析数值型单变量数据分析众数是一组数据出现次数最多的数值。如果一组数据各不相同，则这组众数是一组数据出现次数最多的数值。如果一组数据各不相同，则这组数据不存在众数数据不存在众数.l众数(Mode)=MODE(B2:B24)1.5.1. 数值型单变量数据分析数值型单变量数据分析全距是一组数据x1，x2，xn中最大值和最小值之差。即：max(x1，x2，xn)-mi

55、n(x1，x2，xn)全距可以表示数据的离散程度，全距越大离散程度越大。全距只和数据中两个数值有关，容易受到奇异数据的影响。数据A的全距=18-11=7，数据B的全距=39-3=36，数据B的离散程度大于数据A。全距（Range）离散属性的测度1.5.1. 数值型单变量数据分析数值型单变量数据分析方差分为总体方差和样本方差。n总体方差的计算公式为：其中xi为第i个数据，N为总体数据的个数，为总体平均数。方差是数据离散程度的指标，方差越大，离散程度越大。方差的单位是数据单位的平方。Excel计算总体方差的函数是VARP。方差（Variance）1.5.1. 数值型单变量数据分析数值型单变量数据分

56、析序号xixi-(xi-)2111-39213-113162441841651511613-11712-241425.14序号xixi-(xi-)213-1112127-74931511439256255140065-98174-10100142139.57方差（Variance）n样本方差的计算公式为由于实际处理的数据大多数都是样本数据，因此样本方差应用更多。Excel计算样本方差的函数是VAR。1.5.1. 数值型单变量数据分析数值型单变量数据分析标准差（Standarddeviation）标准差是方差的平方根。n计算总体标准差的公式为：n计算样本标准差的公式为：标准差的单位和数据的单位相

57、同，因此比方差更容易理解，应用也更多。1.5.1. 数值型单变量数据分析数值型单变量数据分析在工业生产中，产品的指标总会出现波动，一般会把产品指标的变动控制在指标平均值加减3个标准差的范围内，认为这是生产正常的标志。如果产品指标波动超出这个范围，说明生产系统不正常。标准差的重要性1.5.1. 数值型单变量数据分析数值型单变量数据分析在投资风险分析中，评价投资收益有两个指标，一个是收益期望值（平均值），另一个是收益的标准差。投资收益的标准差表示投资风险的大小，标准差越大，风险越大。收益期望值收益标准差低收益低风险低收益高风险高收益低风险高收益高风险1.5.1. 数值型单变量数据分析数值型单变量

58、数据分析在经济领域中，标准差常用来反映未来数据的不确定性，有主要的理论和应用价值。标准差是测定数据离散程度的标志，但由于不同的数据数值大小不同，相同的离散程度，数值比较大的标准差也会比较大。以下是不同年龄组每周上网时间的统计数据：为了比较大小不同的几组数据的离散程度，定义如下的变异系数（CoefficientofVariation）：变异系数18岁以下18-24岁25-30岁31-40岁40岁以上均值6.58820.92220.29316.32415.281标准差2.3682.2212.8882.7803.658变异系数0.3590.1060.1420.1700.2391.5.1. 数值型单变

59、量数据分析数值型单变量数据分析正态CS=0.57左偏CS=0.92右偏CS=-0.27偏态系数（CoefficientofSkewness）-1-0.500.51近似对称稍右偏稍左偏明显右偏明显左偏CS平均数中位数众数对称分布平均数中位数众数右偏众数中位数平均数左偏分布形态的测度1.5.1. 数值型单变量数据分析数值型单变量数据分析Excel中有计算数据偏度的函数“=SKEW(数据范围)”，Excel的偏度公式为：有的文献计算数据偏度还有其他的公式。例如SPSS计算偏度的公式为：1.5.1. 数值型单变量数据分析数值型单变量数据分析分布形态的测度峰态系数测定分布形态的峰态系数（Coeffici

60、entofKurtosis）CK0尖峰分布CK=-1.13CK=18.241.5.1. 数值型单变量数据分析数值型单变量数据分析Excel中有计算数据峰度的函数KURT，Excel的偏度公式为：有的文献计算数据峰度度还有其他的公式。例如SPSS计算偏度的公式为：1.5.1. 数值型单变量数据分析数值型单变量数据分析Excel以上对数据的描述统计的每一项内容，也可以单独用相应的Excel函数计算。这些函数是：均值AVERAGE中位数MEDIAN众数MODE标准差STDEVP（总体） STDEV（样本）方差VARP （总体）VAR（样本）偏度SKEW峰度KURT最大值MAX最小值MIN求和SUM计

61、数COUNT1.5.1. 数值型单变量数据分析数值型单变量数据分析p直方图直方图Excel中的数值型单变量数中的数值型单变量数据统计功能有以下三种实据统计功能有以下三种实现方法现方法1.描述性统计描述性统计2.直方图直方图3.排位和百分比排位排位和百分比排位该统计工具提供一张频数分布表和一张直方图。该统计工具提供一张频数分布表和一张直方图。步骤：步骤： 1）确定直方图的区间个数，填入每个组界值；）确定直方图的区间个数，填入每个组界值； 2）打开）打开“工具工具”菜单；菜单； 3）选择）选择“数据分析数据分析”； 4）选择）选择“直方图直方图”； 5）在）在“直方图直方图”对话框中填入数据。对话

62、框中填入数据。C:My Documents模拟成绩.xls1.5.1. 数值型单变量数据分析数值型单变量数据分析例绘制“某班DMD考试成绩”频数直方图。首先，计算DMD考试成绩的最小值和最大值；其次，确定频数统计的分布区间：p直方图直方图Excel中的统计功能有以下中的统计功能有以下三种实现方法三种实现方法1.描述性统计描述性统计2.直方图直方图3.排位和百分比排位排位和百分比排位1.5.1. 数值型单变量数据分析数值型单变量数据分析打开菜单：工具数据分析，出现以下窗口：选择“直方图”，单击“确定”。Excel“工具数据分析直方图”1.5.1. 数值型单变量数据分析数值型单变量数据分析p直方图

63、直方图“输入区域”为B2:B25，“接收区域”为G2:G7，“输出区域”为I17，选定“图表输出”，单击“确定”。1.5.1. 数值型单变量数据分析数值型单变量数据分析p直方图直方图Excel“工具数据分析直方图对话框”得到某班DMD考试成绩的频数和频数直方图：$J$21.5.1. 数值型单变量数据分析数值型单变量数据分析p直方图直方图即有：在指定位置I17生成发生频数统计表和频数直方图：注：Excel2003中文版直方图工具输出结果中，frequency误译为“频率”，在统计学中应译为“频数”。1.5.1. 数值型单变量数据分析数值型单变量数据分析p直方图直方图书中例1.15：绘制“饮料全年

64、日销售量”频数直方图。首先，计算365天销售量的最小值和最大值；其次，确定频数统计的分布区间：p直方图直方图Excel中的统计功能有以下中的统计功能有以下三种实现方法三种实现方法1.描述性统计描述性统计2.直方图直方图3.排位和百分比排位排位和百分比排位1.5.1. 数值型单变量数据分析数值型单变量数据分析打开菜单：工具数据分析，出现以下窗口：选择“直方图”，单击“确定”。Excel“工具数据分析直方图”“输入区域”为B2:B366，“接收区域”为H2:H15，“输出区域”为J2，选定“累积百分率”和“图表输出”，单击“确定”。得到饮料销售量356个数据的频数和频数直方图：$J$2p直方图即有

65、：在指定位置J2生成发生频数统计表和频数直方图：接收（箱）频率（天）累积%13010.2714092.741504113.971606130.681704041.641803751.781902658.902003067.122103977.812203687.672302494.252401498.08250699.732601100.00其他0100.00合计365u用Excel函数FREQUENCY生成数据频数图先用鼠标选择准备好的频数区域I2:I15，然后在函数栏中输入函数“=FREQUENCY()”。从提示可以看出，这个函数有两个参数，第一个参数data_array为销售量B2:B3

66、66，第二个参数bin_array为区间H2:H15。p直方图输入完毕后，按组合键“CTRL+SHIFT+ENTER”，频数就出现在I2:I15区域中。Excel有一些函数，它们的输出结果不是产生的一个单元格中，而是同时产生的一个区域中，这样的函数称为“向量函数”。FREQUENCY就是一个向量函数。u用Excel函数FREQUENCY生成数据频数图p直方图绘制I2:I15频数柱形图如图1.54，得到和“工具数据分析直方图”同样的结果。u用Excel函数FREQUENCY生成数据频数图p直方图该该统计工具提供一张含有升序排列的数据表格以及其统计工具提供一张含有升序排列的数据表格以及其排列后的序

67、号、百分位号。排列后的序号、百分位号。步骤：步骤：1）打开）打开“工具工具”菜单；菜单； 2）选择）选择“数据分析数据分析”； 3）选择）选择“排位与百分比排位排位与百分比排位”。 4) 根据对话框，选择或输入相关数据。根据对话框，选择或输入相关数据。p排位和百分比排位1.5.1. 数值型单变量数据分析数值型单变量数据分析Excel中的统计功能有以下中的统计功能有以下三种实现方法三种实现方法1.描述性统计描述性统计2.直方图直方图3.排位和百分比排位排位和百分比排位p排位和百分比排位1.5.1. 数值型单变量数据分析数值型单变量数据分析Excel中的统计功能有以下中的统计功能有以下三种实现方

68、法三种实现方法1.描述性统计描述性统计2.直方图直方图3.排位和百分比排位排位和百分比排位得到某班DMD考试成绩的数据排序表格。1.5.2.数值型双变量数据分析数值型双变量数据分析对两组数值型数据分析它们之间的相关关系。对两组数值型数据分析它们之间的相关关系。有两种分析工具。有两种分析工具。n1.1.散点图散点图n2.2.相关系数相关系数n变量之间的因果关系变量之间的因果关系l固定资产投资增加和固定资产投资增加和GDP增长增长l二氧化碳排放量和平均气温上升二氧化碳排放量和平均气温上升l吸烟数量和年限与肺癌的发病率吸烟数量和年限与肺癌的发病率l变量之间的相关关系n 变量之间的相关关系变量之间

69、的相关关系海水平均温度与灾害性天气天数（厄尔尼诺现象）海水平均温度与灾害性天气天数（厄尔尼诺现象）公司高尔夫球水平与公司股票市场表现公司高尔夫球水平与公司股票市场表现超市啤酒销售量和纸尿布销售量超市啤酒销售量和纸尿布销售量1.5.2.数值型双变量数据分析数值型双变量数据分析p散点图该统计工具用来描述两个变量之间的关系。通常该统计工具用来描述两个变量之间的关系。通常用在直观判断基本关系或用在回归模型使用前。用在直观判断基本关系或用在回归模型使用前。步骤：步骤：1）打开）打开Excel表，输入变量表，输入变量X和和Y的数值；的数值； 2）选中数据；）选中数据； 3）单击）单击“图表向导图表

70、向导”； 4）选择图表类型）选择图表类型XY散点图散点图 5）对散点图进行编辑。）对散点图进行编辑。1.5.2.数值型双变量数据分析数值型双变量数据分析有两种分析工具描述有两种分析工具描述数据之间的相关关系。数据之间的相关关系。1.散点图散点图2.相关系数相关系数例：n某公司欲调查办公楼的租金和空置率间的关系，工作某公司欲调查办公楼的租金和空置率间的关系，工作人员在人员在1010个不同的城市里，对办公楼中每平方米的月个不同的城市里，对办公楼中每平方米的月租金和空置率的数据记录如下：租金和空置率的数据记录如下：n试作散点图，并判断两变量间的相关性。试作散点图，并判断两变量间的相关性。城市1234

71、5678910空置率311659257108月租金52.54.754.534.5433.25 2.75p散点图p散点图相关系数用来说明两个变量之间的相关密切程度。相关系数用来说明两个变量之间的相关密切程度。步骤：步骤：1）打开）打开“工具工具”菜单；菜单； 2）选择）选择“数据分析数据分析”； 3）选择）选择“相关系数相关系数”。 4) 根据对话框，选择或输入相关数据。根据对话框，选择或输入相关数据。p相关系数1.5.2.数值型双变量数据分析数值型双变量数据分析有两种分析工具描述有两种分析工具描述数据之间的相关关系。数据之间的相关关系。1.散点图散点图2.相关系数相关系数选择“相关系数”p

72、相关系数步骤：步骤：选择变量范围，“输出选项”选择“新工作表组”，单击“确定”。步骤：步骤：p相关系数城市12345678910空置率311659257108月租金52.54.754.534.5433.252.75p相关系数相关系数p相关系数的基本计算公式：相关系数的基本计算公式：两个数列的协方差：两个数列的协方差：自变量数列的标准差：自变量数列的标准差：因变量数列的标准差：因变量数列的标准差：相关程度判断标准：相关程度判断标准：1.当当 R= 1时，时，X与与Y为线性相关；为线性相关；2.当当R0.3时，时，X与与Y为微弱相关；为微弱相关；3.当当 0.3R0.5时，时， X与与Y为低度相

73、关；为低度相关；4.当当 0.5R0.8时，时， X与与Y为显著相关；为显著相关；5.当当 0.8R1时，时， X与与Y为高度相关。为高度相关。R越接近1，变量的相关相关关系越明显。p相关系数5.1 一元线性回归5.2 多元线性回归5.3 非线性回归第第5章章回归分析回归分析一、数据与统计一、数据与统计第1章数据和数据分析第5章回归分析第6章统计预测5.1 一元线性回归回归分析是一种分析随机变量之间相关关系的统计理回归分析是一种分析随机变量之间相关关系的统计理论和统计方法，可以根据自变量的取值，预测相应的因论和统计方法，可以根据自变量的取值，预测相应的因变量的取值。在工业、农业、商业以

74、及经济学、社会学、变量的取值。在工业、农业、商业以及经济学、社会学、医学等领域有着非常广泛的应用。医学等领域有着非常广泛的应用。一些变量之间存在相关关系。例如一个城市的空调产品的销售量和夏季平均气温或冬季平均气温有相关关系，股票市场的价格和银行存贷款利率水平有相关关系。如果能够建立这些相关关系的数量表达式，就可以根据一个变量的值来预测另一个变量的变化。回归分析的目的就是构建变量之间数量关系的模型。回归分析包括只有一个自变量的一元回归和包括多个自变量的多元回归。n只有一个自变量的回归设自变量为x，因变量为y，它们之间的数量关系可以有以下几种：5.1 一元线性回归线性关系xy非线性关系xy无相关性

75、xyn单变量回归方程其中X 是自变量，Y 是因变量。0截距，是自变量X等于0时，因变量Y的值。1斜率，表示自变量X每增加1，因变量Y增加的数值。5.1 一元线性回归截距斜率回归直线的截距和斜率截距0表示当自变量X0时因变量的值，斜率1表示当自变量增加1时因变量增加的值。其中其中单变量回归方程5.1 一元线性回归线性关系xy非线性关系xy无相关性xyn单变量回归方程有以下两种方法求出有以下两种方法求出单变量回归方程单变量回归方程1.散点图中插入趋势线散点图中插入趋势线2.回归分析工具回归分析工具5.1 一元线性回归n例5.1数据1990-2006年江苏省靖江市用电量有关数据在以上数据中，选择在以

76、上数据中，选择“GDP”和和“年用电量年用电量”，建立其回归方，建立其回归方程。程。散点图中插入趋势线散点图中插入趋势线5.1 一元线性回归有两种方法求出有两种方法求出单变量回归方程单变量回归方程1.散点图中插入趋势线散点图中插入趋势线2.回归分析工具回归分析工具步骤：步骤： 1）打开）打开“图表图表”； 2）作出散点图；）作出散点图； 3）点击图中任一数据点；）点击图中任一数据点； 4）在）在“图表图表”中选择中选择“添加趋势线添加趋势线”命令；命令； 5）单击）单击“线性图线性图”; ; 6) 根据对话框，选择或输入相关数据。根据对话框，选择或输入相关数据。散点图中插入趋势线散点图中插入

77、趋势线5.1 一元线性回归有两种方法求出有两种方法求出单变量回归方程单变量回归方程1.散点图中插入趋势线散点图中插入趋势线2.回归分析工具回归分析工具l作出“GDP”和“年用电量”的散点图观察可以看出，观察可以看出， “GDP”和和“年用电量年用电量”具有相关关具有相关关系。系。散点图中插入趋势线散点图中插入趋势线l单击“图表/添加趋势线”（“图表”菜单只有散点图选中时才会出现）散点图中插入趋势线散点图中插入趋势线选择趋势线类型，选定“线性”散点图中插入趋势线散点图中插入趋势线单击“选项”，趋势线名称选定“自动设置”，选择“显示公式”和“显示R平方值”。散点图中插入趋势线散点图中插入趋势线得到

78、“年用电量”和“GDP”一元线性回归的图形、回归直线和相关系数R2的值散点图中插入趋势线散点图中插入趋势线n在例5.1中，选择“年用电量”为因变量，“GDP”为自变量，进行一元线性回归。回归分析工具回归分析工具有两种方法求出有两种方法求出单变量回归方程单变量回归方程1.散点图中插入趋势线散点图中插入趋势线2.回归分析工具回归分析工具5.1 一元线性回归回归分析工具回归分析工具有两种方法求出有两种方法求出单变量回归方程单变量回归方程1.散点图中插入趋势线散点图中插入趋势线2.回归分析工具回归分析工具步骤：步骤： 1）打开打开“工具工具”菜单；菜单； 2）选择选择“数据分析数据分析”； 3）

79、选择选择“回归回归”。 4) 根据对话框，选择或输入相关根据对话框，选择或输入相关5.1 一元线性回归打开Excel“工具/数据分析/回归”菜单，分别输入因变量Y和自变量X的区域，选择在新工作表中输出结果。回归分析工具相关系数R判定系数R2观察值个数n回归R截距自变量回归系数标准误差回归分析工具由上表可以看出，一元回归方程为：年用电量=26768.264+0.0791GDP各年份年用电量的观测值和预测值的图形回归分析工具关于回归分析的说明：用于衡量回归方程式优良性的工具通常是以下几种： 1.标准误差用来说明回归方程代表性的大小。其中：其中：y是因变量实际值，是因变量实际值，是根据回归方程

80、推算出来的因变量是根据回归方程推算出来的因变量估计值。估计值。从计算公式可以看出，标准误差实际上是一个平均误差。数从计算公式可以看出，标准误差实际上是一个平均误差。数值越大，说明所有点离回归线越远，则回归方程的代表性越小；值越大，说明所有点离回归线越远，则回归方程的代表性越小；数值越小，说明所有点越靠近回归线，则回归方程的代表性越数值越小，说明所有点越靠近回归线，则回归方程的代表性越大。大。 2. 判定系数反映自变量与因变量之间线性关系的强弱程度。反映自变量与因变量之间线性关系的强弱程度。记实际值记实际值y y的总变差为：的总变差为：回归变差为：回归变差为：则则：该公式表示因变量总

81、差异中可以由回归解释的比该公式表示因变量总差异中可以由回归解释的比例，数值越大，表明所有点越接近于回归直线。例，数值越大，表明所有点越接近于回归直线。判定系数R2回归分析工具年用电量=26768.264+0.0791GDP“年用电量”的影响因素以及有关因素的观测值年份总人口GDP全社会投资消费品零售总额年用电量（万人）（万元）（万元）（万元）（万千瓦小时）199064.56121247116875733136962199165.02146845211606638341596199265.26196284439639185345591199365.483264221265291277135522

82、1199465.7248737813641617977160893199566.0248542914683421562467639199666.1853152311874622360171132199766.275428338550022265868909199866.3558187610697822709166411199966.3862900512714423527268550200066.4367945714524124759876314200166.4678873016675026435981929200266.4784403019532128375689491200366.49864

83、32121584330258996512200466.51891684248619315687100687200566.54913746268432321482105634200666.57948562293015330549110473打开Excel“工具/数据分析/回归”菜单：选取“年用电量”为因变量，“总人口”、“GDP”、“全社会投资”、“消费品零售总额”为自变量。分别输入因变量Y和自变量X的区域，选择置信水平为95（即显著性水平为5），选择在新工作表中输出结果。相关系数R=0.9918，判定系数R2=0.9836，调整的R2=0.9781，样本观测值为17。回归方程为：年用电量750315.311232.1总人口0.02046GDP0.08232全社会投资0.1865消费品零售总额

展开阅读全文

EXCEL数据分析工具课件

最新文档