第4章 三心二意数据处理课件

上传人:bin****86 文档编号:55118489 上传时间:2018-09-24 格式:PPT 页数:69 大小:4.31MB
返回 下载 相关 举报
第4章 三心二意数据处理课件_第1页
第1页 / 共69页
第4章 三心二意数据处理课件_第2页
第2页 / 共69页
第4章 三心二意数据处理课件_第3页
第3页 / 共69页
第4章 三心二意数据处理课件_第4页
第4页 / 共69页
第4章 三心二意数据处理课件_第5页
第5页 / 共69页
点击查看更多>>
资源描述

《第4章 三心二意数据处理课件》由会员分享,可在线阅读,更多相关《第4章 三心二意数据处理课件(69页珍藏版)》请在金锄头文库上搜索。

1、第 4 章 三心二意数据处理,主要内容:4.1、何为数据处理4.2、数据清洗4.3、数据加工4.4、数据抽样4.5、本章小结,4.1.1 数据处理原则“三心二意”,平淡、平等、平静地对待问题,诚心诚意, 诚实、尊重事实。,4.1.2 数据处理的内容,数据清洗,数据加工,数据处理的内容,重复数据的处理,检查数据逻辑错误,缺失数据的处理,数据抽取,数据计算,数据分组,数据转换,多一分则肥,少一分则瘦。, 函数法:用函数识别重复数据。 高级筛选法:直接利用筛选功能筛选出非重复值。 条件格式法:以不同的颜色标识重复项。 数据透视表法:用数据透视表统计各数据出现的频次。,4.2.1 重复数据处理, 函数

2、法(使用COUNTIF函数)criteria的形式可以是数字、条件或文本。 如果是数字直接写数字,如果是条件或文本要加双引号。,EXCEL引用单元格,相对引用:引用格式形如“A1”,这种对单元格的引用是完全相对的,当引用单元格的公式被复制时,新公式引用的单元格的行列都会发生改变。,EXCEL引用单元格,绝对引用:引用格式形如“$A$1”,这种对单元格引用的方式是完全绝对的,即一旦成为绝对引用,无论公式如何被复制,对采用绝对引用的单元格的引用位置是不会改变的。,EXCEL引用单元格,绝对行引用:引用格式形如“A$1”。这种对单元格的引用位置不是完全绝对的,当引用该单元格的公式被复制时,新公式对列

3、的引用将会发生变化,而对行的引用则固定不变。,绝对列引用:引用格式形如“$A1”。这种对单元格的引用位置不是完全绝对的,当引用该单元格的公式被复制时,新公式对行的引用将会发生变化,而对列的引用则固定不变。,EXCEL引用单元格,函数法操作步骤:,第一步:选中B2单元格,输入函数公式:=COUNTIF(A:A,A2),(显示“重复次数”) 第二步:选中C2单元格,输入函数公式:=COUNTIF(A$2:A2,A2),(显示“第几次出现”), 高级筛选法 step 1: 选择数据单元格区域A1:A11 step 2: 数据 排序和筛选 高级 弹出“高级筛选”对话框 step 3: 选择“将筛选结果

4、复制到其他位置”,在“复制到”文本框 输入B1区域,勾选“选择不重复的记录”,单击“确定”。,高级筛选对话框的操作, 条件格式法“开始” “条件格式” “突出显示单元格规则”“重复值”WPS表格中:数据 “重复项”“高亮显示重复值”。把重复的数据及所在单元格 标为不同的颜色。, 数据透视表法, 删除重复数据的方法 方法一:通过菜单操作删除重复项。 Step 1: 选择数据区域A1:A11; Step 2: “数据” “删除重复项”; Step 3: 在“列”区域下,选择要删除的列,单击“确定”。,方法二:通过排序删除重复项利用函数识别重复数据的辅助列:第二次重复标记 Step 1: 选中“第二

5、次重复项”中的任意一个单元格; Step 2: 选择“开始”主选项卡 “编辑部分”功能区“排序和筛选” “降序”,方法三:通过筛选删除重复项利用函数识别重复数据的辅助列:第二次重复标记。 Step 1: 选中“第二次重复项”中的任意一个单元格; Step 2: “数据” “排序和筛选” “筛选”,点一下第二次重复标记单元格中的“三角形”,弹出下拉菜单。挑出不等于1的数值,筛选后就得到非重复项了。,4.2.2 缺失数据的处理,缺失数据:是指数据集中某个或某些属性的值是不完全的。,数据缺失的原因,机械原因,人为原因,数据收集或保存失败。 如数据存储的失败、存储器损坏、 机械故障等,人的主观失误、历

6、史局限、有意隐瞒。 如市场调查中被访人拒绝透露、回答无效、 录入人员失误遗漏。,缺失值缺失可接受的标准:10%以下, 定位输入(如果缺失的值是空白单元格) “开始”主选项 “编辑”功能区“查找和替换”下“定位条件”或者快捷键方式:“Ctrl+G“,弹出“定位”对话框,然后,选择“定位条件” “空值”,确定(所有空值被一次性选中),处理缺失值的四种方法: 方法一:用一个样本统计量的值(如样本均值)代替缺失值 方法二:用一个统计模型计算处理的值去代替缺失值 方法三:将有缺失值的记录删除,可能会导致样本量的减少 方法四:将有缺失值的记录保留,仅在相应的分析中做必要的排除。,“Ctrl+Enter“快

7、捷键:在不连续的区域中一次性输入同一个数据或公式。 Step 1: 按住“Ctrl”键,选择多个单元格或区域,直到选中所有需要数据的单元格后松开“Ctrl”键,被选中的 单元格以深色显示;,Step 2: 松开“Ctrl”键后,输入需要录入的数据,显示在最后一个选中的单元格;,Step 3: 按“Ctrl+Enter“快捷键,则所有选中的单元格都输入了第二步中输入的数据。, 查找替换(如果缺失值以错误标识符出现)“开始”主选项卡的“编辑”功能区中,单击“查找和替换”。,Ctrl+F,Ctrl+H,Ctrl+G,例:查找错误标识符“#DIV/0”,并将其全部替换为“0” Step 1: 选中所有

8、数据区域; Step 2: 按“Ctrl+H”快捷键,弹出“查找和替换”对话框; Step 3: 在“查找内容”和“替换为”右侧输入框中,输入相应的内容,再单击“全部替换”。,4.2.3 检查数据的逻辑错误,常见的两类逻辑错误: 被调查者输入的选项不符合要求。 录入错误。,IF函数,条件格式,见效快、疗效好、安全可靠、无副作用, 利用“IF函数”检查错误IF函数的组成部分:需要判断的表达式,表达式为真时的显示值,表达式为假时的显示值。,IF函数注意事项:a: 条件表达式是用比较运算符()建立的式子,没有比较就没有判断。b: 两个值若是数值数据可直接书写,若是文本数据则要用双引号标记。c: 参数

9、里面所有用到的标点符号都是英文状态下的标点符号。d: IF函数可以进行嵌套,最多可以有七层。,比较运算符及判断,“IF(COUNTIF(B3:H3,“0“)3,“错误“,“正确“) 含义:如果录入的选项(非零数据)超过3个,则单元格显示“错误”,否则显示“正确”。, 利用条件格式标记错误, 利用条件格式标记错误选中数据区域B3:H6, “开始”主选项卡 “条件格式”“突出显示单元格规格” “其他规则” 在“为符合此公式的值设置格式” 文本框中输入 “=OR(B3=1,B3=0)=FALSE”,4.3 数据加工,对现有字段进行抽取、计算或者转换,形成我们分析所需要的一列新的数组字段。,4.3.1

10、 数据抽取,数据抽取:是指保留原数据表中某些字段的部分信息,组合成一个新的字段。 字段分列:截取某一字段的部分信息。 字段合并:将几个字段合并为一个新的字段。 字段匹配:将原数据表中没有但其他数据表中有的字段,有效的匹配过来。, 字段分列 1、菜单法(如将姓名分成姓和名两列) Step 1: 选择需要转换的数据区域,“数据” “分列”,弹出“文本分列向导”对话框;,Step 2: 在“文本分列向导第1步”对话框中,单击“分隔符号”,再单击“下一步”。,Step 3: 在“文本分列向导第2步”对话框中,选择所需要的分隔符号。,2、 函数法(没有特定的分隔符),例:把姓名中的姓氏截取出来。(左起第

11、一个字符)输入公式“=LEFT(A2,1)”, 字段合并(将文字或数字合并成一个单元格) CONCATENATE: 将数据列表中多个字符串连接成新的的字符串。 逻辑与运算符:“&”。,5、=A2&“迟到“&B2&“次“ 6、=A3&“迟到比例为“&TEXT(B3,“0%“) 7、=CONCATENATE(A2,“迟到“,B2,“次“),1、TEXT函数的含义:Text函数表示将数值转化为自己想要的文本格式。 2、TEXT函数的语法格式:=TEXT(value,format_text), 字段匹配,VLOOKUP匹配函数,Step 1: 打开需要匹配的两张表格。 Step 2: 在“员工个人信息

12、(销售部)”表格的F2单元格输 入公式“=VLOOKUP(B2,包含数据的区域,3,0)“ B2:要在表格第一列中查找的值; 包含数据的区域:不需要手动输入,直接选中; 3:希望返回的匹配值的列序号; 0:精确匹配。 Step 3: 向下拖动完成所有数据的提取。,4.3.2 数据计算, 简单计算简单计算就是字段通过加、减、乘、除等简单的算术运 算就能计算处来的。加、减、乘、除对应的运算符“+、-、*、/”,Step 1: 在D2中输入“=B2*C2”,按回车键“Enter“; Step 2: 鼠标移动到D2单元格右下角,出现填充柄“+”,双击填充柄或者按住向下拖动,会自动填充运算结果。 Ste

13、p 3: 自动求和。选中D7单元格,公式“=SUM(D2:D6)“开始” “编辑” “自动求和” “求和”., 函数计算(复杂运算)1、平均值与总和,2、日期的加减法输入当前日期:=TODAY( ),年月日,“Ctrl+;“输入当前时间:=NOW( ),年月日时分秒,“Ctrl+Shift+;“公式插入的是动态的日期或时间;快捷键插入的是静态的日期或时间。DATE(year,month,day),三个参数,分别表示“年月日“YEAR(),返回某日期对应的年份;MONTH(),返回月份,“112”DAY(),返回日期,“131”。,3、用函数DATEDIF计算工龄DATEDIF(start_da

14、te,end_date,unit)计算两个日期之间年月日的间隔数。unit的六种形式:“y“: 时间段中的整年数“m“:时间段中的整月数“d“:时间段中的整天数“md“:天数的差,忽略日期中的年和月;“ym“:月数的差,忽略日期中的年和日;“yd“:天数的差,忽略日期中的年;,时间段中所有间隔数,没有忽略,4.3.3 数据分组,Step 1: 准备一个分组对应表,用来确定分组的范围和标准;“阈值”是指每组覆盖的数据范围中的最低值,如“5-10元”的阈值就是5;“分组”记录的是每一组的组名,如“0-5元”;“备注”记录如何分组,方便数据处理人员理解和识别。,Step 2: 在B2单元格中输入公式

15、:“=VLOOKUP(A2,$D$2:$E$12,2)“第四个参数逻辑值省略了1, 此处默认为近似匹配。,4.3.4 数据转换, 数据表的行列互换,首先复制好数据区域,用三种方式进行选择性黏贴: 第一种:“开始” “粘贴”按钮 “选择性黏贴。 第二种:快捷键“Ctrl+Alt+V“,第三种:直接将数据粘贴在其他区域,粘贴区域的右下角会显示“粘贴”下拉菜单图标, 多选题录入方式之间的转换多重分类法录入的数据 二分法录入的数据,F5=IF(ISNUMBER(HLOOKUP(1,B5:D5,1,0),1,0)ISNUMBER函数:判断引用的参数或指定单元格中的值是否为数字,其语法结构为ISNUMBER(value), 如果检验的内容为数字,将返回TRUE,否则将返回FALSE。 IF函数有三个参数,语法格式: =IF(条件判断, 结果为真返回值, 结果为假返回值),SEARCH函数:返回指定字符串在原始字符串中首次出现的位置。 SEARCH(find_text, within_text, star_num) 第三个参数:如果是从第一个字符开始查找时可以省略。 SEARCH(“1“,B4):在B4单元格的字符串中查找1.,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > 其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号