数据录入与样本描述

上传人:豆浆 文档编号:50753999 上传时间:2018-08-10 格式:PPT 页数:54 大小:487KB
返回 下载 相关 举报
数据录入与样本描述_第1页
第1页 / 共54页
数据录入与样本描述_第2页
第2页 / 共54页
数据录入与样本描述_第3页
第3页 / 共54页
数据录入与样本描述_第4页
第4页 / 共54页
数据录入与样本描述_第5页
第5页 / 共54页
点击查看更多>>
资源描述

《数据录入与样本描述》由会员分享,可在线阅读,更多相关《数据录入与样本描述(54页珍藏版)》请在金锄头文库上搜索。

1、第二讲数据录入及样 本描述本讲主题Session Topic 表格方法 Tabular Methods 图形方法 Graphical Methods 数值方法 Numerical Methods表格和图形方法Tabular and Graphical Methods 质量(定性)数据汇 mmarizing Qualitative Data 数量(定量)数据汇 mmarizing Quantitative Data 探索性数据分析 Exploratory Data Analysis 交叉组列表和散点图 Cross-tabulation and Scatter Diagrams质量数据汇 mmar

2、izing Qualitative Data 频数分布 Frequency Distributions 相对频数分布 Relative Frequency Distributions 百分数频数分布 Percent Frequency Distributions 条形图 Bar Graph 饼形图 Pie Chart频数分布 Frequency Distributions 频数分布是用数据概括表的形式不列示 若干个互不重叠分组中每组数据值出现 的次数; 编制频数分布表的目的是揭示表面数据 的内涵,而这种数据内涵很难迅速从原 始数据中获取。相对频数分布和百分数频数分布Relative Frequ

3、ency Distributions and Percent Frequency Distributions 相对频数是各组数据出现的频数占数据数的 比例; 相对频数分布是表明每一组的相对频数的数据 集的表格汇; 百分数频数分布是相对频数乘以100; 百分数频数分布是表明每一组的百分数频数的 数据集的表格汇。条形图Bar Graph 条形图是用图的方式描述已概括成频数、相 对频数或百分数频数分布的质量数据的方法 ; 在图形的横轴为每一组别的标记; 纵轴为频数、相对频数、百分数频数; 用固定宽度的条绘制每一标记,扩展条的高 度达到纵轴上表示的各组别的频数、相对频 数或百分数频数; 条形相对独立以

4、强调每一类是一独立的 事实 。饼形图Pie Chart 饼形图也是常用的描绘 质量数据相对频数分布 的图形方法; 先画圆,然后用相对频 数把圆划分为扇形。其 角度大小与相对频数对 应数量(定量)数据汇 mmarizing Quantitative Data 频数分布 Frequency Distributions 相对频数分布 Relative Frequency Distributions 百分数频数分布 Percent Frequency Distributions 点图 Dot plot 直方图 Histogram 累积分布 Cumulative Distribution 穹形图 Ogi

5、ve频数分布 Frequency Distributions 确定无重复的组别数 一般为为5-20个组 大样本数据分较多的组 小样本数据分较少的组 确定各组间的组距 各组间的组距相同 近似组距为近似组距=-最大数据值-最小数据值组数频数分布 Frequency Distributions 确定组上线与组下线 下线确定分配给该组可能的最小数据值; 上线确定分配给该组可能的最大数据值; 上、下线不一定是所给数据值; 上、下线的确定不唯一,可依据数据中小数 点的位置选取适当的上、下线; 上、下线的确定应使得每个数据属且只属于 其中一个组。相对频数和百分数频数 Relative Frequency D

6、istributions and Percent Frequency Distributions 相对频数分布和百分数频数分布 相对频数是各组数据出现的频数占数据数的 比例; 相对频数分布是表明每一组的相对频数的数据 集的表格汇; 百分数频数分布是相对频数乘以100; 百分数频数分布是表明每一组的百分数频数的 数据集的表格汇。点图 Dot plot 点图是用图形概括数据最简单的方法之 一; 点图用横坐标轴显示数据的值域,然后 用小圆点半每个数据值标在坐标轴的上 方直方图 Histogram 直方图是将数据所反映的分布直观地显示出来 的一种常用方法; 横轴为所感兴趣的变量,纵轴为频数、相对频 数

7、或百分频数; 每一组的频数、相对频数或百分数频数用长方 形表示,长方形的底在横轴上,宽是组距,高 是相应的频数、相对频数或百分数频数; 不像条形图,直方图在邻近的组间没有分隔。累积分布 Cumulative Distribution 累积频数分布表示小于或等于每一组上 限的数据值的个数的取值情况; 累积相对频数分布表示小于或等于每一 组上限的数据值所点比例的取值情况; 累积百分数频数分布就是累积相对频数 与100乘积穹形图 Ogive 穹形图即是累积频数分布或累积相对频 数分布的图形; 横轴为所感兴趣的变量,纵轴为累积频 数或累积相对频数;探索性数据分析 Exploratory Data An

8、alysis 放在后面与数值方法一起讲交叉分组列表Cross-tabulation 交叉分组列表是一种同时汇两个变量 数据的表格方法 一般在表格的左边和顶端的标记定义两 个变量的组数 交叉分组列表揭示了所列两个变量之间 的内在关系散点图 Scatter Diagrams 散点图是将两个变量之间的关系直观地 显示出来的一种方法数值方法 Numerical Methods 位置的度量 Meares of Location 离散程度的度量 Meares of dispersion 形状的度量 Meares of Shape位置的度量 Meares of Location 平均数 Mean 中位数 M

9、edian 众数 Mode 百分位数 Percentiles 四分位数Quartiles平均数 Mean所有数据之和与数据个数的商 如果数据集是体,体平均值( population mean)为 如果数据集为样本,样本平均值(Simple mean)为中位数 Median 若数据的个数是奇数,当把所有数据按 升序排列时,中位数就是处在中心位置 的数 若数据的个数是偶数,当把所有数据按 升序排列时,中位数就是处在中心两个 数的平均数众数 Mode出现频数最高的数 如果有多于一个众数存在,则称数据是 多峰的百分位数 Percentiles 第p个百分位数是这样的数据值:至少有p%个 数据值跟它一样

10、或比它小;至少有(100-p)%个 数据值跟它一样大或比它大。 百分位数的计算: 增序排列数据; 计算指数 I=(p/100)n 若i不是整数,将其向上取整,则p分位数是第i项; 若i是整数,则p分位数是第i项与第i+1项的数据的 平均值。百分位数 Percentiles 例有数据集6,3,8,10,6,20,5,4 为求其第20个百分数,先将原数据集排序3 4 5 6 6 8 10 20 计算指数 i(20/100)*82 则原数据集的第20个百分位数就是位于第 二项的4。四分位数Quartiles四分位数是特定的百分数。 第一个四分位数为25%百分位数; 分二个四分位数为50%百分位数即中

11、位 数; 第三个四分位数为75%百分位数。离散程度的度量 Meares of dispersion 全距 Range 四分位点内距 inter-quartile Range 方差 Variance 标准差 Standard Deviation 标准差系数 Coefficient of Variation全距 Range 全距是数据中最大值与最小值间的差距 全距是数据离散程度最简单的描述 全距对最大数据及最小数据敏感四分位点内距 inter-quartile Range 四分位点内距是第一与第一四分位数间 的差距 是中间50%的数据的全距 它能够克服极端数据的影响方差 Variance 方差是各

12、数据值与其平均值之间的平均 差异 如果数据集是体,体方差为 如果数据集为样本,样本方差为标准差 Standard Deviation 标准差为方差的正平方根 标准差具有与原始数据相同的计量单位 ,较方差更便于比较 如果数据集是体,则体标准差为 如果数据集是样本,则样本标准差为变异系数Coefficient of Variation 变异系数是标准差相对于平均数的大小 的度量 如果数据集为体,变异系数为 如果数据集为样本,变异系数为平均数和方差的应用 Some Uses of the Mean and the Standard Deviation Z分数z-Scores 切比晓夫定理Chebys

13、hevs Theorem 经验法则The Empirical Rule 异常值的检验Detecting OutliersZ分数z-Scores Z-分数通常称为标准化数值 Z-分数的意义是数据值偏离平均数标准差的个数 Z-分数大于0的数据是那些比平均数大的数据值 Z-分数小于0的数据是那些比平均数小的数据值 Z-分数等于0的数据是那些与平均数相等的数据值 一个数据集经过标准化之后,其平均值变为0,标准 差变成1切比晓夫定理Chebyshevs Theorem 至少(1-1/k2)个数据落在平均数k倍标准差范围 内,其中k是大于1的任何数值 至少75%的数据落在平均数的k=2标准差范围 内 至少

14、89%的数据落在平均数的k=3标准差范围 内 至少94%的数据落在平均数的k=4标准差范围 内经验法则 The Empirical Rule对于具有钟形分布的数据 集而言 大约68%的数据落在平 均数的1倍标准差范围内 大约95%的数据落在平 均数的2倍标准差范围内 几乎所有的数据落在平 均数的3倍标准差范围内异常值的检验Detecting Outliers 数据集中出现的非正常大或非正常小的数据值 称为异常值 Z-分数值低于-3或高于3的数据可能是异常值 异常值的出现可能是由于记录错误,也可能是 记录正确的非正常数据值 异常值也可能来自于不同的体探索性数据分析Exploratory Data

15、 Analysis 探索性数据分析技术是由简单运算及容 易绘制的图形组成,可用快速汇数据 。 茎叶图 Stem-and Leaf display 五数概括 Five-Number mmary 箱图 Box plot茎叶图 Stem-and Leaf display 茎叶图是一种简单的对数据进行快束描绘的数 据汇方法 茎叶图不仅提供了数据排序,同时还显示了数 据的分布信息 与直方图有相似之处,但茎叶图还显示了实际 的数据值 数据的首位或首几位放置在直线的左边称为 茎 数据的末位(只是最后一位)放置在直线的右边- 称为叶五数概括 Five-Number mmary 最小数据值Smallest Value 第一个四分位数First Quartile 中位数Median 第三个四分位数Third Quartile 最大值Largest Value箱图 Box plot 以第1和第3四分位数(Q1和Q3)作为箱子 两端,其间的间距称为四分位间距,记 为IQR= Q3

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号