商业数据分析·ds2

上传人:第*** 文档编号:74333639 上传时间:2019-01-27 格式:PPT 页数:20 大小:585.01KB
返回 下载 相关 举报
商业数据分析·ds2_第1页
第1页 / 共20页
商业数据分析·ds2_第2页
第2页 / 共20页
商业数据分析·ds2_第3页
第3页 / 共20页
商业数据分析·ds2_第4页
第4页 / 共20页
商业数据分析·ds2_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《商业数据分析·ds2》由会员分享,可在线阅读,更多相关《商业数据分析·ds2(20页珍藏版)》请在金锄头文库上搜索。

1、,商业数据分析,分布形状 Distribution Shapes,分布形状,2,Boxplots 盒图,盒图(又称为盒形须线图),是概括性描述数据的经典方法。在数据分布展示以及多维数据的各维度比较上都有广泛的应用。,分布形状,Benjamini(1988)总结了盒图的以下特点: 盒图可以有效的传达数据信息,如:样本偏度、样本分布范围和形状; 盒图可以有效显示一些特殊信息。如:潜在异常点; 盒图可以把每个维度信息一列列排列分别进行对比可视化; 盒图容易构建; 盒图表达清晰,容易被用户理解。,分布形状,在讲基本盒图之前,我们需要先学习一个关于统计的术语:样本四分位数。 就是将所有样本数据按照从小到

2、大排列,分别找到三个数标记为q(0.25)、q(0.5)、q(0.75)使得满足所有数据的25%、50%、75%分别小于这三个数,这三个数分别称为:下四分位数、中位数、上四分位数,或者叫做第一四分位数、第二四分位数、第三四分位数。,分布形状,找四分位数的步骤: 将所有数据从小到大重新排列; 寻找中位数q(0.5),它在整个序列的第(n+1)/2位置,如果n是单数,那就是中间那个,如果n是双数,取中间两个数的平均值; 寻找下四分位数q(0.25),如果n为单数,它在第1到第(n+1)/2的中间,如果n为双数,它在第1到第n/2的中间; 寻找上四分位数q(0.75),如果n为单数,它在第(n+1)

3、/2到第n的中间,如果n为双数,它在第n/2+1到第n的中间;,分布形状,使用geyser数据集,分别计算其三个四分位数。geyser数据集是美国黄石国家公园的“老忠实喷泉”的喷发时间数据集,这个喷泉以持续每隔几十分钟就喷发一次,忠实的喷发了上百年而闻名,是黄石国家公园最著名的景点。代码如下:,分布形状,load geyser % First sort the data. geyser = sort(geyser); % Get the median. q2 = median(geyser); % First find out if n is even or odd. n = length(g

4、eyser); if rem(n,2) = 1 odd = 1; else odd = 0; end if odd q1 = median(geyser(1:(n+1)/2); q3 = median(geyser(n+1)/2:end); else q1 = median(geyser(1:n/2); q3 = median(geyser(n/2:end); end,分布形状,知道了四分位数的概念就可以进入基本盒图的学习了。 除了四分位数,我们还需要计算下面几个数据:四分位距或者叫四分差: IQR = q(0.75)-q(0.25) 还有下限(lower limit)和上限(upper li

5、mit): 上限:UL = q(0.75)+1.5IQR 下限: UL = q(0.25)-1.5IQR,分布形状,现在所有的数据都到位,可以绘制盒图了,如下图,其中把上限和下限分别作为邻近值,超出他们范围的数据就被认定为可能的离群点,用原点标记了出来,这样就通过盒图找到了所有的潜在离群点:,分布形状,使用第一章用过的software数据集,绘制盒图,把离群点标记出来。代码如下:,分布形状,load software x = log(sort(defsloc); n = length(x); q = quartiles(x); iq = q(3) - q(1); UL = q(3) + 1.5

6、*iq; LL = q(1) - 1.5*iq; ind = find(x UL); find(x LL); outs = x(ind); inds = setdiff(1:n,ind); adv = x(inds(1) x(inds(end); plot(1 3,q(1),q(1) hold on plot(1 3,q(2),q(2) plot(1 3,q(3),q(3) plot(1 1,q(1),q(3) plot(3 3,q(1),q(3) plot(2 2,q(1),adv(1), 1.75 2.25, adv(1) adv(1) plot(2 2,q(3),adv(2), 1.75

7、 2.25, adv(2) adv(2) plot(2*ones(size(outs), outs,o) hold off axs = axis; axis(-1 5 axs(3:4) set(gca,XTickLabel, ) ylabel(Defects per SLOC (log),分布形状,基本的盒图在发现离群点的功能上已经有了很好的表现,但是我们还有一些变体形式,可以体现其他的信息。 如下面这种形式,就可以按照数据密度来显示数据分布,而不是用传统的等宽度四分位数来进行展示,更多的体现了数据的分布信息。,分布形状,还有一种变体形式,就是完全专注于数据的分布,不在乎离群点的寻找,将数据分

8、布绘制出来,如下图:,分布形状,通过函数生成三组数据分别满足正态分布、均匀分布、三峰分布,使用boxplot、boxp和boxprct三个函数分别绘制不同类型的盒图进行比较。 代码如下:,分布形状,X(:,1) = randn(400,1); tmp = 2.4*rand(398,1) - 1.2; X(:,2) = tmp; -2.9 2.9; tmp1 = randn(300,1)*.5; tmp2 = randn(50,1)*.4-2; tmp3 = randn(50,1)*.4+2; X(:,3) = tmp1; tmp2; tmp3; save example96 X figure,

9、boxplot(X,0,1,10) boxp(X,hp) boxprct(X),分布形状,分布形状,作业,9.8题 9.9题,课本,作业,9.8 Use a boxplot and a histogram to verify that the quartiles in Example 9.4 for the geyser data make sense. 9.9 Generate some standard normal data, with sample sizes n = 30, n = 50, and n = 100. Use the function boxp to first get

10、 a set of plain boxplots and then use it to get variable width boxplots. The following code might help: % Generate some standard normal data with % different sample sizes. Put into a cell array. X1 = randn(30,1); X2 = randn(50,1); X3 = randn(100,1); % First construct the plain boxplot. boxp(X) % Next we get the boxplot with variable % widths. boxp(X,vw),

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 事务文书

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号