数据分析方法MATLAB实现

上传人:206****923 文档编号:75096025 上传时间:2019-01-30 格式:PPT 页数:79 大小:1.73MB
返回 下载 相关 举报
数据分析方法MATLAB实现_第1页
第1页 / 共79页
数据分析方法MATLAB实现_第2页
第2页 / 共79页
数据分析方法MATLAB实现_第3页
第3页 / 共79页
数据分析方法MATLAB实现_第4页
第4页 / 共79页
数据分析方法MATLAB实现_第5页
第5页 / 共79页
点击查看更多>>
资源描述

《数据分析方法MATLAB实现》由会员分享,可在线阅读,更多相关《数据分析方法MATLAB实现(79页珍藏版)》请在金锄头文库上搜索。

1、普通高等院校计算机课程规划教材,MATLAB数据分析方法,李柏年 吴礼斌 主编 张孔生 丁 华 参编,第2章 数据描述性分析,数据描述性分析是从样本数据出发,概括分析数据的集中位置、分散程度、相互关联关系等,分析数据分布的正态或偏态特征.描述性分析是进行数据进一步分析的基础.对不同类型量纲的数据有时还要进行变换,然后再作出合理分析.本章主要介绍样本数据的基本统计量、数据的可视化、数据分布检验及数据变换等内容.,2.1基本统计量与数据可视化,2.1.1样本数据的基本统计量,描述数据基本特征主要为集中位置和分散程度。设从所研究的对象(即总体)X中观测得到n个观测值,1.均值、中位数、分位数与三均值

2、,数据(x1,x2,xn)的平均值称为该数据的均值,记为,x1,x2,xn,这n个值称为样本数据, 简称数据,n称为样本容量. 我们的任务就是要对样本数据(2.1.1)进行分析,提取数据中所包含的有用的信息,从而进一步对总体的特性作出推断.,(2.1.1),(2.1.2),样本均值描述了数据取值的平均位置.样本均值计算简易, 但易受异常值的影响而不稳健.,又将数据(2.1.1)按从小到大的次序排列,排序为k的数记为x(k)(1kn),即x(1) x(2) x(n),称,(2.1.3),为数据(2.1.1)的次序统计量.,由次序统计量定义数M,,称M为数据(2.1.1)的中位数。,(2.1.4)

3、,中位数是描述数据的中心位置的数字特征,若数据的分布对称,则均值与中位数比较接近。若数据的分布为偏态,则均值与中位数差异会较大。中位数的一个显著特点是受异常值的影响较小,具有较好的稳健性.,设0p1,样本数据(2.1.1)的p分位数定义为,(2.1.5),其中np表示np的整数部分.,显然,当p=0.5时,M0.5=M,即数据的0.5分位数等于其中位数.,一般来说,从整批数据(总体)中抽取样本数据,则整批数据中约有100p%个不超过样本数据的p分位数. 在实际应用中,0.75分位数与0. 25分位数比较重要,它们分别称为上、下四分位数,记为Q3,Q1.,虽然均值与中位数都是描述数据集中位置的数

4、字特征,但是均值用了数据的全部信息,中位数只用了部分信息(位置信息),因此通常情况下均值比中位数有效.当数据有异常值时,中位数比较稳健。为了兼顾两者的优势,因此人们提出三均值的概念,定义三均值如下:,(2.1.6),由定义可知:三均值是上四分位数、中位数与下四分位数的加权平均,即分位数向量(M0.25,M,M0.75)与权向量为w=(0.25,0.5,0.25)的内积。,MATLAB提供了求均值、中位数、分位数的命令.,(1)均值命令mean,其调用格式 m=mean(X); 其中,输入X为样本数据(2.1.1),输出m为样本均值。,(2)中位数命令median,其调用格式 MD=median

5、(X); 其中输入参数X是样本数据(2.1.1),输出MD为中位数.,(3)P分位数命令prctile,其调用格式 SM=prctile(X,P); 其中输入参数X是样本数据(2.1.1),P为介于0至100间的整数,P=100*p,输出SM为P%分位数。,注意:当样本数据X是矩阵时,上述三个命令的输出将给出X的每列数据的相对应的数值,参见例2.1.1.,(4)根据分位数命令及公式(2.1.6),可编写求三均值的MATLAB程序如下。 w=0.25,0.5,0.25; %输入权向量w SM=w*prctile(X,w); %由(2.1.5)式计算X三均值,例2.1.1. 根据安徽省统计年鉴数据

6、(表2.1)计算各指标均值、中位数以及三均值.,项目6 数据描述性分析,例6-1 表6-1是某省各市森林资源情况统计数据,计算各指标均值、中位数以及三均值。,项目6 数据描述性分析,1、导入数据 (方法一)原始数据是excel文件:data=xlsread(d:ys);%导入数据; (方法二)或先将excel文件放到work文件夹中,再B=xlsread(yuanshishuju.xls) (方法三)如果数据文件保存在excel的某个sheet中,我们的使用方式为: A = xlsread(data.xlsx,Sheet1); 2、导出数据用 save b.txt B -ascii%(把矩阵B

7、的数据,导出到了TXT文件中,名字为b.txt),注意空格,-ascii 前有空格。xlswrite(a.xls,a) 即可读到excel文件中 注意:(a是文件名,注意单引号必须英文状态下输入) 这里的Excel都是Microsoft office中的Excel,对于wps的Excel,MATLAB无法读取 在进行文件读取时,请先关闭所要读取的数据文件 将数据写入Excel之前,请先删除同名Excel文件,以免数据覆盖,造成数据丢失,解:将表6-1的数据作为一个矩阵AA输入当前窗口,然后对矩阵AA调用有关命令函数,程序如下:,AA=53.93 50.98 15.48 256.00 65.41

8、 44.92 40.38 14.99 211.07 151.14 148.19 145.54 17.10 842.09 677.52 293.86 279.86 28.80 1238.01 1035.67 86.96 74.64 12.91 302.67 299.32 791.50 680.96 77.80 3298.56 3252.88 598.92 546.67 35.60 2291.09 2099.21; M=mean(AA); MD=median(AA); w=0.25,0.5,0.25; SM=w*prctile(AA,0.25;0.5;0.75); M;MD;SM,输出结果如下:

9、M_MD_SM %M文件名 ans = 1.0e+03 * 0.2883 0.2599 0.0290 1.2056 1.0830 0.1482 0.1455 0.0171 0.8421 0.6775 0.0449 0.0404 0.0129 0.2111 0.0654 即如表6-2所示。,表6-2 某省森林资源均值、中位数与三均值,2.方差与变异系数 方差是描述数据取值分散性的一种度量,它是数据相对于均值的偏差平方的平均.样本数据(2.1.1)的方差记为,(2.1.7),其算术平方根称为标准差或根方差,即,(2.1.8),刻画数据x1,x2,xn相对分散性的指标可以用变异系数,其计算公式为,(

10、2.1.9),变异系数是一个无量纲的量,一般用百分数表示. 在MATLAB中,计算方差命令var,调用格式 S=var(x); 计算标准差命令std,调用格式 d=std(x) 其中输入x是样本数据,输出S为方差,d为标准差.当输入x是矩阵时,输出x每列数据的方差与标准差.,由均值与方差命令,可设计变异系数的计算程序为 v=std(x)./mean(x),或者v=std(x)./abs(mean(x) 当输入x是矩阵时,输出x每列数据的变异系数.,例2.1.2. 计算例2.1.1中各指标的方差、标准差与变异系数,解:将表2-1中的数据粘贴到MATLAB软件 A=53.93,3252.88; %

11、 粘贴原始数据 M=mean(A); % 计算各指标均值 D=var(A); % 计算各指标方差 SD=std(A); % 计算各指标标准差 V=SD./abs(M) % 计算各指标变异系数 D;SD;V % 输出计算结果,表2.3安徽省森林资源方差、标准差与变异系数 (2008年),3. 样本的极差与四分位极差,极差的计算公式为:,它是表示数据的分散性的数字特征. MATLAB中公式为: max(data)-min(data),或 range(data),上、下四分位数Q3,Q1之差称为四分位极差,即 R1=Q3-Q1,MATLAB中计算数据data的公式为:iqr(data),4. 异常点

12、判别,先求上、下截断点:R上=Q3+1.5R1 , R下=Q1-1.5R1 小于R下或大于R上的数据均为异常值.,例2.1.3 根据2007年华东地区各高校教职工数据,计算专任教师、 行政人员、教辅人员以及工勤人员占在职教工的百分比,以及百分比的极差、四分位极差以及上、下截断点.,表2.4 2007年华东地区各高校教职工数据,解:A=61385 35480 10282 7842 7781 134215 88568 20172 13371 12104 67763 45622 10960 6798 4383 59149 40743 7278 5763 5365 47864 31385 7712 5

13、034 3733 63392 45153 8179 5495 4565 120996 81889 16342 11614 11151;,B=A(:,2:5)./A(:,1)*ones(1,4); % 计算百分比 R=range(B); % 计算极差 R1=iqr(B); % 计算四分位极差 XJ=prctile(B,25)-1.5*R1; % 计算下截断点 SJ=prctile(B,75)+1.5*R1; % 计算上截断点,5.偏度与峰度,偏度是用于衡量分布的不对称程度或偏斜程度的指标.随机变量的偏度是变量的三阶中心矩除以标准差的三次方,计算样本的偏度公式为:,其中u3,s 分别表示数据的3阶

14、中心矩与标准差.,Matlab计算数据偏度的命令为: skewness(data,0),正态分布的偏度为零,若pd0称分布具有正偏离,也称右偏态,情况相反;而偏度接近0则可认为分布是对称的.若知道分布有可能在偏度上偏离正态分布时,可用偏离来检验分布的正态性.,峰度,峰度用来衡量数据尾部分散性,正态分布峰度为零,峰度0,则厚尾,峰度0,则细尾,在金融时间序列分析中,通常要研究数据是否为尖峰、细腰、厚尾等特性。,随机变量的峰度是变量的四阶中心矩除以标准差的四次方,计算样本的峰度公式为:,其中u4,s 分别表示数据的4阶中心矩与标准差.,Matlab计算峰度的命令为:kurtosis (data,0

15、)-3.,例2.1.4 计算1995年1月3日至1999年4月1日IBM公司股票开盘价、最高价、最低价、收盘价以及成交量的偏度、峰度.,解:首先在MATLAB编辑窗口键入,ibm = ascii2fts(ibm9599.dat, 1, 3, 2);,得到数据共有六列,分别为:日期、股票开盘价、最高价、最低价、收盘价以及成交量数据. 然后键入,tsmat = fts2mat(ibm); % 提取ibm数据的后五列数据矩阵 pd=skewness(tsmat,0); % 计算偏度 fd=kurtosis (tsmat,0)-3; % 计算峰度 pd;fd % 输出计算结果 subplot(221),histfit(tsmat(:,1),title(open) % 做开盘价直方图 subplot(222),histfit(tsmat(:,2),title(high) % 做最高价直方图 subplot(223),histfit(tsmat(:,3),title(low) % 做最低价直方图 subplot(224),histfit(tsmat(:,4),title(close) %

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 其它中学文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号