文档详情

数据的无量纲化处理及示例

cl****1
实名认证
店铺
DOCX
27.43KB
约5页
文档ID:426707495
数据的无量纲化处理及示例_第1页
1/5

数据的无量纲处理方法及示例在对实际问题建模过程中,特别是在建立指标评价体系时,常常会面临不同类型的数 据处理及融合而各个指标之间由于计量单位和数量级的不尽相同, 从而使得各指标间不具有可比性在数据分析之前,通常需要先将数据标准化, 利用标准化后的数据进行分析数据标准化处理主要包括同趋化处理和无量纲化处理两个方面 数据的同趋化处理主要解决不同性质的数据问题,对不同性质指标直接累加不能正确反应不同作用力的综合结果, 须先考虑改变逆指标数据性质, 使所有指标对评价体系的作用力同趋化 数据无量纲化主要解决数据的不可比性,在此处主要介绍几种数据的无量纲化的处理方式1)极值化方法可以选择如下的三种方式:xi x(A) Xi = =—max- min R即每一个变量除以该变量取值的全距,标准化后的每个变量的取值范围限于 [-1,1]x - min xi - min (B) X = - = —max- min R即每一个变量与变量最小值之差除以该变量取值的全距, 标准化后各变量的取值范围限于[0,1] . x; (C) xi = 高,即每一个变量值除以该变量取值的最大值,标准化后使变量的最大取 值为1。

采用极值化方法对变量数据无量纲化是通过变量取值的最大值和最小值将原始数据转换为界于某一特定范围的数据,从而消除量纲和数量级的影响 由于极值化方法对变量无量纲化过程中仅仅对该变量的最大值和最小值这两个极端值有关, 而与其他取值无关, 这使得该方法在改变各变量权重时过分依赖两个极端取值2)标准化方法x x利用xi = A——来计算,即每一个变量值与其平均值之差除以该变量的标准差,无量 s纲化后各变量的平均值为 0,标准差为1,从而消除量纲和数量级的影响虽然该方法在无 量纲化过程中利用了所有的数据信息, 但是该方法在无量纲化后不仅使得转换后的各变量均 值相同,且标准差也相同,即无量纲化的同时还消除了各变量在变异程度上的差异3)均值化方法, x; . 计算公式为:xi二一,该方法在消除量纲和数量级影响的同时,保留了各变量取值差 xi异程度上的信息4)标准差化方法' x; 计算公式为:xi = - O该方法是标准化方法的基础上的一种变形,两者的差别仅在无s量纲化后各变量的均值上,标准化方法处理后各变量的均值为 0,而标准差化方法处理后各变量均值为原始变量均值与标准差的比值如下的示例就是一个综上所述,针对不同类型的数据,可以选择相应的无量纲化方法。

典型的评价体系中无量纲化的范例示例:近年来我国淡水湖水质富营养化的污染日益严重, 如何对湖泊水质的富营养化进行综合评价与治理是摆在我们面前的任务,下面两个表格分别为我国 5个湖泊的实测数据和湖泊水质评价标准表2-2 全国五个主要湖泊评价参数的实测数据总磷(mg/L )耗氧量(mg/L)透明度(m)总氨(mg/L)杭州西湖13010.300.352.76武汉东湖10510.700.402.0青海湖201.44.50.22巢湖306.260.251.67滇池2010.130.500.23表2-3 湖泊水质评价标准评价参数极贫宫养贫宫养中宫养富营养极富营养总磷<1423110>660耗氧量<0.090.361.807.10>27.1透明度>37122.40.55<0.17总氨<0.020.060.311.20>4.6要求:(1)试用以上数据,分析总磷,耗氧量,透明度,总氨这 4个指标对湖泊水质评价富营养化的作用2)对这5个湖泊的水质综合评价,确定水质等级在进行综合评价之前,首先要对评价的指标进行分析通常评价指标分成效益型,成本型和固定型指标效益型指标是指那些数值越大影响力越大的统计指标 (也称正向型指标);成本型指标是指数值越小越好的指标(也称逆向型指标) ;而固定型指标是指数值越接近于某个常数越好的指标(也称适度型指标) 。

如果每个评价指标的属性不一样,则在综合评价时就容易发生偏差,必须先对各评价指标统一属性建模步骤(i )建立无量纲化实测数据矩阵和评价标准矩阵,其中实测数据矩阵和等级标准矩阵如下,10.310.71.46.2610.130.352.760.42.04.50.220.251.670.50.234230.361.8122.40.060.311106607.1027.10.550.171.24.6然后建立无量纲化实测数据矩阵 A和无量纲化等级标准矩阵 B ,其中得到数 / maxxij ay = ? ,Jmin^j / Xj-3 31■ykt / maxykt k 1 3 kmin ykt / ykt k= 3 k价0000J扁8077.1538230815380.96261.00000.13080.58500.94670.7143 1.00000.6250 0.72460.0556 0.0797 ,1.0000 0.60510.5000 0.0833g0015 0.0061 0.034810033 0.0133 0.06640046 0.0142 0.07080043 0.0130 0.06740.1667 1.00000.2620 1.00000.3091 1.00000.2609 1.0000(ii)计算各评价指标的权重计算矩阵B的各行向量的均值和标准差,1 5E = W ? bj ,Si 二5 j = 1,i = 1,2,3,4然后计算变异系数最后对变异系数归一化得到各指标的权重为w = [0.2767 0.2444 0.2347 0.2442](iii)建立各湖泊水质的综合评价模型通常可以利用向量之间的距离来衡量两个向量之间的接近程度, 在Matlab中,有以下 的函数命令来计算向量之间的距离;dist( w, p):计算w中的每个行向量和 p中每个列向量之间的欧式距离;mandist( w, p):绝对值距离。

计算A中各行向量到 B中各列向量之间的欧氏距离,4 2dij = \ ? (aik- bik)I k= 1若dik = miri{dij},则第i个湖泊属于第k级1.8472 1.8312 电959 1.57981.73741.48591.37691.12710.28810.5034d=;«2185 0.20450.13670.3383 1.791743201 1.3038 尚0793 1.06501.20820.98670.83920.73280.95911.3450这说明杭州西湖,武汉东湖都属于极富营养水质, 青海湖属于中营养水质, 而巢湖和滇池属于富营养水质同时也可以计算 A中各行向量到 B中各列向量之间的绝对值距离4Dij =?1 aik - bik |,i'=1若Dik =min{Dj},则第i个湖泊属于第k级木66313.63033.43742.67830.3231TO|14363.11082.91782.15870.8427D =曼40620.37340.21100.57873.58001I 2.4071I 期67012.37431.63742.18141.44441.42231.06601.57912.3161其评价结果与利用欧氏距离得到的评价结果完全一样。

但对湖所以,从上面的计算可以看出, 尽管欧氏距离和绝对值距离的意义完全不一样, 泊水质的评价等级是一样的,这表明了方法的稳定性程序:X=[130 10.3 0.35 2.76;105 10.7 0.4 2;20 1.4 4.5 0.22 30 6.26 0.25 1.67 ;20 10.13 0.5 0.23];Y=[1 4 23 100 660; 0.09 0.36 1.8 7.1 27.1; 37 12 2.4 0.55 0.17;0.02 0.06 0.31 1.2 4.6];B1=Y(1,:)./660;B2=Y(2,:)./27.1;B3=0.17./Y(3,:);B4=Y(4,:)./4.6;B=[B1;B2;B3;B4];A1=X(:,1)./130;A2=X(:,1)./10.7;A3=0.25./X(:,3);A4=X(:,4)./2.76;A=[A1 A2 A3 A4];B=B’;t=std(b)./mean(b); w=t/sum(t);jd=dist(A,B);mjd=mandist(A,B)。

下载提示
相似文档
正为您匹配相似的精品文档