拉丁超立方抽样拉丁超立方抽样 从蒙特卡罗误差估计中,我们可以看到,大多数 统计量的估计值的敛散性都与 1 N 有关特别的,对 于均值的估计量,我们发现: 220.95 xx x Px NN = 而问题在于 1 N 是否能被改善值得注意的是蒙特卡 罗方法的一个主要优点就是他的敛散性依赖于独立的 随机参数个数,而接下来我们将要看到的是一种完全 不同的抽样方式:拉丁超立方抽样(LHS) 但首先, 我们要先了解一下分层抽样的相关内容 分层抽样 我们考虑一维的单个变量输入问题:( )yf x=,x 是一个随机变量分层抽样通过如下的步骤来进行: 1) 定义参与计算机运行的抽样数目 N; 2) 将 x 等概率地分成若干个区域“bin”, 01231 n Nn xxxxxxx + <<<<<? 使得 () 1 1 nn xxx N P + <<=; 3) 样本一次落入哪一个 bin 中取决于该 bin 的概率密 度函数,样本 n x使得 1 n nn xxx << ,且概率为 () 1nn x xxxP << 此时,均值的估计量可表示为: 1 () 1 N n n f xy N = = 22 1 1 () 1 N n y n yy N S = = 等等 分层抽样的误差估计 我们只考虑均值y的标准误差,有: () 2 2 2 1 1 () y y N y i i Ey NN = = 这里, i 等于第i个 bin 中 y的均值。
() 1ii xx x 等式右边第一项同蒙特卡罗方法的标准误差一样,第 二项为附加项,它使方差变小所以,较之基于随机 抽样的蒙特卡罗方法,分层抽样降低了误差的方差 多维分层抽样 对于有多个随机变量的输入,分层抽样需要 将输入的样本空间等概率地化为N个区域,而这操作 起来是很困难的 (注意: 仅仅在每一维上等概划分是 不行的)考虑一个二维的情形: 2 bins 2 bins 假设 1 x, 2 x是均匀分布的(即二向同性的) ,则有: 2 24 binsN = = 对于一般 个 bins, 考虑一个d维输入问题,我们发 现有: b N () d b NN= 举个例子,对于 8 维输入且每维上有 2 个 bins, 8 2256 binsN == 或者,每维有3个bins, 8 36561 binsN == 显然,抽样数目随着每维bins的数目的增加而迅速增 加 拉丁超立方抽样 拉丁超立方抽样是另一种多维分层抽样方法,下 面我们介绍它的工作原理: 1) 定义参与计算机运行的抽样数目N; 2) 把每一次输入等概率地分成N列, 0123iniNiiii xxxxxx<<<<<? 且有 () 1 1 inin xxx N P + <<= 3) 对每一列仅抽取一个样本, 各列中样本bin的位置 是随机的。
的 2 维问题 N = 4 个样本 相对于单纯的分层抽样,拉丁超立方抽样的最大优势 就在于任何大小的抽样数目都能容易地产生 至于估计均值,通常的做法是: 1 () 1 N n n f xy N = = 一般情况下,这种估计的标准误差不能认为是对标准 蒙特卡洛抽样方法的改进但实际上,拉丁超立方抽 样对均值和方差的估计和蒙特卡罗方法相比,在效果 上至少是一样的,且常常会显著改善 问题:因为拉丁超立方抽样标准误差的理论估计并不 是“贴紧”的, (例如:实际的均值远好于由误差估计 得到的值) , 边界必然是很悲观的 尽管一般来讲误差 估计对于拉丁超立方抽样不是很理想,但有个特别的 例子表明拉丁超立方抽样较之蒙特卡罗方法有潜在的 改进 我们来看看这个例子: 假设y是关于输入变量的线性函数 1 d ii i ya = =x ,分别利 用蒙特卡罗抽样和拉丁超立方抽样方法,再对均值进 行估计,结果都是: 1 () 1 N n n f xy N = = 而标准误差分别是: MC: () 2 22 1 11 i d yix i Eya NN 2 y = == LHS: () 2 22 33 1 11 i d yix i Eya NN 2 y = == 2 1 N = 拉丁超立方抽样的标准误差 蒙特卡洛抽样的标准误差 我们可以看到,拉丁超立方抽样对样本数量的节省非 常显著。
因此,对于输出结果能用一个线性函数很好的逼 近的情况下,我们认为拉丁超立方抽样比蒙特卡洛抽 样更好。