复杂数据统计过程的若干研究

资源描述

《复杂数据统计过程的若干研究》由会员分享，可在线阅读，更多相关《复杂数据统计过程的若干研究（10页珍藏版）》请在金锄头文库上搜索。

1、邹长亮：复杂数据统计过程的若干研究的抽样点上，我们所得到的观测值可以看作一些变量的回归曲线这样的问题我们称为 p r o fi l e数据问题如何使用 S P C方法对这样的生产过程进行监控，就是 p r o fi l e数据的质量控制问题很多情况下，准确地用参数回归函数描述 p r o fi l e 是相当困难的，尤其当一个 p r o fi l e比较复杂、 p r o fi l e数据内的观测是相关的时候 1 假设在受控数据集中有 m 个 p r o fi l e s ，第 i 个 p r o fi l e s 有 n 个观测引入非参数混合效应模型来刻

2、画 p r o fi l e Y i j=g ( x i j ) +f i ( X i j ) +e i j ， J=1 ， 2 ， n i ， i =1 ， 2 ，， m， ( 2 1 ) 其中 g是总体 p r o fi l e函数 ( 即固定效应项) ，是随机效应项， s t j是均值为 0方差为盯的独立同分布随机误差项在模型 ( 2 1 )中，通常假设随机效应。与误差是相互独立的，且的期望为 0 ，协方差函数为 7 ( 1 ， 2 ) =E ( 1 ) f i ( x 2 ) 不失一般性，我们进一步假设 t 0 ， 1 模型 ( 2 1 ) 相当灵活，

3、它包括了很多常见的相关性结构作为特殊情况例如，当。 ( ) = i 并且 t 是均值为 0的随机变量时， p r o fi l e内的相关性结构具有复合对称形式当 C o r r ( f i ( x 1 ) ， ( 2 ) ) =p ( I x 一X 2 l ； ) ，则对某些相关性函数 P和系数相关性结构包括了非齐次 O r n s t e i n U h l e n b e c k过程和 G a u s s 相关性模型为了建立控制图，需要确定受控时的 g ， 7和盯 0 ，相关估计方法及性质参见文献 f 2 1 对于任何 s 0 ， 1 ，考虑如下的加权局部似然

4、： s ) Kh ( X i j s ) ( 1 一 ) 卜 2 2 ( z ) 其中是权重参数， ( ) = ( ， X ) + 是响应的方差函数WL( a ， 6 ； 8 ，， t )同时使用了在指数加权移动平均 ( e x p o n e n t i a l l y w e i g h t e d mo v i n g a v e r a g e ， E WMA )模型中采用的 ( 1 一 ) 卜形式的指数权重和局部线性光滑方法 3 与此同时，利用 1 2 x ) 进一步考虑到观测的异方差性对 WL( a ， b ； s ， A ， t ) 进行最小化，可以得到局部线性

5、核估计 g ( s ) 有如下表达式：其中 ( s ) = ( s ) 物： ( s ) m ( ) ( 2( i J ) 2 。 J ( 2 2 ) t 忆z r nf， ( s ) = E( 1 一 ) 一 i E( x t，一 s ) K h ( x 巧 s ) ( ) ，： 0 ， 1 ， 2 ( 2 3 ) =1 J =1 在时刻 t ，， h ， A ( s ) 利用了所有观察，把不同的p r o fi l e 所提供的信息整合在一起令 =Y ij 一 ( 巧 ) 】通过用岛替代Y 后，己，h ， ( s ) 可以由上面的估计方法相应得到如此变换后，己

6、， h ， ( s ) 在受控情况下的分布就与 g 0 独立了，如下定义的控制图受控情况下的分布以及与这相关的统计量 ( 控制线)的分布都与g 0 相互独立，这样就简化了控制图的设计和计算当过程处于可控状态时， 15 ，h ， ( s ) I 应该很小所以，很自然得到如下统计量： 74 2 一， _ s 一 m = ， L发生报警，其中 L0是可以达到受控情况下的平均运行长度 ( AR L ) ( 记为 A RL o )的控制线下面给出的一些渐近特性定理 2 1 假设过程是受控的，在一定的正则条件下可得到如下结果： ( 1 ) 如果 n i h是有界的，那么，

7、对于每个 i ， ( T t ，，一声 ) 与( 0 ， 1 ) ，其中 _ - ( 2 ) 如果 n i h_ 。。，则 1 一D 1 r l 1 “ ，其中表示依分布渐近等价于 d t o ,t , = t o + l ( 1 一 ) 。 (t l - i ) n b ， e 是一个均值0 协方差矩阵为 Q 的 n 0维多元正态随机向量， Q =( 从定理 2 1 ，我们发现 T t ，，渐近地独立于讨厌参数 7 ( ， ) 和盯以下定理研究失控模型下的 T th A 的渐近特性如果 1i 7 - ，如果 i 7 _ ，其中丁是一个未知的变点， g l

8、 ( ) =-g 0 ( ) + ( ) 是失控情况下的回归函数采用以下记号 =仆 + z 一。 (u ) d ， ( 2 = ” (u )2 r 1 (u )d 钆 ( 2 4 ) 定理 2 2 在一定的正则条件下且 ( 2 0满足的话，可以得到 ( 1 ) 如果对于每个 i ， n i h是有界的， C O 佗 1 亏 K = 0使得对所有 7 ， a = 0 ；在区间 ( + 1 ， )中，活动集 ( 7 ) = ： s g n a 】 0 ) ，并且符号向量s ( 7 ) = s g n o ( 1 ， s g n 4 “ ) 不随而改变由于活动集在

9、每个处改变，我们称彳为转移点由于在实际中 P o也是未知的，我们建议联合所有的，其中J =1 ， q 来构造我们的检验这里 m 是序列， 1 ， )中的最后个指标此时，相应的活动集恰好包括 J个元素下面的渐近结果从使用转移点的角度上告诉我们怎样选择定理3 2 在日 1 下，假设m in t t U ) ， J p o ) =o ( n ) ，其中一 r ) 的期望经历了一个大小为 o的跳跃漂移如果在变点 7 - 之后， i的分布从 ( 0 ，。 ) 改变为 ( o +( i 一7 ) o ， 0- 。 ) ( 00 ) ，则我们称过程发生了 d r

10、i ft 漂移或者线性趋势漂移假设变点丁，和 0未知， 0和 0-是已知的，且不失一般性，我们假设 0 =0 和 0-=1 为了简化，我们考虑上侧单边控制方案，即 0或者 00 在 d r i f t的备选假设下，应用检测变点的经典似然方程，我们得到自然对数似然比 R( 丁， I ) =2 1 n一12 ! 兰旦二萎三 i 1 =下+ z 由于丁和 0未知，这个检验可以在给定样本观测时，通过对于所有可能的 ( 丁， 0 ) 最大化 R( T ， 0 l ) 易证 n l a x o 0 ，使得 AR L 。 ( L R L ) e c 2 2 失控

11、状态下的 AR L逼近 A R L ( T G L 一 L )由如下的定理给出定理 4 2 如果 AR L o T G L R - L ) _ 。。或者 c _ 。。，则 ( 1 ) 对于 0 ， 0 = 0 ， A R L ( 咒L R L ) = i4 岳 ( 1 + 0 ( ) ) ； ( 2 ) 对于 00 ， =0 ， A R L o (T G L R -L ) ( ) ( + 。 ( ) ) 下面的定理显示了在 d r i ft漂移下 GL R - L与 E WMA， C US UM ( c u mu l a t i v e s u m) ， GE WMA ( g e

12、 n e r a l i z e d E WMA ) 和 GL R( g e n e r a l i z e d l i k e l i h o o d r a t i o )的控制方案 ( 定义参见文献【 9 )的渐近比较 7 4 6 中国科学：数学第 4 3卷第 8期定理 4 3 如果 A R L o ( T c ) =A R L o ( T E ) =A R L o ( T G E ) =A R L o ( T G L R - S ) =A R L o ( T G L R - L ) _ 。。，那么，对于 00和 =0 ， AR L e ( T G L R L )

13、1 = + ” 叫 + 十一 = l l + 一一一舣 m d g m = d 邹长亮：复杂数据统计过程的若干研究 ( 2 ) ( 5 3 )是相合估计正如模型 ( 5 1 ) 所描述的，假设漂移发生在某一阶段 c时，凰被拒绝，其中这个检验模型将二项分割方法、两样本均值检验和方向信息有机地结合在一起进一步地得到和丁的估计如下： _ m a x ( d T W - l t A 2 1 p 0 V V宇0 下面的定理确立了变点估计和漂移发生阶段估计的的渐进相合性定理 5 2 假设 0c ) ，这是因为我们可以任意选择参数 d ， 0 和的值为了近似 P r

14、 ( c ) ，有必要研究 G f 的分布性质我们进一步有如下结论定理 5 4 当过程是可控的，统计量 G2 与下述统计量同分布： ( + ) 其中 F 1 和 F 2是两个独立的 F分布，自由度分别为 ( 1 ， mP一1 ) 和 ( P一1 ， mP ) 进一步，类似于文献 1 2 ，定理1 3 1 】 j 我们可得到的渐进零分布 7 48 黑中国科学：数学第 4 3卷第 8期定理 5 5 当过程是可控的，对于任意的 =1 ， P ， l i ll l P r A ( 1 o g m) t 4 - D ( 1o g m) =e x p ( 一 2 e ) ， ( 5 8 ) 其中 A( x ) =( 2 l o g x ) ， D( x ) =2 l o g x+ l o g l o g x一 l o g 7 r 在变点问题中，基于二项分割的检验统计量的分布收敛速度往往很慢注意到 ( 5 8 ) 给出的的渐进分布等价于传统的似然比检验统计量 Z _m( 作均值检验) 的渐进分布，而 C s 6 r g 5和 H o r v a t h 1 2 给出了后者的一个更加精确的近似结果： P r ( ) x e x p ( - x一2 2 ) in (s ) 一 1 in (s ) + 刍 ) ， (5 _9 ) 其中

展开阅读全文