第七章 数据处理和试验设计• 1. 试验数据的统计处理 • 2. 回归分析 • 3. 正交试验设计1. 试验数据的统计处理步 骤由n块平行试样得到的测量值为: x1,x2,x3………….xn (1) 剔除含粗大误差的数据,比如用Grabbs准则进行判断 : 计算n个测量值的算数平均值和标准差s将各个测量值按大小顺序排列起来,最小者记为x(1),最大者记为x(n)计算取定显著度(一般为0.05或0.01),由表查出临界值g0(n, ),将g(1)和g(n) 中较大的一个g(i)与g0(n, )比较, 当g(i) g0(n, ),则该测量值包含粗大误 差, 应当剔除对剩下的(n-1)测量值再按上述方法检验, 直至所有的坏值 全部剔除也可用Q检验法进行处理:将各个测量值按大小顺序排列起来,最小者记 为x(1),最大者记为x(n)用M记x(n)与x(1)之差, N记x(n)与x(n-1)之差,计算取定置信度c, 由Q值表查Q(c, n);如果Q Q(c, n),则该 x(n)含粗大误差,应剔除用同样方法检验x(1)2). 计算正常测量值的算数平均值和标准差 设剔除坏值后测量值的个数为n,则算数平均值的标准差(3). 取定显著度(置信概率P=1- ),由双尾t值表查自由度为(n- 1)的置 信系数t , 算数平均值的置信限(4). 测量结果表示为即x的测量值以置信概率P落于范围 概率为P第七章 数据处理和试验设计• 1. 试验数据的统计处理 • 2. 回归分析 • 3. 正交试验设计设变量x和y 之间服从线性关系式y = ax + b 但a和b是未知的,需要通过实验测量x、y的数值来确定。
一元线性回归进行n次测量,得到一系列数据x1, x2 xny1, y2 yn 按最小二乘法,a、b的最佳值应满足偏差平方和最小的条件 偏差平方和Q为使Q最小的条件是,由此得出解此联立方程,得到a和b的最佳值,上面的结果可以写成引入x、y的算数平均值使用符号则可以将a的计算式简写为如将一元线性方程写成:y = A0 + A1x1多元线性方程的回归分析记计算A0、A1的公式为多元线性方程:y = A0 + A1x1 + A2x2 +………………….+Amxm计算得线性方程组解此线性方程组可得A1,A2…………….Am,A0由下式计算回归精度可以分为两个部分:+其中 是对应于xi用回归直线计算的y值,偏差平方和(或者称为剩余平方和)反映测量点对回归直线的偏差大小,即回归直线的精度回归平方和反映当x变化时由于y和x的线性关系而引起的y的变化,即反映y与x之间线 性关系的密切程度设x的测量值是精确的,y的测量值yi对算数平均值的离差的平方和xy(x, y) 回归直线引用前面的符号,可得因为测量点的数目为n,故S的自由度为(n-1);y和x中只有一个自变量,故U 的自由度为1;Q的自由度为S和U的自由度之差,即(n-2)。
方差(variance, 也叫做均方)定义为平方和S与自由度的比值,即标准差 的平方所以,U和Q的方差分别为x和y之间线性关系的检验 (1) F检验法计算统计量F再查F分布表中的临界值F(f1, f2)为显著性水平(或置信水平),f1, f2分别 为U和Q的自由度,即1和(n-2)回归方差剩余方差当F F0.01(1, n-2),则线性关系高度显著当 F0.01(1, n-2) F F0.05(1, n-2) ,则线性关系显著当 F0.05 (1, n-2) F F0.1(1, n-2) ,则线性关系比较显著当 F F0.1(1, n-2) ,则线性关系不显著所以,F检验法的实质是将x改变引起的y的变化与实验误差引起的y 的变化分解开并进行比较,从而确定线性关系的显著程度2) 相关系数检验计算相关系数R 愈接近于1,说明线性关系愈显著当R = 1,说明所有数据点在一条 直线上同样,查相关系数临界值,可以判断线性关系的显著程度第七章 数据处理和试验设计• 1. 试验数据的统计处理 • 2. 回归分析 • 3. 正交实验设计正交实验设计是按正交表来安 排试验。
右图是一张正交表,其 符号为L9(34),1.什么是正交实验设计表1 L9(34)正交表列号行号L9(34)正交表行数(安排试 验时需进行的 试验次数)水平数(各因素 可取的具体条 件的个数)列数(安排试 验时可以包 括的影响因 素的数目)各个字母和数字表示的含义 如下:2. 正交实验设计的特点如右图的正交表可以包括4个因素,每个 因素取3个水平,它们所有的组合为34 = 81个,而按右表 只需要做9次试验 所以,正交实验设计是一种多因素优选 的科学试验方法L9(34)正交表列号 行号正交表具有两个特点:(1) 任何一列的三个数字都出现了3次2) 任何一列的三个数字1,2,3与其它 任何一列的三个数字1,2,3的全部搭配 都出现了,而且每种搭配出现的次数都相 等这种性质叫做正交性正交实验设计正 是利用了正交表的这种性质,使我们只需做较少次数的试验, 而不会漏掉各种因素对试验结果 的影响3. 各因素间无交互作用的正交实验设计2. 确定要在试验中优选的因素和水平设缓蚀剂有三种组分分别用A、B、C表示 每种药品都取三个剂量, 将水平随机安排如A1 = 40mg/L A2 = 50mg/L A3 = 30mg/LB1 = 10mg/L B2 = 8mg/L B3 = 12mg/LC1 = 20mg/L C2 = 25mg/L C3 = 30mg/L 3. 用正交表安排试验。
首先选取正交表组成正交表的数字与水平数相同,列数等于或者大于 因素数,行数尽量少,以减少试验次数如上面的缓蚀剂例子,可以选取正交表L9(34)将三个因素排到三个列上,各列中的1,2,3分别对应该因素的1,2,3 三个水平 4. 做试验试验要完全按照正交表中所列条件进行,但做各次试验的先后则不必 完全按照表中的顺序,而以随机安排较好1. 确定试验目的及反映试验结果好坏的评定指标 例:评选缓蚀剂,找出最佳配方评定指标是金属试样的腐蚀速度, 也可以用缓蚀率作为评定指标,各因素的水平数不一定相 同,但需与正交表配合5.结果分析 5.1 极差分析法(直观 分析法,综合分析法)写在该列的下面其中 最小(此例为腐蚀速度最 小)者对应于该因素的 较优水平由右表得出,A,B ,C的较优水平分别为 A2,B2,C11) 分别计算每个因 素的各个水平参加试验 的平均效果,即把同一 水平的几个x值相加得 到K值,再用每个水平 的试验次数除右表中 每个水平的试验次数都 是3,故计算每一列的表2 试验安排和极差分析列号 行号(2) 确定各因素影响的 主次顺序计算极差R: 平均效果中最大者和最 小者之差称为极差。
极 差R愈大,表明该因素 水平变化引起的指标(本 例子为试样腐蚀速度)变 化愈大,即该因素的影 响愈重要由右表得出,A,B ,C三中组分的影响的 主次顺序为:C最大,B 次之,A最小表2 试验安排和极差分析列号 行号除计算极差外,还可以 作平均效果随因素水平 的变化图来进行分析 数据点的变化幅度愈大 ,该因素的影响愈重要 6. 如果需要,可以安排进一步的试验上图表明,A组分的较优水平是三种剂量中最高的,是否需要再加大剂量 ?B组分和C组分的较优水平是三种剂量中最低的,可否再降低?都要根据 具体情况考虑是否需要做进一步的试验而正交实验设计的分析为进一步试 验指明了方向一般来说,在运用正交试验优选出最佳条件后,还应当进行验 证试验,考察是否达到预定的要求3) 结论 作出关于优选试验的结论各因素的主次顺序为:C,B,A最佳配方为:A2B2C1,即A组分50mg/L,B组分8mg/L,C组分20mg/L 检查试验安排,此配方并未包括在已做过的9次试验中所以,使用正交实 验设计,可以只做较少次数的试验而不会漏掉最佳结果 必须指出,所谓主和次,是在试验中选择的因素及其水平变化范围内得出 的,不能离开考察的具体条件来谈论试验结果。
4. 各因素间有交互作用的正交实验设计1. 交互作用当两种药品都添加时,试样腐蚀速度的减小可能比它们分别添加时的效 果的简单迭加更大,即缓蚀剂组分间可能存在“协同效应”在其它试验中也 表现出因素之间可能有交互作用在安排正交实验设计时应当考虑因素间的 交互作用A因素和B因素之间的交互作用用A×B表示 2. 表头设计两个因素间的交互作用在正交表上如何安排? 可以查“交互作用表”当水平数为2时,交互作用占另外一列,如正交表L8(27)共有7列,查L8(27) 的交互作用表知,第1,2列的交互作用应放在第3列,第2,5列的交互作用 应放在第7列,等等当水平数为3时,交互作用占另外两列,如正交表L9(34),的交互作用表指 出,如果把因素A,B放在第1,2列,则第3,4列为(A×B)Ⅰ和(A×B)Ⅱ3. 结果分析和前面一样,计算每列的各个水平的平均效果,确定较优水平计算每 一列的极差,确定各因素的影响主次顺序对交互作用列的处理,下面用 具体例子说明例将A,B分置于第1,2列,C置于第4列,查交互作用表,B×C应置于第6 列;将D置于第5列缓蚀剂配方由A,B,C三组药剂组成,每种药剂取2个剂量;另 外加一种表面活性剂,以改善其综合性能;还需要考虑组分B与 C之间的交互作用。
以缓蚀率为评定指标试验后用极差分析处理试验结果,见下表选用正交表L8(27),其安排为因素水平因素和水平安排表表3 有交互作用的正交实验设计与极差分析列号 行号由上面的表可以看出,B组分和C组分的交互作用(B×C)的影响最显著, 其较优水平为(B×C)Ⅰ 从表中看出,(B×C)Ⅰ包括B1C1和B2C2两种组合究竟选取哪一种组合, 还应当考虑其他因素 A因素的影响仅次于(B×C),其较优水平为A2,在取定A2后,(B×C)Ⅰ对 应于第5号和第8号试验显然,第5号试验的指标较优由此确定取 B1C1 另外,D应取D2最后得出最佳配方:A2B1C1D25. 数据处理中的几个问题5.1 简化计算(1) 指标数据x可以同乘一数,同加一数,即令x = k(x + m) 其中k > 0这样可以使计算简化,而不影响分析的结果2) 如果各个因素的水平数相同,因而每个水平参加的试验次数一样,在计 算各水平的数据平均值时可以不用试验次数去除,而直接使用K值,对分析 结果无影响5.2 重复取样和重复试验为了减小试验误差,每次试验中同时取几个试样,称为重复取样每个试 样得到的试验结果一般是不同的在进行极差分析时,只需对几个重复试样 的结果取平均值,作为该次试验的指标。
有时需要在每一个试验条件下(正交表中每一个试验号)做几次试验,称为 重复试验一般来说,每次试验的结果也有差别在数据处理时只需将几次 试验的结果进行平均,作为该试验条件下的单一结果,用来进行极差分析5.3 非数量指标 有些试验中,指标是非数量的在分析数据时,一般可以采用如下两种方法1) 评分法对非数量指标评分,当作数量指标处理评分办法和分数等级要根据具体情 况确定2) 统计合格率(或废品率)法对于指标是“合格”、“不合格”两个等级的试验,可以采用统计合格率或者废 品率作为数量指标计算必须从较大批量的试样中去进行,故必须重复取样或 重复试验,而且重复数较大5.4 多指标试验当试验结果的评定指标不只一个时,常使用以下两种方法.(1) 综合平衡法分别对各个指标进行分析,找出各个指标的较优生产条件(比如上面例子中 的缓蚀剂较优配方),然后将各个指标的较优生产条件进行综合平衡,得出兼 顾各个指标都尽可能好的生产条件当较优条件发生矛盾时,应做进一步的 。