感官分析统计方法学

资源描述

《感官分析统计方法学》由会员分享，可在线阅读，更多相关《感官分析统计方法学（69页珍藏版）》请在金锄头文库上搜索。

1、第六章感官分析统计方法学统计学是感官研究的一个重要组成部分，要成为一名专业感官研究人员，必须具备比较全面的统计学知识。l感官评价中误差产生的根源： l不同的人，生理构造有差异l环境因素的影响l人们在语言表达上有所差别，使用标度的方式也不同结果分析中图的好处l在统计学中把利用统计图形表现统计资料的方法叫做统计图示法。其特点是：形象具体、简明生动、通俗易懂、一目了然。 l“条形图”的特点是对各个时期或时点的数据有直接对比的作用，对其数值大小，一目了然。l“折线图”的特点是对时期数列的数据的运动轨迹以及发展趋势有较强的指示作用。l“扇形图”的特点是对数据中的各个分组的大小和结构有明

2、显的比较作用。统计表的作用是：用数量说明研究对象之间的相互关系。用数量把研究对象之间的变化规律显著地表示出来。用数量把研究对象之间的差别显著地表示出来。这样便于人们用来分析问题和研究问题。图的误用面积？l美国国家食品药品管理局（FDA）要求新药的研发试验中，必须有统计学家来指导研究的设计、数据的分析、报告的呈递等。统计学在感官分析中的应用l描述：结果的简单描述（数据的收集、加工处理、显示方法、分布特征的概括等）l推论：为实验处理提供根据l衡量：估计变量间的相关程度（研究如何根据样本信息来推断总体的特征）研究的过程实际问题收集数据（取得数据）分析数据（研究数据）数据整理（处理

3、数据）解释数据（结果说明）分析方法1定性分析 2定量分析（统计分析）描述统计推论统计复杂统计分析计算机统计分析平均数标准差Z检验 t检验 X2检验 F检验方差分析、回归分析、聚类分析、判别函数分析、主成分分析、因素分析、路径分析、结构方程模型产品质量分析结果分析结果分析结果分析结果分析结果单变量分析色香味形多元回归因子分析主成分分析相关分析l图表描述条形图、柱形图、折线图、雷达图、箱线图等。l数据描述集中程度：平均数变异程度：标准差分布的对称、陡峭程度；偏斜度、峭度l推论剔除极端值/缺失值选择显著性水平l统计试验l通过检验样本平均数、标准差、方差、相关系数与相应

4、的总体参数或样本统计量之间是否存在差异，进而检验样本与总体或样本与样本之间是否存在显著差异，并得出结论和对结论进行推论。统计检验二项分布计算成功的概率（对比试验、三点试验）t检验检验两个处理平均数差异是否显著x2检验由质量形状得来的次数资料的显著性（喜欢、尚可、不喜欢）方差分析检验多个处理平均数间差异是否显著（单因子、双因子）常用统计数据的计算1、数值的计算（1）平均值：是对数据分布的中心中心趋势的估计，公式为：（2）样本标准差：是对平均值的波动幅度或覆盖范围的估计，公式为：（3）中值：在所有数据中排序处于中间位置的数值。（4）标准误差：SE=S/(n)1/2 S为样本的标准差2、

5、置信区间置信区间是某参数真实值的可能变化范围，可用来判断数值是否精确试验敏感参数l，也叫-风险，是统计学上的名词，他的定义是错误的估计两者之间的差别存在的可能性，也叫第类错误。l ，也叫-风险，他的定义是错误估计两者之间的差异不存在的可能性，也叫第类错误。lPd，是指能够分辨出差异的人数比例。在统计学上l值在10%5%（0.10.05），表明存在的差异程度是中等。l值在5%1%（0.050.01），表明存在的差异程度是显著。l值在1%0.1%（0.010.001），表明存在的差异程度是非常显著。l值低于0.1%（0.001），表明存在的差异程度是特别显著。l值的范围在表明差异

6、不存在的程度上，同值值有着同样样的规规定。lPd 值的范围意义如下：lPd 值25%表示比例比较小，即能够分辨出差异的人的比例比较小。l25%Pd 值35%表示能够分辨出差异的人的比例中等。lPd 值35%表示能够分辨出差异的人的比例较大。假设检验l统计假设检验也称为显著性检验，即指样本统计量和假设的总体参数之间的显著性差异。l假设检验时提出的假设称为原假设或无效假设，就是假定样本统计量与总体参数的差异都是由随机因素引起，不存在条件变动因素。假设检验的基本思路l首先，对总体参数值提出假设（原假设）；l然后，利用样本数据提供的信息来验证所提出的假设是否成立（统计推断）。l如果样本数据提

7、供的信息不能证明上述假设成立，则证明该假设为错误；l如果样本数据提供的信息不能证明上述假设不成立，则证明该假设成立。假设检验的基本步骤l提出原假设（或称“零假设”，H0）；l选择检验统计量；l根据样本数据计算检验统计量观测值的发生概率（相伴概率，p）；l根据给定的小概率事件界定标准（显著性水平，如0.05，0.01）做出统计推断。为什么要设计并计算检验统计量？ l在假设检验中，样本值（或更极端的取值）发生的概率不能直接通过样本数据计算，而是通过计算检验统计量观测值的发生概率而间接得到的。l所设计的检验统计量一般服从或近似服从某种已知的理论分布（如t-分布、F-分布、卡方分布），易

8、于估算其取值概率。l对于不同的假设检验和不同的总体，会有不同的选择检验统计量的理论和方法。计算检验统计量观测值的发生概率 l在假定原假设成立的前提下，利用样本数据计算检验统计量观测值发生的概率（即p值，又称“相伴概率”指该检验统计量在某个特定的极端区域在原假设成立时的概率）。该概率值间接地给出了在原假设成立的条件下样本值（或更极端值）发生的概率。进行统计推断 l依据预先确定的 “显著性水平” （即值），如0.01或0.05，决定是否拒绝原假设。l如果p值小于值，即认为原假设成立时检验统计量观测值的发生是小概率事件，则拒绝原假设。否则，就接受原假设。显著性水平l在假设检验中，显著性水平（Si

9、gnificant level，用表示）的确定是假设检验中至关重要的问题。l显著性水平是在原假设成立时检验统计量的制落在某个极端区域的概率值。因此，如果取= 0.05，如果计算出的p值小于，则可认为原假设是一个不可能发生的小概率事件。当然，如果真的发生了，则犯错误的可能性为5%。l显然，显著性水平反映了拒绝某一原假设时所犯错误的可能性，或者说，是指拒绝了事实上正确的原假设的概率。的取值l一般在进行假设检验前由研究者根据实际的需要确定。l常用的取值是0.05或0.01。对于前者，相当于在原假设事实上正确的情况下，研究者接受这一假设的可能性为95%；对于后者，则研究者接受事实上正确的

10、原假设的可能性为99%。l显然，降低值可以减少拒绝原假设的可能性。因此，在报告统计分析结果时，必须给出值。 l在进行假设检验时，各种统计软件均会给出检验统计量观测值以及原假设成立时该检验统计量取值的相伴概率（即检验统计量某特定取值及更极端可能值出现的概率，用p表示）。lp值是否小于事先确定的值，是接受或拒绝原假设的依据。l如果p值小于事先已确定的值，就意味着检验统计量取值的可能性很小，进而可推断原假设成立的可能性很小，因而可以拒绝原假设。相反，如果p值大于事先已确定的值，就不能拒绝原假设。 l当检验统计量服从标准正态分布的，可以直接查阅事先准备好的标准正态分布函数表，从中获得特定计算结果

11、的相伴概率。而对于服从t-分布、F-分布、卡方分布或其它特殊的理论分布的检验统计量（大多数的假设检验是这样），无法直接计算相伴概率，可以查阅各类假设检验的临界值表进行统计推断。这些表格以自由度和几个相伴概率（通常为0.1、0.05和0.01）为自变量，以检验统计量的临界值为函数排列。l在进行统计推断时，人们使用上述临界值表根据事先确定的显著性水平，查阅对应于某一自由度和特定相伴概率的检验统计量的临界值，然后将所计算出的检验统计量与该临界值相比较。如果检验统计量的计算值大于临界值，即实际的相伴概率小于事先规定的显著性水平，便可拒绝原假设。否则，可接受原假设。l在假设检验中，只有 “显著”和 “不

12、显著”，没有“ 极显著”这样的断语。只要计算出的检验统计量的相伴概率（p值）低于事先确定的值，就可以认为检验结果“显著”（相关分析的原假设是“相关系数为零”，故此处的“显著”实际意味着“相关系数不为零”，或说“2个随机变量间有显著的相关关系 ”）；同样，只要计算出的检验统计量的相伴概率（p值）高于事先确定的值，就可以认为检验结果“不显著”。置信度l置信度：也称为可靠度，或置信水平、置信系数，是指被考虑的量值在给定区间内的概率(选定的或规定的)。l置信区间：是指在某一置信水平下，样本统计值与总体参数值间误差范围。l置信区间越大，置信度越高。 l置信水平就是变量落在置信区间的可能

13、性，就是相信变量在设定的置信区间的程度，是个01的数，用1-表示。 l显著性水平就是变量落在置信区间以外的可能性，“显著”就是与设想的置信区间不一样，用表示。l显然，显著性水平与置信水平的和为1。显著性水平如果为,则置信度为1- l显著性水平为0.05时，=0.05，1-=0.95l如果置信区间为（-1，1），即代表变量x在（-1 ，1）之间的可能性为0.95。l显著性水平取0.05就是置信度为95%，取0.01置信度就是99%。具体选哪个就看得到的结果了，如有大部分都得P值都非常小，那就取0.01了，要是P值都很大，那就取0.05好了。一般情况下， 0.05就可以，当然0.01

14、就更精确了。l1-表示置信度，置信度表示原假设成立的概率，如果原假设成立的概率大，就接受原假设，而概率的大小标准就是显著性水平，在显著性水平为 5%的时候，认为95%为大概率事件，在显著性水平为1%时，则认为99%为大概率事件。l总之，置信度越高，显著性水平越低，代表假设的可靠性越高，越好。显著性水平选择容易产生严重后果实验条件不易控制或容易产生较大误差=0.05=0.0195%的置信区间99%的置信区间l显著性水平选择的实际应用品质管理消费者调查政策性的调查0.10.050.01实验设计的基本原则对照随机化重复均衡显示处理的效应针对大量、不可控制的非处理因素足够的样本量、足够的

15、功效处理组对照组处理因素非处理因素比较结果非处理因素处理组与对照组之间非处理因素均衡一致异常值l系统误差/随机误差/过失误差l样本异常值：明显偏离所在样本的观测值l异常值可能仅仅是数据中固有的随机误差的极端表现，也可能是过失误差。异常值的剔除将一组数据从小到大排列计算的平均值和标准偏差计算统计量T根据n和查表，判断品评员评员色泽泽外形表皮内部组织组织甜味松软软性滋润润度 12122322 21222223 31223222 42232322 52122212 61222221 72211222 82122232 93222322 102232221 111222212 12222312

16、2 132332232145222122 152221223 总计总计30283230313030 平均数2.01.872.132.02.072.02.0l对于色泽：l结果排列：2，1，1，.5，l计算平均值和标准差l计算最大值Ta和最小值Tb。l结论：查T值表，n=15，a=0.01，Tn ,a=2.71Ta=2.91，所以5为异常值。Tn,a=2.71Tb=0.97，所以1为非异常值。样品品评员交互作用样品编码样品间差异品评员间差异品评员筛选样品编码的随机化l心理效应顺序效应l生理效应感觉残留数字符号中性字字母品评员品评时的随机化（样品呈送时）l成对比较（AB、BA）l二三点法固定参照RAAB、RABA平衡参照RAAB、RABA、RBAB、RBBAl三点法（AAB、ABA、BAA、BBA、ABB）lA非A法（AA、BB、AB、BA）NO.2NO.3NO.1AB样品间差异比较时方法

展开阅读全文