2012年数学建模国赛一等奖葡萄酒的评价

资源描述

《2012年数学建模国赛一等奖葡萄酒的评价》由会员分享，可在线阅读，更多相关《2012年数学建模国赛一等奖葡萄酒的评价（41页珍藏版）》请在金锄头文库上搜索。

1、1 葡萄酒的评价葡萄酒的评价摘摘要要本文运用多种相关分析、综合评价和线性回归等方法解决了葡萄酒质量的评价问题。对于问题一，首先通过单样本 K-S 检验等方法确定了各葡萄酒样本评分数据的概率分布，从而确定了显著性差异模型的建立，接着考虑两组评分数据的配对关系约束，引入 Wilcoxon 符号秩检验法来进行显著性差异的假设检验。结果显示对于红、白葡萄酒，两个品酒组的评价结果均存在显著性差异。最后利用秩相关分析，引入肯德尔和谐系数法评定评酒组的评分信度，评价结果显示对于红葡萄酒，第一组品酒员的品尝得分更为可信，而对于白葡萄酒则是第二组品酒员在可信度方面占优。问题二，运用

2、主成分分析法进行指标遴选，构建酿酒葡萄质量的综合评价指标体系，并利用该指标体系建立基于综合评价的酿酒葡萄分级模型，对酿酒葡萄进行分级。结果发现样本葡萄大多集中在二、三级，红葡萄样本中样本 23 质量最优，为特级葡萄；样本 12 质量相对欠缺，属六级葡萄。问题三中，采用研究两组变量之间相关关系的多元统计方法典型相关分析，识别并量化两组变量酿酒葡萄与葡萄酒的理化指标之间的关系。分析结果如下：第一，增大酿酒葡萄果皮的含量对葡萄酒中 DPPH 半抑制体积含量的增加有重要影响；第二，酿酒葡萄中的苹果酸不仅能促发酵，还能给对红葡萄酒起主要呈色作用的花色苷和对花色苷起中等辅色作用的单宁物质

3、起保护作用，使得红葡萄酒呈色亮丽；第三，在葡萄总黄酮消除自由基的抗氧化作用和总酚保护清除自由基的共同作用下，酿酒葡萄中的 DPPH 自由基转化为葡萄酒中的 DPPH 半抑制体积。对于问题四，首先在问题三分析酿酒葡萄与葡萄酒的理化指标间联系的基础上，在保留葡萄酒指标的前提下，剔除酿酒葡萄指标中某些认为可以被用于表示对应葡萄酒指标的部分。接着，利用筛选后的指标建立多元线性回归模型，探究酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响。经检验样本组的线性回归模型评价值与评分值的显著性差异检验，用葡萄和葡萄酒的理化指标来评价葡萄酒的质量是可行的。本文综合秩相关分析评价、基于层次分析法的

4、综合评价、典型相关分析、多元线性回归等模型，结合 MATLAB、SPSS、SAS 和 EXCEL 等软件，对葡萄酒质量的评价问题进行了多角度的分析，并给出了利用理化指标评价葡萄酒质量的模型。在文章的最后对模型的适用范围做出了推广，在实际应用中有较大的参考价值。关键词：秩相关主成分分析层次分析综合评价典型相关分析多元线性回归 2 一、问题重述一、问题重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分，然后求和得到其总分，从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系，葡萄酒和酿酒葡萄检测的理化

5、指标会在一定程度上反映葡萄酒和葡萄的质量。附件 1 给出了某一年份一些葡萄酒的评价结果，附件 2 和附件 3 分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题： 1. 分析附件 1 中两组评酒员的评价结果有无显著性差异，哪一组结果更可信？ 2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。 3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。 4分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响，并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量？二、问题分析二、问题分析 2.1 问题一的分析问题一要求比较两组评价结果的是否存在差异，并

6、建立合理的评价模型以判断两组结果在可信程度方面的优劣。首先，我们从问题分析可以得出品酒员对葡萄酒样本的品尝评分是属于感官评价，具有较大的主观性。因此，我们先从问题所给的数据入手，分析四组品酒结果中对不同样本打分分布。依靠葡萄酒样本评分的概率分布，建立显著性差异模型。由于品酒员间存在评价尺度、评价位置和评价方向等方面的差异，不同组别的品酒员对同一酒样的评价结果存在着差异。此时不适用参数检验的方法，而只能用非参数统计方法来处理。对主观评分结果合理性的评价，仅仅局限于评分之间表面的数值关系是不够的。因此，考虑采取秩相关分析法建立评价模型，将评分结果的具体数值部分予以丢弃，只保留各评

7、分秩大小关系的信息，以给出数据中最稳固、最一般的关系，度量整体评分结果在可信度方面的优劣。 2.2 问题二的分析酿酒葡萄，是指以酿造葡萄酒为主要生产目的的葡萄品种1。问题二要求分析确定合理的评价指标体系，并运用该评价指标体系对酿酒葡萄进行分级。显而易见，该问题要求我们建立一个评价模型。评价体系主要包含两方面指标：第一个方面是葡萄酒的质量。这包括外观、香气、口感、整体四方面的评分。外观包括澄清度和色调，香气包括纯正度、浓度和质量，口感则通过纯正度、浓度、持久性和质量体现。第二个方面酿酒葡萄自身的理化指标。如附加二中的葡萄总黄酮、总酚、单宁、果皮质量等 27 个指标。对于这 2

8、7 个酿酒葡萄自身的理化指标，根据多个样本得到的数据分析出其内在的关系，将相关性显著的指标合并，则可以使得计算简单。那么由以上的分析可以构建综合评价指标体系，建立模型进行多指标综合评价.基于综合评价的结果，即可对酿酒葡萄进行分级。 2.3 问题三的分析问题三中，题目要求分析酿酒葡萄与葡萄酒的理化指标之间的联系。酿酒葡萄和葡萄酒分别存在多个理化指标，若采用简单相关分析的方法，只是孤立考虑了单个X与单个Y间的相关，而没有考虑X、Y变量组内部各变量间的相关。酿酒葡萄经发酵酿成葡 3 萄酒的化学过程，使得两组变量间有许多简单相关系数，使问题显得复杂，难以从整体描述。因此，考虑采用研究

9、两组变量之间相关关系的多元统计方法典型相关分析，识别并量化酿酒葡萄与葡萄酒的理化指标两组变量之间的关系，考虑两组变量的线性组合，并研究它们之间的相关系数,p u v。 2.4 问题四的分析问题四中，需要我们通过酿酒葡萄和葡萄酒的理化指标，得到对葡萄酒的质量的评价，并论证是否可行。因此，首先考虑在问题三的基础上，针对酿酒葡萄与葡萄酒理化指标之间的联系和它们与葡萄酒质量之间的相关性进行指标的筛选。随后，期望建立一个线性回归模型，通过该模型来得到对葡萄酒质量的评价。由于要论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量，初步认为在建立线性回归模型时对样本进行随机遴选，选中的样本作

10、为示例样本组建立线性回归方程，未选中的样本作为检验样本组对模型的可行性进行验证。三、三、模型假设模型假设 1. 假设各样本能真实客观地反映酿酒葡萄与葡萄酒的情况； 2. 葡萄酒的质量只与酿酒葡萄的好坏有关，忽略酿造过程中的温度、湿度、人为干扰等其他因素的影响； 3. 不考虑理化性质的二级指标； 4. 每组评酒员的打分不受上个酒样品的影响，即各评分数据间独立；四、符号说明四、符号说明序号符号符号说明 1. m 品酒员个数 2. n 样本数 3. j 样本序数 4. i 指标序数 5. ii r 第i个指标与第 i 个指标的相关系数 6. p 一级评价指标中的指标序数 7. q 二级

11、评价指标中的指标序数 8. y 酿酒葡萄质量综合评价值 9. B 每一酿酒葡萄样本所在级别 10. X 酿酒葡萄理化指标 11. Y 葡萄酒的理化指标 12. 线性回归系数 13. V 典型变量 14. W 解释变量 4 五、模型建立与求解五、模型建立与求解 5.1 问题一的模型建立与求解问题一要求分析两组评酒员的评价结果有无显著性差异，并判断两组结果在可信程度方面的优劣。我们认为由以下三个步骤组成：步骤一：葡萄酒样本评分概率分布的确定，其目的是确定显著性差异模型的类型；步骤二：两组评酒员评价结果的显著性差异模型的建立，主要通过 Wilcoxon 符号秩检验法进行显著性差异的假设检验

12、；步骤三：建立秩相关分析评价模型，并通过该模型判断两组品酒员评价结果在可信度方面的优劣。 5.1.1 数据的预处理经过对数据的查找，我们发现部分原始数据存在异常，另外有些类型数据存在缺失，在此我们将其正常化处理。（1）缺失数据的处理对于数据中存在的缺失现象，本文采用均值替换法对这种缺失数据进行处理。均值替换法就是将该项目剔除异常数据后取整剩余数据的平均值来替换异常或缺失数据的方法，即： 10 * 1, 1 1,2,10 9 mk kk m xxm 其中， * m x为缺失值。由于不同品酒师对同一样本相同项目的打分值差别不大，所以认为采用均值替换法来处理缺失数据是可行的。

13、以“酒样品 20”色调数据为例进行修补，得到修正后的数据如下表所示。表 1 红葡萄酒样品 20 色调数据修补品酒员 1 号 2 号 3 号 4 号 5 号 6 号 7 号 8 号 9 号 10 号修补前 6 6 4 - 6 6 8 6 6 8 修补后 6 6 4 6 6 6 8 6 6 8 注：表中“-”代表数据缺失（2）异常数据的修正原始数据中，有的数据明显比两侧的数据过大或过小，显然是不合理数据。例如，第一组白葡萄酒品尝评分的数据中，可能由于手工输入的误差，品酒员 7 对样品 3 持久性评分的数据相对于相邻各品酒员的评分发生了明显的突变现象。这种数据异常有可能对数据挖掘的

14、结果产生不利影响。表 2 第一组白葡萄酒品尝评分样本 3 持久性数值异常品酒员 1 号 2 号 3 号 4 号 5 号 6 号 7 号 8 号 9 号 10 号持久性 7 5 7 5 6 7 77 5 6 7 对于类似的异常数据采取“先剔除，后替换”的策略，对异常数据进行修正。 5.1.2 各葡萄酒样本评分数据概率分布的确定对两组品酒员差异性评价的假设检验一般要求数据符合正态分布。统计规律表明，正态分布有极其广泛的实际背景，生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述2。因此，对葡萄酒质量的评分进行正态性检验有助于我们分析得出该评分是否科学、合理。 5 首先

15、，计算针对每一个样本 10 个品酒员的评分均值，即 10 1 1,2,101,2,10 10 mn m x xmn 其次，利用 SPSS 统计软件中的 P-P 图和单样本 K-S 检验，对数据集两组品酒员分别对红、白葡萄酒品尝得到的四组评价结果（见附录 8.1.2）进行了正态分布检验，若样点在正态分布 P-P 图上呈直线散布，则被检验数据基本上成一条直线3。图 1 第一组红葡萄酒评价结果的正态 P-P 图和 K-S 检验结果从图 1 可以看出第一组（其余三组见附录 8.1-图 8.1）数据的散点分别近似为一条直线，且与对角线大致重叠；双边检验结果0.5250.05p 。因此可以认为品

16、酒员对葡萄酒的评分服从正态分布。 5.1.3 两组评价结果的显著性差异评价上述检验显示各类葡萄酒得分情况属于正态总体，为了进一步说明品酒员评分的科学性以及两个评分组评分的可信度，需要检查两组给出的评分是否有显著性差异，即对数据进行显著性检验。两配对样本非参数检验一般用于同一研究对象分别给予两种不同处理的效果比较 4。因为两组品酒员分别对同一样本组进行评分，故两组数据为配对数据。对于两组配对数据的检验，需要引入适用于 T 检验中的成对比较，但并不要求成对数据之差 i D服从正态分布，只要求对称分布即可5的 Wilcoxon 符号秩检验法，用来决定两个样本是否来自相同的或相等的总体。其检验步骤（以红葡萄为例）如下： Step1. 提出假设： 0 H：两组品酒员对酒样本的评价结果是相同的； 1 H：两组品酒员对酒样本的评价结果是不同的。 Step2. 选定显著性水平

展开阅读全文

2012年数学建模国赛一等奖 葡萄酒的评价

2012年数学建模国赛一等奖葡萄酒的评价