2012年数学建模国赛一等奖 葡萄酒的评价

上传人:简****9 文档编号:95445078 上传时间:2019-08-18 格式:PDF 页数:41 大小:1.38MB
返回 下载 相关 举报
2012年数学建模国赛一等奖 葡萄酒的评价_第1页
第1页 / 共41页
2012年数学建模国赛一等奖 葡萄酒的评价_第2页
第2页 / 共41页
2012年数学建模国赛一等奖 葡萄酒的评价_第3页
第3页 / 共41页
2012年数学建模国赛一等奖 葡萄酒的评价_第4页
第4页 / 共41页
2012年数学建模国赛一等奖 葡萄酒的评价_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《2012年数学建模国赛一等奖 葡萄酒的评价》由会员分享,可在线阅读,更多相关《2012年数学建模国赛一等奖 葡萄酒的评价(41页珍藏版)》请在金锄头文库上搜索。

1、1 葡萄酒的评价葡萄酒的评价 摘摘 要要 本文运用多种相关分析、 综合评价和线性回归等方法解决了葡萄酒质量的评价问题。 对于问题一, 首先通过单样本 K-S 检验等方法确定了各葡萄酒样本评分数据的概率 分布,从而确定了显著性差异模型的建立,接着考虑两组评分数据的配对关系约束,引 入 Wilcoxon 符号秩检验法来进行显著性差异的假设检验。 结果显示对于红、 白葡萄酒, 两个品酒组的评价结果均存在显著性差异。最后利用秩相关分析,引入肯德尔和谐系数 法评定评酒组的评分信度,评价结果显示对于红葡萄酒,第一组品酒员的品尝得分更为 可信,而对于白葡萄酒则是第二组品酒员在可信度方面占优。 问题二, 运用

2、主成分分析法进行指标遴选, 构建酿酒葡萄质量的综合评价指标体系, 并利用该指标体系建立基于综合评价的酿酒葡萄分级模型,对酿酒葡萄进行分级。结果 发现样本葡萄大多集中在二、三级,红葡萄样本中样本 23 质量最优,为特级葡萄;样 本 12 质量相对欠缺,属六级葡萄。 问题三中,采用研究两组变量之间相关关系的多元统计方法典型相关分析,识 别并量化两组变量酿酒葡萄与葡萄酒的理化指标之间的关系。分析结果如下: 第一,增大酿酒葡萄果皮的含量对葡萄酒中 DPPH 半抑制体积含量的增加有重要影响; 第二,酿酒葡萄中的苹果酸不仅能促发酵,还能给对红葡萄酒起主要呈色作用的花色苷 和对花色苷起中等辅色作用的单宁物质

3、起保护作用,使得红葡萄酒呈色亮丽;第三,在 葡萄总黄酮消除自由基的抗氧化作用和总酚保护清除自由基的共同作用下, 酿酒葡萄中 的 DPPH 自由基转化为葡萄酒中的 DPPH 半抑制体积。 对于问题四,首先在问题三分析酿酒葡萄与葡萄酒的理化指标间联系的基础上,在 保留葡萄酒指标的前提下, 剔除酿酒葡萄指标中某些认为可以被用于表示对应葡萄酒指 标的部分。接着,利用筛选后的指标建立多元线性回归模型,探究酿酒葡萄和葡萄酒的 理化指标对葡萄酒质量的影响。经检验样本组的线性回归模型评价值与评分值的显著性 差异检验,用葡萄和葡萄酒的理化指标来评价葡萄酒的质量是可行的。 本文综合秩相关分析评价、基于层次分析法的

4、综合评价、典型相关分析、多元线性 回归等模型,结合 MATLAB、SPSS、SAS 和 EXCEL 等软件,对葡萄酒质量的评价问 题进行了多角度的分析,并给出了利用理化指标评价葡萄酒质量的模型。在文章的最后 对模型的适用范围做出了推广,在实际应用中有较大的参考价值。 关键词:秩相关 主成分分析 层次分析综合评价 典型相关分析 多元线性回归 2 一、问题重述一、问题重述 确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。 每个评酒员在对 葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。 酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系, 葡萄酒和酿酒葡萄检测的理化

5、指标 会在一定程度上反映葡萄酒和葡萄的质量。附件 1 给出了某一年份一些葡萄酒的评价结 果,附件 2 和附件 3 分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建 立数学模型讨论下列问题: 1. 分析附件 1 中两组评酒员的评价结果有无显著性差异,哪一组结果更可信? 2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。 3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。 4分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和 葡萄酒的理化指标来评价葡萄酒的质量? 二、问题分析二、问题分析 2.1 问题一的分析 问题一要求比较两组评价结果的是否存在差异, 并

6、建立合理的评价模型以判断两组 结果在可信程度方面的优劣。首先,我们从问题分析可以得出品酒员对葡萄酒样本的品 尝评分是属于感官评价,具有较大的主观性。因此,我们先从问题所给的数据入手,分 析四组品酒结果中对不同样本打分分布。依靠葡萄酒样本评分的概率分布,建立显著性 差异模型。由于品酒员间存在评价尺度、评价位置和评价方向等方面的差异,不同组别 的品酒员对同一酒样的评价结果存在着差异。此时不适用参数检验的方法,而只能用非 参数统计方法来处理。 对主观评分结果合理性的评价,仅仅局限于评分之间表面的数值关系是不够的。因 此,考虑采取秩相关分析法建立评价模型,将评分结果的具体数值部分予以丢弃,只保 留各评

7、分秩大小关系的信息,以给出数据中最稳固、最一般的关系,度量整体评分结果 在可信度方面的优劣。 2.2 问题二的分析 酿酒葡萄,是指以酿造葡萄酒为主要生产目的的葡萄品种1。问题二要求分析确定 合理的评价指标体系,并运用该评价指标体系对酿酒葡萄进行分级。显而易见,该问题 要求我们建立一个评价模型。 评价体系主要包含两方面指标: 第一个方面是葡萄酒的质量。这包括外观、香气、口感、整体四方面的评分。外观 包括澄清度和色调,香气包括纯正度、浓度和质量,口感则通过纯正度、浓度、持久性 和质量体现。 第二个方面酿酒葡萄自身的理化指标。如附加二中的葡萄总黄酮、总酚、单宁、果 皮质量等 27 个指标。对于这 2

8、7 个酿酒葡萄自身的理化指标,根据多个样本得到的数据 分析出其内在的关系,将相关性显著的指标合并,则可以使得计算简单。 那么由以上的分析可以构建综合评价指标体系,建立模型进行多指标综合评价.基 于综合评价的结果,即可对酿酒葡萄进行分级。 2.3 问题三的分析 问题三中,题目要求分析酿酒葡萄与葡萄酒的理化指标之间的联系。酿酒葡萄和葡 萄酒分别存在多个理化指标, 若采用简单相关分析的方法, 只是孤立考虑了单个X与单 个Y间的相关,而没有考虑X、Y变量组内部各变量间的相关。酿酒葡萄经发酵酿成葡 3 萄酒的化学过程,使得两组变量间有许多简单相关系数,使问题显得复杂,难以从整体 描述。因此,考虑采用研究

9、两组变量之间相关关系的多元统计方法典型相关分析, 识别并量化酿酒葡萄与葡萄酒的理化指标两组变量之间的关系,考虑两组变量的线性组 合,并研究它们之间的相关系数,p u v。 2.4 问题四的分析 问题四中,需要我们通过酿酒葡萄和葡萄酒的理化指标,得到对葡萄酒的质量的评 价,并论证是否可行。因此,首先考虑在问题三的基础上,针对酿酒葡萄与葡萄酒理化 指标之间的联系和它们与葡萄酒质量之间的相关性进行指标的筛选。随后,期望建立一 个线性回归模型,通过该模型来得到对葡萄酒质量的评价。 由于要论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量, 初步认为在建立 线性回归模型时对样本进行随机遴选,选中的样本作

10、为示例样本组建立线性回归方程, 未选中的样本作为检验样本组对模型的可行性进行验证。 三、三、模型假设模型假设 1. 假设各样本能真实客观地反映酿酒葡萄与葡萄酒的情况; 2. 葡萄酒的质量只与酿酒葡萄的好坏有关,忽略酿造过程中的温度、湿度、人为干扰 等其他因素的影响; 3. 不考虑理化性质的二级指标; 4. 每组评酒员的打分不受上个酒样品的影响,即各评分数据间独立; 四、符号说明四、符号说明 序号 符号 符号说明 1. m 品酒员个数 2. n 样本数 3. j 样本序数 4. i 指标序数 5. ii r 第i个指标与第 i 个指标的相关系数 6. p 一级评价指标中的指标序数 7. q 二级

11、评价指标中的指标序数 8. y 酿酒葡萄质量综合评价值 9. B 每一酿酒葡萄样本所在级别 10. X 酿酒葡萄理化指标 11. Y 葡萄酒的理化指标 12. 线性回归系数 13. V 典型变量 14. W 解释变量 4 五、模型建立与求解五、模型建立与求解 5.1 问题一的模型建立与求解 问题一要求分析两组评酒员的评价结果有无显著性差异,并判断两组结果在可信程 度方面的优劣。我们认为由以下三个步骤组成: 步骤一:葡萄酒样本评分概率分布的确定,其目的是确定显著性差异模型的类型; 步骤二:两组评酒员评价结果的显著性差异模型的建立,主要通过 Wilcoxon 符号 秩检验法进行显著性差异的假设检验

12、; 步骤三:建立秩相关分析评价模型,并通过该模型判断两组品酒员评价结果在可信 度方面的优劣。 5.1.1 数据的预处理 经过对数据的查找, 我们发现部分原始数据存在异常, 另外有些类型数据存在缺失, 在此我们将其正常化处理。 (1)缺失数据的处理 对于数据中存在的缺失现象,本文采用均值替换法对这种缺失数据进行处理。 均值替换法就是将该项目剔除异常数据后取整剩余数据的平均值来替换异常或缺 失数据的方法,即: 10 * 1, 1 1,2,10 9 mk kk m xxm 其中, * m x为缺失值。 由于不同品酒师对同一样本相同项目的打分值差别不大,所以认为采用均值替换法 来处理缺失数据是可行的。

13、以“酒样品 20”色调数据为例进行修补,得到修正后的数据 如下表所示。 表 1 红葡萄酒样品 20 色调数据修补 品酒员 1 号 2 号 3 号 4 号 5 号 6 号 7 号 8 号 9 号 10 号 修补前 6 6 4 - 6 6 8 6 6 8 修补后 6 6 4 6 6 6 8 6 6 8 注:表中“-”代表数据缺失 (2)异常数据的修正 原始数据中,有的数据明显比两侧的数据过大或过小,显然是不合理数据。 例如,第一组白葡萄酒品尝评分的数据中,可能由于手工输入的误差,品酒员 7 对 样品 3 持久性评分的数据相对于相邻各品酒员的评分发生了明显的突变现象。这种数据 异常有可能对数据挖掘的

14、结果产生不利影响。 表 2 第一组白葡萄酒品尝评分样本 3 持久性数值异常 品酒员 1 号 2 号 3 号 4 号 5 号 6 号 7 号 8 号 9 号 10 号 持久性 7 5 7 5 6 7 77 5 6 7 对于类似的异常数据采取“先剔除,后替换”的策略,对异常数据进行修正。 5.1.2 各葡萄酒样本评分数据概率分布的确定 对两组品酒员差异性评价的假设检验一般要求数据符合正态分布。统计规律表明, 正态分布有极其广泛的实际背景,生产与科学实验中很多随机变量的概率分布都可以近 似地用正态分布来描述2。因此,对葡萄酒质量的评分进行正态性检验有助于我们分析 得出该评分是否科学、合理。 5 首先

15、,计算针对每一个样本 10 个品酒员的评分均值,即 10 1 1,2,101,2,10 10 mn m x xmn 其次,利用 SPSS 统计软件中的 P-P 图和单样本 K-S 检验,对数据集两组品酒员分 别对红、白葡萄酒品尝得到的四组评价结果(见附录 8.1.2)进行了正态分布检验,若样 点在正态分布 P-P 图上呈直线散布,则被检验数据基本上成一条直线3。 图 1 第一组红葡萄酒评价结果的正态 P-P 图和 K-S 检验结果 从图 1 可以看出第一组(其余三组见附录 8.1-图 8.1)数据的散点分别近似为一条 直线,且与对角线大致重叠;双边检验结果0.5250.05p 。因此可以认为品

16、酒员对葡 萄酒的评分服从正态分布。 5.1.3 两组评价结果的显著性差异评价 上述检验显示各类葡萄酒得分情况属于正态总体,为了进一步说明品酒员评分的科 学性以及两个评分组评分的可信度,需要检查两组给出的评分是否有显著性差异,即对 数据进行显著性检验。 两配对样本非参数检验一般用于同一研究对象分别给予两种不同处理的效果比较 4。因为两组品酒员分别对同一样本组进行评分,故两组数据为配对数据。对于两组配 对数据的检验,需要引入适用于 T 检验中的成对比较,但并不要求成对数据之差 i D服 从正态分布,只要求对称分布即可5的 Wilcoxon 符号秩检验法,用来决定两个样本是 否来自相同的或相等的总体。其检验步骤(以红葡萄为例)如下: Step1. 提出假设: 0 H:两组品酒员对酒样本的评价结果是相同的; 1 H:两组品酒员对酒样本的评价结果是不同的。 Step2. 选定显著性水平

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号