2012年数学建模A题优秀论文.doc

资源描述

《2012年数学建模A题优秀论文.doc》由会员分享，可在线阅读，更多相关《2012年数学建模A题优秀论文.doc（41页珍藏版）》请在金锄头文库上搜索。

1、基于数理分析的葡萄评价体系摘要葡萄酒质量的好坏主要依赖于评酒员的感观评价，由于人为主观因素的影响，对于酒质量的评价总会存在随机差异，为此找到一种简单有效的客观方法来评酒，就显得尤为重要了。本文通过研究酿酒葡萄的好坏与所酿葡萄酒的质量的关系，以及葡萄酒和酿酒葡萄检测的理化指标的关系，以及葡萄酒理化指标与葡萄酒质量的关系，旨在通过客观数据建立数学模型，用客观有效的方法来评价葡萄酒质量。对于问题一，我们首先用配对样品t 检验方法研究两组评酒员评价差异的显著性，将红葡萄酒与白葡萄酒进行分类处理，用SPSS 软件对两组评酒员的评分的各个指标以及总评分进行了配对样本t 检验。得到的部分结果显示：红葡萄酒外

2、观色调、香气质量的评价存在显著性差异，其他单指标的评价不存在显著差异，白葡萄、红葡萄以及整体的评价存在显著性差异。接着我们建立了数据可信度评价模型比较两组数据的可信性，将数据的可信度评价转化成对两组评酒员评分的稳定性评价。首先我们对单个评酒员评分与该组所有评酒员评分的均值的偏差进行了分析，偏差不稳定的点就成为噪声点，表明此次评分不稳定。然后我们用两组评酒员评分的偏差的方差衡量评酒员的稳定性。得到第2 组的方差明显小于第1 组的，从而得出了第2 组评价数据的可信度更高的结论。对于问题二，我们根据酿酒葡萄的理化指标和葡萄酒质量对葡萄进行了分级。一方面，我们对酿酒葡萄的一级理化指标的数据进行标

3、准化，基于主成分分析法对其进行了因子分析，并且得到了27 种葡萄理化指标的综合得分及其排序。另一方面，我们又对附录给出的各单指标百分制评分的权重进行评价，并用信息熵法重新确定了权重，用新的权重计算出27 种葡萄酒质量的综合得分并排序。最后我们对两个排名次序用基于模糊数学评价方法将葡萄的等级划分为1-5 级。对于问题三，首先我们将众多的葡萄理化指标用主成分分析法综合成6 个主因子，并将葡萄等级也列为主因子之一。对葡萄的6 个主因子，以及葡萄酒的10 个指标用SPSS 软件进行偏相关分析，得到酒黄酮与葡萄的等级正相关性较强等结论。之后对相关性较强的主因子和指标作多元线性回归。得到了葡萄酒10 个

4、单指标与主因子之间的多元回归方程，该回归方程定量表示两者之间的联系。对于问题四，我们首先将葡萄酒的理化指标标准化处理，对葡萄酒的质量与葡萄的6 个主因子和葡萄酒的10 个单指标作偏相关分析，并求出多元线性回归方程。该方程就表示了葡萄和葡萄酒理化指标对葡萄酒质量的影响。之后，我们通过通径分析方法中的逐步回归分析得到葡萄与葡萄酒的理化指标只确定了葡萄酒质量信息的47%。从而得出了不能用葡萄和葡萄酒的理化指标评价葡萄酒的质量的结论。接着我们还采用通径分析中的间接通径系数分析求出各自变量之间通过传递作用对应变量的影响，得到单宁与总酚传递性影响较强等结论。最后，我们对模型的改进方向以及优缺点进行了讨

5、论。关键词：配对样本t检验主成分分析模糊数学评价多元线性回归1问题重述葡萄酒的感官质量是评价葡萄酒质量优劣的重要标志。确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分，然后求其总分，从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系，葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量，可辅助感官检查。附件中给出了某一年份一些葡萄酒的评价结果，并分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据，我们需要建立数学问题解决以下问题：1. 分析附件1中两组评酒员的评价结果有无显著性差异，哪一组结果更可信？2

6、. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。4分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响，并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量？2问题分析1.1. 问题的重要性分析（社会背景）众所周知，葡萄酒质量的好坏，主要靠感官品尝和理化指标分析的方法来确定。目前我国规定，对葡萄酒的感官品尝主要从色泽，香气，口味，风格四个方面进行品评，而品评往往受到评酒人员的嗜好，习惯，情绪，年龄，经验等因素的影响，评定常有一定程度的主观性和不确定性，这使评分的可靠性受到影响。如何解决以上一系列问题变得非常重要。 1.2. 有关方

7、面在这个问题上做过的研究现有文献中大部分都从葡萄酒和酿酒葡萄的物理化学属性方面进行研究，一般只得到定性结果，很少见到定量具体分析，不利于葡萄酒质量的控制与提高。本文基于对所给三个附件数据的处理和分析，针对各具体问题提出了若干数学模型得到了较为满意的解答。3问题假设1. 假设各样本能真实客观地反映酿酒葡萄与葡萄酒的情况； 2. 葡萄酒的质量只与酿酒葡萄的好坏有关，忽略酿造过程中的温度、湿度、人为干扰等其他因素的影响； 3. 不考虑理化性质的二级指标； 4. 每组评酒员的打分不受上个酒样品的影响，即各评分数据间独立；5.假设20 名评酒员的评价尺度在同一区间,个人偏好影响可以忽略。4模型符号解释红

8、葡萄的样品号 i=1、227白葡萄的样品号 i=1、228评酒员对红葡萄指标的各种评分 i=1、2 j=0、19评酒员对白葡萄指标的各种评分 i=1、2 j=0、19，红，白酿酒葡萄的各种理化指标 i=0、1，红，白葡萄酒的各种理化指标 i=0、1评酒员评出的红葡萄样品的总分 i=1、2 j=0、127评酒员评出的白葡萄样品的总分 i=1、2 j=0、128评酒员对10个样品的评分的总分每组中两样本各对数据之差5模型的建立与分析5.1数据的预处理经过对数据的查找，我们发现部分原始数据存在异常，另外有些类型数据存在缺失，在此我们将其正常化处理。缺失数据的处理对于数据中存在的缺失现象，本文

9、采用均值替换法对这种缺失数据进行处理。均值替换法就是将该项目剔除异常数据后取整剩余数据的平均值来替换异常或缺失数据的方法，即：其中，为缺失值。由于不同品酒师对同一样本相同项目的打分值差别不大，所以认为采用均值替换法来处理缺失数据是可行的。以“酒样品20”色调数据为例进行修补，得到修正后的数据如下表所示。由于不同品酒师对同一样本相同项目的打分值差别不大，所以认为采用均值替换法来处理缺失数据是可行的。以“酒样品20”色调数据为例进行修补，得到修正后的数据如下表所示。 5.2.1葡萄酒配对样品的t 检验问题一中配对样品为27 组两个完全相同的酒样品在两组不同评酒员的检测下得到的两组数据，

10、其中两组中各个指标的数据为各组10 个评酒员对该指标打分的平均值。该问题中的10 个指标分别为：外观澄清度、外观色调、香气纯正度、香气浓度、香气质量、口感纯正度、口感浓度、口感持久性、口感质量、平衡/总体评价。根据t 检验的原理，对葡萄酒配对样品进行t 检验之前我们要对样品进行正态性检验。首先我们根据附件一并处理表格中的数据，得到配对样品的两组数据，绘制红葡萄酒配对样品表格部分数据如表1：白葡萄酒配对样品表格部分数据如表2：从上表中我们能看出，将白葡萄酒和红葡萄酒中的每个指标分别进行样品的配对后，每一个指标的配对结果有27 对，每一对的双方分别是1 组和2 组的评酒员对该指标的评分的平

11、均值。 5.2.2样本总体的K-S 正态性检验配对样品的t 检验要求两对应样品的总体满足正态分布，则总体中的样品应该满足正态性或者近似正态性，样本的正态性检验如下：以红葡萄酒的澄清度的27 组数据为例分析:利用SPSS 软件绘制两样品的直方图和趋势图如图1 所示：我们假设两组总体数据都服从正态分布，利用SPSS 软件进行K-S 正态性检验的具体结果见附录2.3。两组数据的近似相伴概率值P 分别为0.239 和0.329，大于我们一般的显著水平0.05 则接受原来假设，即两组红葡萄酒的澄清度数据符合近似正态分布。同理可用SPSS 软件对其他指标的正态性进行检验，得到结果符合实际猜想都服

12、从近似正态分布。 5.2.3 葡萄酒配对样品t 检验步骤两种葡萄酒的处理过程类似，这里我们以对红葡萄酒评价结果的差异的显著性分析为例。 5.2.4红葡萄酒各指标差异显著性分析由SPSS 软件对红葡萄酒各指标的配对样品t 检验后，得到各指标的显著性概率分布表。（结果如表3 所示）由统计学知识,如果显著性概率P显著水平a ,则不能拒绝零假设，即认为两总体样本的均值不存在显著差异。则根据表3 可得：两组评酒员对红葡萄酒各项指标的评价中除外观色调、香气质量存在显著性差异以外，其他8 项指标都无显著性差异。5.2.5白葡萄酒各指标差异显著性分析代入白葡萄酒的评价数据，重复以上步骤，得到白葡萄酒各指

13、标的显著性概率P 分布表。（结果如表4 所示）5.2.6葡萄酒总体差异显著性分析（1）红葡萄酒总体差异显著性分析该问题的附件中已经给出了10 项指标的权重，因此将10 项指标利用加权合并成总体评价。对于红葡萄酒两组评价结果构造两组配对t 检验。得到显著性概率P=0.030。即红葡萄酒整体评价结果有显著性差异。（2）白葡萄酒总体差异显著性分析同理对于白葡萄酒两组评价结果构造两组配对t 检验。得到显著性概率P=0.02。即白葡萄酒整体评价结果有显著性差异。（3）葡萄酒总体差异显著性分析对于白葡萄酒和红葡萄酒总体评价结果配对t 检验。得到显著性概率P=0.002。即两组对整葡萄酒的评价有

14、显著性差异。 5.2.7 数据可信度评价指标建立由于整体评价数据无显著性差异，我们可以认为20 名评酒员的水平在一个区间内。因此评酒员的评价结果的稳定性将决定该评酒员评价的数据的可信度。若某一评酒员的评价数据不稳定，则其所评数据可信度较低，其所在组别的数据评价可信度也将相应降低。因此，我们将数据的可信度比较转化为两组评酒员评论水平的稳定性比较。查阅相关资料获知，评酒员的评价尺度是有一定的系统误差的。如不同评酒员对色调的敏感度或许是不同的，如果某一评酒员评价的色调稍高于标准色调，但他每次评价的色调都稍高，而且一直很稳定。虽然与均值间始终存在误差，由于其稳定性，这样的评酒员的评价数据仍然是

15、可信的。所以，我们建立的数据可信度评价指标为评酒员评价的稳定性。评酒员的评价数据越稳定，数据越可信。 5.2.8数据可信度评价模型的建立与求解通过对数据的初步观察处理，发现每位评酒员的系统偏差都较小，20 位评酒员的评价尺度近似处在同一区间，因此我们不对附件中的数据进行标准化处理，认为附件中的数据的系统偏差可以忽略。 (1）首先作出观察评酒员稳定性的偏差图，其中偏差为评酒员对同一个单指标的评分值与该组评论员评分的平均值之差。下面利用matlab 软件作出第2 组中1 号和2 号评酒员对27 种红葡萄酒的澄清度评分与组内平均值的偏差如下图2 第2 组中1（左）、2 号评酒员对澄清度评分与组内平均值偏差图分析上图可以看出，1 号评酒员在对27 种酒的澄清度评分时，出现了3 个噪声点，（即偏离自己的平均水平较大的点）。2 号评酒员在评分的时候只出现了91 个噪声点。因而可以初步判定2 号评酒员的稳定性比1 号评酒员的稳定性好。（2）各指标偏差的方差计算基于以上分析：要评价一个评酒员评价的稳定性，我们可以观察该评论

展开阅读全文