数学建模:葡萄酒的评价by王自伟何庆明张兴强

上传人:油条 文档编号:5900987 上传时间:2017-09-08 格式:DOC 页数:24 大小:842.50KB
返回 下载 相关 举报
数学建模:葡萄酒的评价by王自伟何庆明张兴强_第1页
第1页 / 共24页
数学建模:葡萄酒的评价by王自伟何庆明张兴强_第2页
第2页 / 共24页
数学建模:葡萄酒的评价by王自伟何庆明张兴强_第3页
第3页 / 共24页
数学建模:葡萄酒的评价by王自伟何庆明张兴强_第4页
第4页 / 共24页
数学建模:葡萄酒的评价by王自伟何庆明张兴强_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《数学建模:葡萄酒的评价by王自伟何庆明张兴强》由会员分享,可在线阅读,更多相关《数学建模:葡萄酒的评价by王自伟何庆明张兴强(24页珍藏版)》请在金锄头文库上搜索。

1、1葡萄酒的评价摘 要葡萄酒质量的评定一般是由有资质评酒员在对葡萄酒进行品尝后分类指标打分,然后求和得到其总分而确定,酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。对于问题一,用单因素方差分析。先对数据进行处理,求出各项均值,检验是否服从正态分布,建立方差分析模型。调用 Matlab 中的 anova1 函数进行差异检验。用方差分析的方法判断两组评分员的评分不存在显著差异。通过盒式图分析得出第二组评分员的评分更为合理。对于问题二,本文首先将附件 2-指标总表的理化指标进行预处理和标准化处理,采用主成分分析的方法对酿酒葡萄的理化指

2、标进行降维,运用 SPSS 软件运算出相关系数矩阵,初始特征值、主成分的贡献率和累计贡献率、主成分荷载,得到许多变量之间直接的相关性比较强;由成份矩阵计算出特征向量,将特征化向量与标准化数据相乘即得出每个样本的得分。然后采用聚类分析方法对附件 3 酿酒葡萄的芳香物质进行归类处理,先将数据进行标准化处理,辅助 SPSS 软件进行聚类分析并且画出聚类分析的分类结果谱系图。分别将红、白葡萄的芳香物质、酿酒葡萄的理化指标和葡萄酒的质量(用得分表示)做出一个表格,运用快速聚类法和 SPSS 软件将酿酒葡萄分为四个等级。对于问题三,从附件表格中找出酿酒葡萄和葡萄酒理化指标中相同的成分,利用主成分分析法找出

3、所占权重占绝对优势的部分成分,并对这些成分进行相关分析,从而找出酿酒葡萄与葡萄酒的理化指标之间的联系。对于问题四,分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量,建立酿酒葡萄、葡萄酒的理化指标和葡萄质量的回归方程,应用 SPSS 软件以及 MATLAB 处理回归分析前的数据,其模型汇总结果。关键词: MATLAB 单因素方差分析 主成分分析 聚类分析 典型相关分析 回归分析2一、问题重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡

4、萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件 1 给出了某一年份一些葡萄酒的评价结果,附件 2 和附件 3 分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题:1. 分析附件 1 中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。4分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?二、问题分析对于问题一,要分析附件 1 中两组

5、评酒员的评价结果有无显著性差异,我们分别计算每一组评酒员对一种葡萄酒样品打分的平均值。将这些值作为影响因素,建立单因素方差分析模型,通过 MATLAB 算法判断两组品酒员是否存在显著性差异。对于问题二,要根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。首先用主成分分析的方法来处理附件2的数据,用主成分分析法处理附表2中酿酒葡萄理化指标的数据;确定出附件2给出的各个一级指标的主成分,在贡献率达到统计要求的情况下进行必要的因子剔除以后,保留产生主导因素的因子,把原来较多的评价指标用较少的几个综合指标来代替,综合指标既保留了原有指标的绝大多数信息,又把复杂的问题简单化。再用聚类分析的方法

6、将酿酒葡萄的理化指标,酒样品的打分,芳香物质的指标这三项数据对酿酒葡萄进行整体的分级。对于问题三,该题要分析酿酒葡萄与葡萄酒的理化指标之间的联系。我们从附3件 2 和附件 3 中找到酿酒葡萄与葡萄酒理化指标中的相同物质,对这些相同的物质做相关分析。通过 SPSS 软件来分析这些理化指标之间的联系。对于问题四,要分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。我们建立酿酒葡萄、葡萄酒的理化指标和葡萄质量的回归方程,运用 SPSS 软件处理回归分析前的数据,根据该模型汇总结果。三、模型假设(1)假设一级指标包括二级指标,部分二级指标可以按一定

7、标准进行取舍。 (2)假设各处理条件下的葡萄和葡萄酒样本是相互独立的 (3)评酒员对葡萄酒样品的评分是客观的,不含任何自己的主观意见。 (4)假设酿酒葡萄中存在的而葡萄酒中不存在的理化指标也会影响葡萄酒的质量; (5)回归方程中的服从正态性、无偏性、同方差性、独立性四个假设。 四、符号说明符号 含义A单因素方差试验的因素ijx单因素试验观测数据0H检验假设F检验统计量AS 组间差平方和e 组内差平方和显著性水平4E方差分析表中的误差la主成分分析的系数向量R样本相关矩阵iu标准正交化特征向量i样本相关矩阵的特征值标准差随机误差V样本协方差矩阵kQBartlett 检验统计量五、模型的建立和求解

8、5.1 附件中数据的处理对于附件 1 的数据,我们首先计算出两组评酒员对各个葡萄酒的评审均分。再运用单因素方差分析的方法来判断两组评酒员的评分有无差异。对于附件 2,我们主要取一级指标来作为我们的分析数据,由于一些数据测试多次。我们将测试多次的项目取平均值,来代替这一组数据。对于附件 3,由于一些数据存在缺失现象,我们用热卡填充法对这些数据进行插补。即在附件中找一个与缺失数据最相似的对象,然后用这个对象的值来代替该数据。5.2 问题一模型的建立和求解5.2.1 单因素方差分析仅考虑一个因素 对试验指标有无显著影响,可以让 取 个水平:AAr5,在水平 下进行 次试验,称为单因素试验,试验结果观

9、测数据 列rA,21 iin ijx于下表:序号水平1 2 in1A2r 1x121nx 2 2 1rx2r rnx并设在水平 下的数据 来自总体 , 。iAinix,21 ),(2iiNX),1(i检验如下假设:, 不全相等rH210: rH,:21检验统计量为: ),1()/(rnFrnSFeA其中 ,称为组间差平方和。2121)(xxSiririnjiAi ,称为组内差平方和。21)(irinjijei这里 , , 。ri1injiix1rinjix1对于给定的显著性水平 ,如果 ,则拒绝 ,)05.(或),1(rnF0H即认为因素 对试验指标有显著影响。A实际计算时,可事先对原始数据作

10、如下处理: baxijij再进行计算,不会影响 值的大小。F为了计算方便,通常采用下面的简便计算方式。记, ),21(1rixTinji rinjixT1则有6, nTSriiA21riirinjeTxSi1212结果列于下面的方差分析表。方差来源 平方和 自由度 均方 F 值因素 A AS1r)1/(rSA)/(1rnSeA误差 E en/ne总和 +AS15.2.2 模型一的建立和求解将附件 1 中处理后的数据(如表 1)分成红酒和白酒两组分别进行单因素方差分析,利用 MATLAB 编程,得出两个方差分析表如下:图 5.2.1 两组品酒员对红葡萄酒的评分方差分析表 由于 p 值=0.185

11、5 大于 0.05,同意假设,认为两组品酒人员对红葡萄酒的评价有显著影响,即不存在显著差异。 图 5.2.2 两组品酒员对白葡萄酒的评分方差分析表 由于 p 值=0.0536 大于 0.05,拒绝零假设,认为两组品酒人员对红葡萄酒的评价不存在显著差异。对于结果的可信度分析采用 boxplot 来比较。盒式图或叫盒须图、箱形图又称为 boxplot,其绘制须使用常用的统计量,最适宜提供有关数据的位置和分散7的参考,尤其在不同的母体数据时更可表现其差异。如图 2 所示,标示了图中每条线表示的含义,其中应用到了分位值。图 5.2.3 boxplot 示意图运用 matlab 分别对两组品酒员红葡萄酒

12、的评分做出 boxplot。图 5.2.4 红葡萄酒的评分 boxplo 图 5.2.5 白葡萄酒的评分 boxplot从该 boxplot 中可以得到如下信息:第一组品酒员对红葡萄酒的评分约为 74 分,第二组品酒员对红葡萄酒的评分约为 72 分,低于第一组;第一组品酒员对红葡萄酒评分的分布(箱体的高度)较为分散,第二组品酒员对红葡萄酒评分的分布比较紧密; 最大值与最小值均出现在第一组品酒员的评分中。第一组品酒员对白葡萄酒的评分约为 73 分,第二组品酒员对白葡萄酒的评分约为 77 分,高于第一组; 第一组品酒员对白葡萄酒评分的分布(箱体的高度)较为分散,第二组品酒员对白葡萄酒评分的分布比较

13、紧密;最大值与最小值均出现在第一组品酒员的评分中。8由两图分析可知,第二组品酒员的评分分布较为集中,因而第二组结果更可信。5.3 问题二模型的建立和求解5.3.1 主成分分析主成分分析的基本思想是通过构造原变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少数几个新变量并使它们尽可能多地包含原变量的信息(降维),从而使得用这几个新变量替代原变量分析问题成为可能。即在尽可能少丢失信息的前提下从所研究的 个变量中求出几个新变量,它们能综合原有变量的m信息,相互之间又尽可能不含重复信息,用这几个新变量进行统计分析(例如回归分析、判别分析、聚类分析等等)仍能达到我们的目的。设有 个样品, 个

14、变量(指标)的数据矩阵n(1)12122()12mnmnnnmxxX 寻找 个新变量 ,使得k12,()ky1、 1,)llllmyaxaxk 2、 彼此不相关2,k这便是主成分分析。主成分的系数向量 的分量 刻划出第12(,)lllmaa lj个变量关于第 个主成分的重要性。jl可以证明,若 为 维随机向量,它的样本相关矩阵 的 个特12(,)Tmxx Rm征值为 ,相应的标准正交化的特征向量为 ,则120m 12,u的第 主成分为 。(,)Txx i(1,2)Tiiyuxm称 为主成分 的贡献率, 为主成分1/mij(,)Tii 1/kmjj9的累计贡献率,它表达了前 个主成分中包含原变量

15、 的信息量12,ky k12,mx大小,通常取 使累计贡献率在 85%以上即可。当然这不是一个绝对不变的标准,可以根据实际效果作取舍,例如当后面几个主成分的贡献率较接近时,只选取其中一个就不公平了,若都选入又达不到简化变量的目的,那时常常将它们一同割舍。计算步骤如下:1、由已知的原始数据矩阵 计算样本均值向量 ;nmX 12(,)Tmxx其中 1(,2)niijx2、把原始数据标准化,即 , 这里 ijjijx jjsn1其中 1()(,12,)nijliljjlsxxim3、记 ,形成样本相关矩阵 ;nmijX TRX4、求 的特征根 及相应的标准正交化的特征向量 ,可R120m 12,mu得主成分为 。(,)Tiiyux5.3.2 模糊聚类分析模糊聚类分析是将一个无类别标记的样本集按某种准则划分成若干个子集(类),使相似样本尽可能归为一类,而不相似样本尽量划分到不同的类中,表达了样本类属的中介性,是一种软化手段。首先建立相似矩阵。假设有 种葡萄样品,从 N 项性状特征指标来评价 M 种葡萄1,27,8iM之间的相似问题。设 是 M 种样品的集合,每个样品的特征数据表12xx示为 ,可以由计算各样品间的相似系数、相关系数、距离12,ix 或其他表征相似程度

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号