基于主成分回归分析的葡萄酒质量评价.

上传人:我** 文档编号:115313065 上传时间:2019-11-13 格式:DOC 页数:21 大小:1.47MB
返回 下载 相关 举报
基于主成分回归分析的葡萄酒质量评价._第1页
第1页 / 共21页
基于主成分回归分析的葡萄酒质量评价._第2页
第2页 / 共21页
基于主成分回归分析的葡萄酒质量评价._第3页
第3页 / 共21页
基于主成分回归分析的葡萄酒质量评价._第4页
第4页 / 共21页
基于主成分回归分析的葡萄酒质量评价._第5页
第5页 / 共21页
点击查看更多>>
资源描述

《基于主成分回归分析的葡萄酒质量评价.》由会员分享,可在线阅读,更多相关《基于主成分回归分析的葡萄酒质量评价.(21页珍藏版)》请在金锄头文库上搜索。

1、2012高教社杯全国大学生数学建模竞赛承 诺 书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,

2、在书籍、期刊和其他媒体进行正式或非正式发表等)。我们参赛选择的题号是(从A/B/C/D中选择一项填写): 我们的参赛报名号为(如果赛区设置报名号的话): 所属学校(请填写完整的全名): 参赛队员 (打印并签名) :1. 2. 3. 指导教师或指导教师组负责人 (打印并签名): 日期: 2012 年 9 月 10 日赛区评阅编号(由赛区组委会评阅前进行编号):2012高教社杯全国大学生数学建模竞赛编 号 专 用 页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):基

3、于主成分回归分析的葡萄酒质量评价摘要葡萄酒是由新鲜葡萄经酒精发酵而得到的一种成分复杂的酒精饮料。葡萄酒质量是外观、香气、口感的综合表现。不同品种的葡萄酒成分不同。一方面,葡萄酒中的氨基酸类、糖类、酸类、酚类化合物,都具有各自独特的风味,它们组成了葡萄酒的酒体;另一方面,酒中大量的挥发性物质,包括醇类、酯类、醛类、碳氢化合物、硫化物等等,都具有不同浓度、不同程度的香气。成分与葡萄酒的质量关系密切,是划分葡萄酒等级的重要依据。针对问题(一):首先,采用单样本的K-S检验方法,检验出两组红葡萄酒的综合得分服从正态分布,两组白葡萄的综合得分不服从正态分布;其次利用两个独立样本的t检验方法得出两组红葡萄

4、有显著性差异;利用两个独立样本检验的Mann-Whitney U法(秩检验法)验证这两组评酒员的评价结果有显著性差异。同理可用类似方法对其它评分指标进行分析。最后,根据两种葡萄酒的综合评分的标准差判定:红葡萄酒第二组评酒员的评价结果更可信;白葡萄酒第二组评酒员的评价结果更可信。针对问题(二):建立基于主成分分析法和聚类分析的分类模型,首先对红、白葡萄和葡萄酒理化指标采用主成分分析法提取出主成分,然后对这些主成分聚类分析得出6种聚类并依据判别标准(聚类后葡萄酒样本的平均值),最终确定红、白葡萄的分级。针对问题(三):建立红、白葡萄酒的各个理化指标与葡萄理化指标逐步回归模型,通过逐步回归得出对红、

5、白葡萄酒某个理化指标影响显著的葡萄因子,建立“最优”回归方程, 并对回归方程进行显著性检验。例如:采用逐步回归分析,建立出红葡萄酒花色苷与葡萄中花色苷、出汁率的“最优”回归方程:,因此酿酒红花色苷、出汁率这两因素对红葡萄酒花色苷的影响是显著的。针对问题(四):建立基于主成分分析法和回归分析的质量评价模型,首先对红、白葡萄和葡萄酒的理化指标采用主成分分析法提取出主成分,并分析各主成分中的主要理化指标(表17、18),确定影响葡萄酒质量的因素,然后利用主成分和葡萄酒的综合评分进行回归分析得出红、白葡萄酒的质量评价模型,最后,对模型的误差进行分析,发现模型精度较高,适合作为评价葡萄酒质量的模型。 关

6、键词:正态分布;t检验;主成分分析;聚类分析;回归分析一、问题重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题:1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分

7、级。3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。4分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?二、问题假设(1)假设给出的的各项数据是真实可靠的。(2)假设与总体评价极不和谐的异常数据很少,可以看做没有此现象。(3)假设在短时间内,文中各个理化指标不会发生明显的变化。(4)假设外界其他因素对模型所研究的方面影响很小。不是决定因素。(5)假设各评酒员对酒样的评分是相互独立的。(6)假设各评酒员对酒的评价的客观公正的。(4)假设评酒员在品尝完一种酒样后,不会对下一种或多种酒样的评价产生影响。三、问题分析3-1(问题一)分析首先,对附表

8、1中的数据进行分析,由于葡萄酒品尝评分标准是百分制,其中:外观分析15分、香气分析30分、口感分析44分、平衡/整体评价处理11分。因此将每组中各指标的评分分数进行累加,求得综合评分。其次,采用单样本的Komogorov-Smirnov检验方法,利用spss统计软件检验红、白两种葡萄酒的综合得分是否服从正态分布。(1)若数据服从正态分布,则利用概率统计中的检验方法得出显著性概率,根据值是否大于0.05判断两组评酒员的评价结果有无显著性差异,(2)若数据不服从正态分布,则利用两个独立样本检验的Mann-Whitney U法(秩检验法)验证这两组评酒员的评价结果有无显著性差异。同理可用类似方法对其

9、它评分指标进行分析。最后,根据两种葡萄酒的综合评分的均值,标准差的大小判定哪一组评酒员的评价结果更可信。3-2(问题二)分析为了建立科学、客观的葡萄的评价方法,针对问题(二)建立基于主成分分析法和聚类分析的分类模型,主要思想:首先对数据进行标准化,然后对葡萄和葡萄酒的理化指标采用主成分分析法提取出主成分,并对这些主成分进行聚类分析,最终确定红、白葡萄的分类。3-3(问题三)分析为了客观分析酿酒葡萄与葡萄酒的理化指标之间的联系,针对问题(三)建立红、白葡萄酒的各个理化指标与葡萄理化指标逐步回归模型,通过逐步回归得出对红、白葡萄酒某个个理化指标影响显著的葡萄因子,建立“最优”回归方程。采用逐步回归

10、中的检验对得到的回归方程进行显著性检验,最后得出红、白葡萄酒的各个理化指标与葡萄理化指标之间的联系。3-4(问题四)分析 为了客观分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,针对问题(四)建立基于主成分分析法和回归分析的质量评价模型,首先对红、白葡萄和葡萄酒的理化指标采用主成分分析法提取出主成分,并分析各主成分中的主要理化指标,确定影响葡萄酒质量的因素,然后利用主成分和葡萄酒的综合评分进行回归分析得出葡萄酒的质量评价模型,最后,对模型的误差进行分析,发现模型精度较高,适合作为评价葡萄酒质量的模型。四、符号说明符号含义主成分葡萄样本相对误差红葡萄一级指标红葡萄酒一级指标白葡萄一级指标白葡萄

11、酒一级指标相关系数评分指标五、模型建立与分析5-1问题(一)5-1-1 数据的分析、预处理首先,对附件1中的数据进行直观分析,得出葡萄酒品尝评分是按照百分制的标准执行,其中各类指标分数如下:外观分析15分(澄清度5分、色调10分)、香气分析30分(纯正度6分、浓度8分、质量16分)、口感分析44分(纯正度6分、浓度8分、持久性8分、质量22分)、平衡/整体评价处理11分。其次,为了很好的检验两组评酒员的总体评价结果,本文将两种葡萄酒中各指标的得分进行累加,得到10名品酒员对各葡萄酒样品的综合评分,如附录表1、2所示(备注:附件1中第一组红葡萄酒品尝评分的酒样品20缺少1项原始数据,故将两组中此

12、数据剔除掉;第一组白葡萄酒品尝评分的酒样品3有1项原始数据错误,故将两组中此数据剔除掉。)。5-1-2 数据的正态性检验 1.红葡萄酒数据的正态性检验 (1)对红葡萄酒每组中的综合得分作出频率直方图如图1,可以发现两组数据服从正态分布。图1 第一、二组红葡萄酒的频率直方图(2)Komogorov-Smirnov检验利用spss软件中的单样本的Komogorov-Smirnov检验方法检验第一组红葡萄酒综合评分进行检验,其运行结果如下表1。表1 第一组红葡萄酒单样本K-S检验结果样本总数260正态分布均值72.8423标准差10.34325实际与期望频数最大差值0.066极差最大正极差0.043

13、最小负极差-0.066统计量K-S1.066显著性概率0.206由表1可以得出结论:样本总数为260;正态分布的均值为72.8423,标准差为10.34325;实际频数与期望频数的最大差值为0.066,最大正极差为0.043,最小正极差为-0.066;统计量K-S的值为1.066;显著性概率值为0.2060.05,所以可以认为第一组红葡萄酒的综合得分服从正态分布。同理,利用上述方法对第二组红葡萄酒综合评分进行检验,运行结果如下表2。表2 第二组红葡萄酒单样本K-S检验结果样本总数260正态分布均值70.3115标准差6.71648实际与期望频数最大差值0.068极差最大正极差0.041最小负极差-0.068统计量K-S1.092显著性概率0.184由表2可以得出以下结论:样本总数为260;正态分布的均值为70.3115,标准差为6.71648;实际频数与期望频数的最大差值为0.068,最大正极差为0.041,最小正极差为-0.068;统计量K-S的值为1.092;显著性概率值为0.1840.05,所以第二组红葡萄酒的综合得分服从正态分布。2.白葡萄酒数据的正态性检验利用Komogorov-Smi

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号