基于主成分分析方法的葡萄酒评价

资源描述

《基于主成分分析方法的葡萄酒评价》由会员分享，可在线阅读，更多相关《基于主成分分析方法的葡萄酒评价（38页珍藏版）》请在金锄头文库上搜索。

1、基于主成分分析方法的葡萄酒评价摘要葡萄酒是以新鲜葡萄或葡萄汁为原料，经发酵而成的含有多种营养成分的饮料酒，是世界公认的对人体有益的健康酒精饮品。葡萄酒具有很高的营养价值和性能。本文为了进行27个红葡萄酒样本和28个白葡萄酒样本的评价，采集了30个酿酒红葡萄和30个酿酒白葡萄的理化指标。通过SPSS统计软件中P-P图和单样本K-S检验以及建立差异分析模型判断两组品酒员对红、白葡萄酒的评价结果是否均存在显著性差异，这种方法说明两组品酒员对红、白葡萄酒的评价结果客观，数据真实可靠。运用主成分分析法（PCA方法）对酿酒葡萄的指标进行主成分分析选择并求得葡萄酒的主成分得分和等级排名，进行对葡萄酒的评价

2、。通过建立多元线性回归模型，探究酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响，检验样本组的线性回归模型评价值与评分值的显著性差异检验，判断用葡萄和葡萄酒的理化指标来评价葡萄酒的质量是可行的。本文通过以上的数学方法，结合前人的研究成果，提出了较为可靠的葡萄酒样本等级划分和评价，对葡萄酒评价具有一定的参考价值。关键词：主成分分析；多元线性回归模型；方差检验1 绪论1.1 研究背景以及意义1.1.1 葡萄酒的营养价值葡萄酒是具有非常高的营养价值，它的化学成分比较齐全，是无机矿物营养素和有机维生素的良好来源，可以给人体提供一定的热量。例如酒内所含的硫胺素，是可以令人恢复疲劳；核黄素是可以促进细胞的氧化

3、还原，预防口角的溃疡以及白内障；尼克酸即烟酸，能够维持皮肤的健康，起到美容作用；维生素B6对蛋白质的代谢很重要，它可以使得我们所食用的鱼肉类易消化；葡萄酒使人体对于铁的吸收更好，这有利于贫血的治疗，等等。葡萄酒还有很多成分和元素，无一不显示着对人体健康的益处。1.1.2 中国葡萄酒业的发展情况正是由于葡萄酒具有很高的营养价值，倍受各个阶层各个年龄段的人们的喜爱，同时它又拥有着悠久的历史，葡萄酒文化也享誉全球。面对全球经济的发展，葡萄酒行业在我国呈现出蓬勃的发展。根据相关的研究数据表示，至到2011年4月，葡萄酒的产量已经达到了31.97万千升，同比增长了21.95%；总产值达98.26亿元，同

4、比增长了22.99%；销售产值96.62亿元，同比增长了25.02%；主营业务收入为104.58亿元，同比增长26.1%；主营业务成本78.36亿元，同比增长28.94%；利润总额15.92亿元，同比增长34.32%。通过统计数据显示，在这几年里，葡萄酒的产量持续高速的增长。目前，我国葡萄酒的消费主要集中在沿海经济发达地区。随着人民生活水平的提升，和葡萄酒产品的推广以及葡萄酒文化知识的普及，将会有很多其他地区的消费者逐渐地接受葡萄酒产品，葡萄酒的消费市场将会进一步扩大。1.1.3 中国葡萄酒业的发展的品质问题葡萄酒业在中国的发展一边让我们感到欣慰，而另一边我们也可以发展中国葡萄酒的发展存在许多

5、的问题。由于中国是属于葡萄酒新世界，中国的市场又在逐渐开放，国内市场与国际市场联系越来越紧密，许多进口葡萄酒商在看到中国市场拥有巨大的消费潜力后，纷纷抢占进军市场进军，目前在中国市场的瓶装酒几乎包含了来自世界所生产葡萄酒各地的产品。激烈的竞争从而导致进口葡萄酒的品质也是有好有坏，也加剧了葡萄酒市场的价格和品质更加的混乱。由于葡萄酒质量等级统一的衡量标准体系并不成熟，企业自己规定的质量指标也太低，执法部门又因缺乏判别依据而无法对企业严格执法。虽然，2008年1月1日，葡萄酒新国标正式开始实施，但葡萄酒新国标并没有对葡萄酒的等级做出一个明确的划分规定，这在一定程度上使得等级不高的进口散酒，进入国内

6、分装后在经销商的包装下依然能以次充好。相关业内人士表示，目前国内的消费者大多数品鉴水平和能力并不高，大多数人都是认为价格和质量成正比，用价格来判断葡萄酒的好坏，于是葡萄酒市场难免出现紊乱。1.2 研究现状1.2.1 国内研究现状对于国内来说，葡萄酒评价的研究现在仍然是大部分只限于感官的品尝，现在并没有将数学方法和数据处理方法比较好地应用于葡萄酒评价的研究8。近几年，也有研究学者将气敏传感器阵列技术结合着主成分分析法和人工神经网络，将这两种方法应用于不同酒类或者是同类酒不同品牌识别，比如自动识别白酒、葡萄酒以及啤酒，不同酒类的口感差异很大，基本上人工品评就可以很容易区分得出，无需进行成份的检测再

7、进行识别，而对于后者，识别率仍然不高。国内葡萄酒质量检测中心也是直到2008年10月份才引进超高压液相串联四级杆质谱仪器，通过测定葡萄酒成份及其含量，与专家感官品评结合，试图寻找出影响葡萄酒质量好坏的一些特殊指标，通过分析、统计、判断，选择一些关联性比较好的项目判断葡萄酒质量的好坏，但尚未查找到此方面很好的研究成果。1.2.2 国外研究现状国外在葡萄酒酿造与研究方面远远领先于国内。近年来，美国科学家在使用感官的同时，结合引进一些现代科学仪器，如气相色谱仪、高压液相色谱仪和质谱仪等，来分析葡萄酒的化学成分和香味，试图使品酒员的结论与仪器的结论相符或一致。1984年，美国科学家就已经将PLS应用于

8、专家感官品评与葡萄酒化学成分及含量进行相关性分析，通过研究将葡萄酒成分进行等级划分预测。但当时的仪器检测水平有限，预测结果并不理想。直到2009年，一篇题为Modeling wine preferences by data mining from physicochemical properties的文章发表在Decision Support systems上，将数据挖掘与处理的方法初步应用于葡萄酒品尝与质量等级分类。1.3 研究思路为了进行葡萄酒的评价，运用均值替换法，补齐缺失数据，修正异常数据。利用SPSS统计软件，计算求得P-P图和单样本K-S检验以及建立差异分析模型判断两组品酒员对红、

9、白葡萄酒的评价结果是否均存在显著性差异。若判断不存在显著性差异，说明两组品酒员对红、白葡萄酒的评价结果过于主观，数据不真实；若判断存在显著性差异，说明两组品酒员对红、白葡萄酒的评价结果客观，数据真实可靠。运用主成分分析法（PCA方法）对酿酒葡萄的指标进行主成分分析选择并求得葡萄酒的主成分得分和等级排名。建立多元线性回归模型，认为酿酒葡萄和葡萄酒的理化指标与葡萄酒的质量之间的关系足够密切，确定验证利用主成分分析酿酒葡萄的理化指标影响葡萄酒质量，从而确定葡萄酒的质量等级评价的做法是可行的。402 酿酒葡萄与葡萄酒2.1酿酒葡萄质量的重要性酿酒葡萄对葡萄酒质量等级的重要性非常高，它们之间密切相关，

10、为了获得优质的、口感好的高档葡萄酒，生产出来高质量的酿酒葡萄变得十分重要，然而酿酒葡萄的所包含的元素是由该品种的基因和环境条件，也与栽培管理方式等等相关。可以根据生产不同品种类型的葡萄酒满足的条件来确定和筛选不同的酿酒葡萄。这样可以生产出不同风格和口感的葡萄酒。酿酒葡萄的理化指标主要是PH、酸度、糖酸比、酚类物质的含量、糖度等等指标来辨别判断。这些物质含量的多与少会决定酿酒葡萄的质量，这样便也是间接影响葡萄酒的质量2。2.2 葡萄酒理化指标与酿酒葡萄理化指标和葡萄酒理化指标相似，酿酒葡萄的理化指标是酿酒葡萄质量等级划分的标准，具有十分重要意义。同时根据各种生物化学实验与统计分析，大量实验数据研

11、究表明酿酒葡萄质量的理化指标与葡萄酒质量的理化指标有着显著的联系。3 数据分析3.1 模型假设1.假设评酒员在完全相同的环境因素下进行评酒，且评酒员均按照同一标准进行评酒。2.假设评酒员的评价不受上一个评酒员的影响，即各个数据之间独立。3.假设各样本能真实客观地反映酿酒葡萄与葡萄酒的情况。4.假设葡萄酒的质量只与酿酒葡萄的好坏有关，忽略酿造过程中的温度、湿度、人为干扰等其他因素的影响。5.假设酿酒葡萄的编号和葡萄酒的编号是一致的，存在严格的对应关系。3.2 符号说明表3.1 符号说明表符号含义m品酒员个数n样本数j样本序数i指标序数xni第n种酒样品第i种理化指标的值FK理化指标的综合评价函数

12、xi主成分系数x理化指标的观测数据矩阵Q主成分贡献率l主成分个数y葡萄酒的理化指标xil新指标-提取出酿酒葡萄主成分3.3 数据预处理经过对数据的查找，发现部分原始数据存在异常，另外有些类型数据存在缺失，将其正常化处理。3.3.1缺失数据的处理对于数据中存在的缺失现象，本文采用均值替换法对这种缺失数据进行处理。均值替换法就是将该项目剔除异常数据后取整剩余数据的平均值来替换异常或缺失数据的方法，即xm*=19k=1,km10XKm=1,2,10（3.1）其中，xm*为缺失值。由于不同品酒师对同一样本相同项目的打分值差别不大，所以认为采用均值替换法来处理缺失数据是可行的。以“酒样品20”色调数据

13、为例进行修补，得到修正后的数据如下表所示。表3.2 红葡萄酒样品 20 色调数据修补品酒员1 号2 号3 号4 号5 号6 号7 号8 号9 号10 号修补前664-668668修补后6646668668注：表中“-”代表数据缺失。3.3.2异常数据的修正原始数据中，有的数据明显比两侧的数据过大或过小，显然是不合理数据。例如，第一组白葡萄酒品尝评分的数据中，可能由于手工输入的误差，品酒员7对样品3持久性评分的数据相对于相邻各品酒员的评分发生了明显的突变现象。这种数据异常有可能对数据挖掘的结果产生不利影响。表 3.3 第一组白葡萄酒品尝评分样本 3 持久性数值异常品酒员1 号2 号3 号4

14、号5 号6 号7 号8 号9 号10 号持久性75756777567对于类似的异常数据采取“先剔除，后替换”的策略，对异常数据进行修正。4 建立差异分析模型和方差分析模型4.1 建立差异分析模型和方差分析模型步骤第一步：差异分析模型的建立，利用 SPSS 统计软件中的 P-P 图和单样本 K-S 检验，判断是否为正态分布3；第二步：差异分析模型求解，检验评价结果数据的显著性差异；第三步：方差分析模型的建立与求解，分析可信度，利用SPSS统计软件中的方差分析比较判断。4.2差异分析模型的建立对两组品酒员差异性评价的假设检验一般要求数据符合正态分布。统计规律表明，正态分布有极其广泛的实际背景，生产

15、与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。因此，对葡萄酒质量的评分进行正态性检验有助于分析得出该评分是否科学、合理。首先，计算针对每一个样本10个品酒员的评分均值，即x=m=110xmn10m=1,2,10 n=1,2,.,10 （4.1）x=m=110xmn10m=1,2,10 n=1,2,10(4.2)其次，利用 SPSS统计软件中的P-P图和单样本K-S 检验，对数据集两组品酒员分别对红、白葡萄酒品尝得到的四组评价结果,进行了正态分布检验，若样点在正态分布P-P图上呈直线散布，则被检验数据基本上成一条直线。图4.1 第一组红葡萄酒评价结果的正态 P-P 图单样本 Kolmogorov-Smirnov 检验酒样品评分均值N2727正态参数a,b均值14.0073.078标准差7.9377.3609最极端差别绝对值.07

展开阅读全文

基于主成分分析方法的葡萄酒评价

最新文档