数学建模之葡萄品种的分类

资源描述

《数学建模之葡萄品种的分类》由会员分享，可在线阅读，更多相关《数学建模之葡萄品种的分类（24页珍藏版）》请在金锄头文库上搜索。

1、葡萄品种的分类摘要随着社会各个领域的不断发展，统计分类已经逐步渗透到每个角落，本文中，我们将举出其中一例，通过题中一些已知种类葡萄（红葡萄或白葡萄）的理化指标和未知种类（红葡萄或白葡萄的）理化指标，采用合适的指标运用三种不同方法对葡萄品种进行分类。首先使用模糊数学的方法，运用MATLAB对数据进行处理，并进行进一步的运算，由切比雪夫距离法对问题进行建模：原始数据处理变成模糊矩阵，处理模糊矩阵成为相似矩阵，找相似矩阵闭包，从而找到模糊等价矩阵，选取合适的值，进行分类最终求得结果。方法二使用聚类分析法，利用spass软件中的系统聚类分析对已知数据进行处理，并得到树状图，观察树状图选取合适的分类指

2、标，把红葡萄和白葡萄样品分别分为五类。方法三通过综合分析方法从各方面、多角度出发，对问题展开全方位的分析，由隶属函数得出综合得分进行分类。问题一属于归类问题，由于红葡萄和白葡萄属于不同种类，所以本文运用模糊数学、聚类分析以及综合评价三种方法把他们分别划分为不同品种，并一一进行分析解释。问题二，在问题一的基础上，我们已经把红葡萄及白葡萄进行品种划分，接下来将待分类葡萄先进行种类划分，再将其分别放入各自的种类中按照原来的分类方法划分品种即可。关键词：模糊数学聚类分析法切比雪夫距离法综合评价隶属函数一、问题重述在酿造葡萄酒时，选用不同品种的葡萄及不不同的酿造工艺，会得到不同种类的葡萄酒，附

3、件中给出了一些已知种类葡萄（红葡萄或白葡萄）的理化指标和未知种类（红葡萄或白葡萄的）理化指标，且这些葡萄来自于不同的葡萄品种，同一种类不同品种的葡萄在理化指标上会稍有不同。请选取合适的指标，用多种方法完成以下任务：1、将已知种类的红葡萄和白葡萄样本分成若干不同的品种（不需要指明品种）；2、区分出待检测葡萄的种类及品种，并对结果进行解释。二、题设分析2.1问题分析2.1.1问题一的分析本题中红葡萄及白葡萄的指标有54种，考虑到指标数量较多，不能简单粗略地识别出品种的分类，我们对数据进行了一定的处理，多次测量的指标数据，我们用它的平均值进行代替。因为归属于分类题型，有多种方法可以进行求解，本文中采

4、用其中的模糊数学、系统聚类以及综合评价法这三种方法分别做出问题一的解答。2.1.2问题二的分析问题二要求我们区分出待检测葡萄的种类及品种，并对结果进行解释。已知数据中共有六个待测样品，从已知样品中我们可以观察到，红葡萄和白葡萄花色苷含量存在显著差异，从而我们很容易把待测样品分为红葡萄和白葡萄，结合问题一的结果，进而对待测样品进行归类。三、模型假设假设一：已知样本葡萄中没有出现变异情况；四、符号说明方法三的符号说明：五、模型的建立及求解5.1.方法一模糊数学5.1.1问题一的求解1.模型的建立题目中给出了红葡萄，白葡萄两种，我们先对红葡萄进行数据处理与分类，白葡萄处理方法类似。根据模糊数学的分

5、类方法，我们分为四步进行：原始数据处理变成模糊矩阵，处理模糊矩阵成为相似矩阵，找相似矩阵闭包，从而找到模糊等价矩阵，选取合适的值，进行分类。2.建立模糊矩阵先对原始数据进行处理形成迷糊矩阵，我们先采用标准差标化，为了使所有的，在进行极差变化，具体操作如下：（1）（2）（3）根据（1）（2）（3）我们求出了模糊矩阵，数据见附录一。3.建立模糊相似矩阵确定相似系数的方法有多种，常用的有切比雪夫距离法，数量积法、夹角余弦法、相关系数法、最大最小值法、距离法、专家评分法等，根据实际需要我们选用了比较常见的切比雪夫距离法，方法如下：（4）其中Q为使所有的确定常数.则。根据（4）我们可以列出模糊相似

6、矩阵，我们利用matlab算法很快求出其相似矩阵，定义为 ,数据和程序见附录一。4.建立模糊等价矩阵-找闭包从是上一步求出的22阶模糊相似矩阵出发，用平方法求其传递闭包 ,它就是将改造成的22阶模糊等价矩阵，再让由大变小，就可形成动态聚类图.我们通过编程求得它的闭包为。通过给定不同的值，得到了不同的分类。当截取值取0.4时分成了5类我们将此时的截取矩阵放在附录中，其具体分类如下：红葡萄分类表第一类样品1、样品3第二类样品2、样品5、样品10、样品15、样品16、样品17、样品18第三类样品7、样品8、样品12、样品20、样品21、样品22第四类样品11、样品13、样品14第五类样品6

7、、样品9、样品195：白葡萄分类因为白葡萄于此方法相似，我们省略上面的分析。我们截取值取时，分成了类，具体分类如下：白葡萄分类表第一类样品1、样品7、样品9、样品13、样品14第二类样品2、样品3、样品4、样品5、样品6、样品8、样品10、样品11、样品12、样品15、样品16、样品17、样品18、样品19、样品20、样品21、样品22、样品23、样品24、样品25自此模糊分类已经完成，我们接下来采取聚类分析，进行分类，从而易于分析两者的联系与差别。5.2方法二系统聚类法5.2.1问题一的求解1.模型准备系统聚类法的基本原理：首先将一定数量的样本或指标各自看成一类，然后根据样本（或指标）的

8、亲疏程度，将亲疏程度最高的两类进行合并，然后考虑合并后的类与其他类之间的亲疏程度，再进行合并。重复这一过程，直到将所有的样本（或指标）合并为一类。系统聚类分为Q型聚类和R型聚类两种：Q型聚类是对样本进行聚类，它使具有相似特征的样本聚集在一起，使差异性大的样本分离开来；R型聚类是对变量进行聚类，它使差异性大的变量分离开来，相似的变量聚集在一起，这样就可以在相似变量中选择少数具有代表性的变量参与其他分析，实现减少变量个数、降低变量维度的目的。在本文中进行的是Q型聚类。类与类之间距离的计算方法主要有以下几种：最短距离法（Nearest Neighbor），是指两类之间每个个体距离的最小值；最长距离法

9、（Farthest Neighbor），是指两类之间每个个体距离的最大值；组间联接法（Between-groups Linkage），是指两类之间个体之间距离的平均值；组内联接（Within-groups Linkage），是指把两类所有个体之间的距离都考虑在内；重心距离法（Centroid clustering），是指两个类中心点之间的距离；离差平方和法（Ward法），同类样品的离差平方和应当较小，类与类之间的离差平方和应当较大。2.模型的求解（1）红葡萄的分类我们利用spass软件中的聚类分析的方法来求解此问题，具体步骤如下：打开spass软件，在数据编辑窗口的主菜单中选择“分析(A)”“

10、分类(F)”“系统聚类(H)”；在弹出的“系统聚类分析”对话框中，将“样品”变量选入“标注个案(C)”中，将其他变量选入“变量框”中。在“分群”单选框中选中“个案”，表示进行的是Q型聚类。在“输出”复选框中选中“统计量”和“图”，表示要输出的结果包含以上两项。单击“统计量(S)”按钮，在“系统聚类分析：统计量”对话框中选择“合并进程表”、“相似性矩阵”。单击“绘制(T)”按钮，在“系统聚类分析：图”对话框中选择“树状图”、“冰柱”，表示输出的结果将包括谱系聚类图（树状）以及冰柱图（垂直）。单击“方法(M)”按钮，弹出“系统聚类分析：方法”对话框，我们选择“聚类方法(M)”选项条中的“组间联接”

11、和“度量标准-区间(N)”选项条中的“平方Euclidean距离”以及“转换值-标准化(S)”选项条中的“全局从0到1”。通过以上步骤，我们从spass输出中得到了红葡萄聚类表，垂直冰柱图见附录二中的图表1、图表2，树状图见下文中的图表3以及近似矩阵图。下面我们对所得结果进行分析：近似矩阵图表分析：近似矩阵图表显示的是用平方Euclidean距离计算的近似矩阵表，其实质是一个不相似矩阵，其中的数值表示各个样本之间的相似系数，数值越大，表示两样本距离越大。聚类表分析：图表1显示的是聚类表，该表反映的是每一阶段聚类的结果，系数表示的是“聚合系数”，第2列和第3列表示的是聚合的类。垂直冰柱图分析：图

12、表2冰柱图，是反映样本聚类情况的图，如果按照设定的类数，在那类数的行上从左到右就可以找到各类所包含的样本。红葡萄树状图分析：图表3红葡萄树状图图表3用“组间联接”聚类法生成的树状聚类图。如果将所有样本分为五类的话，可以得到如下分类：红葡萄分类表第一类样品11、样品14、样品5第二类样品3、样品19、样品15、样品20、样品21、样品4、样品22、样品9、样品12、样品16第三类样品6、样品17、样品10第四类样品7、样品13第五类样品2、样品8、样品18、样品1（2）白葡萄的分类由于红葡萄分类及白葡萄分类都是采用spass软件进行聚类分析，具体操作步骤在红葡萄分类中已经罗列，此处不再赘述，我们

13、同样从spass输出中得到了白葡萄的近似矩阵，聚类表，垂直冰柱图见附录一中的图表4、表5，树状图见下文中的图表6及近似矩阵图。白葡萄树状图分析：图表6葡萄树状图图表6用“组间联接”聚类法生成的树状聚类图。如果将所有样本分为五类的话，可以得到如下分类：白葡萄分类表第一类样品7、样品15、样品12、样品1、样品9第二类样品5、样品14、样品11第三类样品4、样品16、样品6、样品10、样品8、样品19、样品22、样品21、样品2、样品3、样品18、样品13、样品17、样品24第四类样品20第五类样品235.2.2问题二的求解由常识可得红葡萄和白葡萄的颜色有很大区别，我们观察数据发现红葡萄和白葡萄花

14、色苷的含量有很大差别，大多数红葡萄的花色苷的含量为7-410花色苷mg/100g鲜重，而白葡萄的花色苷含量为0-5花色苷mg/100g，所以我们按照种类依据以上结论可以近似把待测样品分为白葡萄和红葡萄。如下表：红葡萄待测样品1、待测样品2、待测样品3白葡萄待测样品4、待测样品5、待测样品6我们把待测样品1、2、3分别命名为a样品23、24、25放入原红葡萄的数据中，用spass中的系统聚类分析再次进行分类，得到以下树状图：图表7由树状图图表7可得，a样品23、24、25即待测样品1、2、3为红葡萄的第二类。我们把待测样品4、5、6分别命名为b样品25、26、27放入原白葡萄的数据中，用spas

15、s中的系统聚类分析再次进行分类，得到以下树状图：图表8由树状图图表8可得，b样品25即待测样品4为白葡萄的第二类，b样品26、27即待测样品5、6为白葡萄的第三类。5.3方法三综合评价法5.3.1问题一的求解1.数据预处理：问题给了54个指标，我们首先将一级指标和二级指标进行分开处理，为了体现两者的区别，给其不同的权数。我们这样定义：一级指标权数为0.8，二级指标权数为0.2。接下来观察数据可知，各样品每种指标值相对集中，但不同指标相差却很悬殊，于是我们进行极值归一化处理，接下来给出统一的隶属规则：其中() ,于是得到了红葡萄的22个样品54中指标的归一化值。数据见附录。归一处理后的数据就能进行综合处理，求出其综合得分，公式如下：由于红白葡萄处理方式相同，直接将其两者综合得分给出如下：样品种类红葡萄综合得分白葡萄综合得分112.891038968.654822544212.118850298.7942908783

展开阅读全文