小麦遗传术语解答.doc

上传人:F****n 文档编号:103484931 上传时间:2019-10-07 格式:DOC 页数:13 大小:93.50KB
返回 下载 相关 举报
小麦遗传术语解答.doc_第1页
第1页 / 共13页
小麦遗传术语解答.doc_第2页
第2页 / 共13页
小麦遗传术语解答.doc_第3页
第3页 / 共13页
小麦遗传术语解答.doc_第4页
第4页 / 共13页
小麦遗传术语解答.doc_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《小麦遗传术语解答.doc》由会员分享,可在线阅读,更多相关《小麦遗传术语解答.doc(13页珍藏版)》请在金锄头文库上搜索。

1、聚类分析科技名词定义中文名称:聚类分析 英文名称:cluster analysis 定义1:按照某种距离算法对数据点分类。 所属学科:地理学(一级学科);数量地理学(二级学科) 定义2:把观测或变量按一定规则分成组或类的数学分析方法。 所属学科:生态学(一级学科);数学生态学(二级学科) 本内容由全国科学技术名词审定委员会审定公布 百科名片聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这

2、些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。目录概念 聚类分析的定义 1. 聚类方法 2. 算法原理:二、判别分析模型 三、有关统计量 四、两组判别 一、因子分析模型(FA) 二、有关统计量 三、FA步骤 主要应用 1. 在商业上 2. 在生物上 3. 在地理上 4. 在保险行业上 5. 在因特网应用上 6. 在电子商务上主要步骤 聚类分析算法概念聚类分析的定义 1. 聚类方法 2. 算法原理:二、判别分析模型三、有关统计量四、两组判别一、因子分析模型(FA)二、有关统计量三、FA步骤 主要应用 1. 在商业上 2. 在生物上 3. 在地理上 4. 在保险

3、行业上 5. 在因特网应用上 6. 在电子商务上 主要步骤 聚类分析算法展开编辑本段概念聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。 从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。 从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分

4、类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。 从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。 编辑本段聚类分析的定义依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。 各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入一类。 各指标之间具有一定的相关

5、关系。 聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。 聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy) 变量类型:定类变量、定量(离散和连续)变量 聚类方法层次聚类(Hierarchical Clustering) 合并法 分解法 树状图 非层次聚类 K均值聚类法(K-means Clustering) 智能聚类法 聚类分析的有关统计量 聚合过程表 群重心 群中心 群间距离 分层聚类分析的步骤 定义问题与选择分类变量 聚类方法 确定群组数目 聚类结果评估

6、 结果的描述、解释K-means Cluster(快速样品聚类)过程 属于非层次聚类法的一种 方法原理 选择(或人为指定)某些记录作为凝聚点 按就近原则将其余记录向凝聚点凝集 计算出各个初始分类的中心位置(均值) 用计算出的中心位置重新进行聚类 如此反复循环,直到凝聚点位置收敛为止 K-means Cluster过程 方法特点 要求已知类别数 可人为指定初始位置 节省运算时间 样本量大于100时有必要考虑 只能使用连续性变量 K均值聚类法分析步骤 定义问题 确定群组数目 结果的描述、解释 TwoStep Cluster过程 特点: 处理对象:分类变量和连续变量 自动决定最佳分类数 快速处理大数

7、据集 前提假设: 变量间彼此独立 分类变量服从多项分布,连续变量服从正态分布 模型稳健 算法原理:第一步:逐个扫描样本,每个样本依据其与已扫描过的样本的距离,被归为以前的类,或生成一个新类 第二步,对第一步中各类依据类间距离进行合并,按一定的标准,停止合并 判别分析 Discriminant Analysis 介绍: 判别分析 分类学是人类认识世界的基础科学。聚类分析和判别分析是研究事物分类的基本方法,广泛地应用于自然科学、社会科学、工农业生产的各个领域。 判别分析DA 概述 DA模型 DA有关的统计量 两组DA 案例分析 判别分析 判别分析是根据表明事物特点的变量值和它们所属的类,求出判别函

8、数。根据判别函数对未知所属类别的事物进行分类的一种分析方法。核心是考察类别之间的差异。 判别分析 不同:判别分析和聚类分析不同的在于判别分析要求已知一系列反映事物特征的数值变量的值,并且已知各个体的分类。 DA适用于定类变量(因)、任意变量(自) 两类:一个判别函数; 多组:一个以上判别函数 DA目的 建立判别函数 检查不同组之间在有关预测变量方面是否有显著差异 决定哪个预测变量对组间差异的贡献最大 根据预测变量对个体进行分类 编辑本段二、判别分析模型要先建立判别函数 Y=a1x1+a2x2+.anxn,其中:Y为判别分数(判别值),x1 x2.xn为反映研究对象特征的变量,a1 a2.an为

9、系数 编辑本段三、有关统计量典型相关系数 特征值 (0, 1) = SSw/SSt for XlWilks 组重心 分类矩阵 编辑本段四、两组判别定义问题 估计DA函数系数 确定DA函数的显著性 解释结果 评估有效性 定义问题 判别分析的第一步 第二步就是将样本分为: 分析样本 验证样本 估算判别函数系数 直接法(direct method)就是同时用所有的预测变量估计判别函数,此时每个自变量都包括在内,而不考虑其判别能力。这种方法适用于前期研究或理论模型显示应包括哪些自变量的情况。 逐步判别分析(stepwise discriminant analysis),预测变量依据其对组别的判别能力被

10、逐步引入。 确定显著性 零假设:总体中各组所有判别函数的均值相等。 特征值 典型相关系数 (0, 1) 转换成卡方值检验lWilks 见travel.spo 解释结果 系数的符号无关紧要,但能够表示每个变量对判别函数值的影响,以及与特定组的联系。 我们可以通过标准化判别函数系数的绝对值初步判断变量的相对重要性。 通过考察结构相关系数,也可以对预测变量的相对重要性进行判断。 组重心 评估判别分析的有效性 根据分析样本估计出的判别权数,乘以保留样本中的预测变量值,就得出保留样本中每个样本的判别分。 可以根据判别分及适当的规则划分为不同的组别。 命中率(hit ratio)或称样本正确分类概率,就是

11、分类矩阵对角线元素之和与总样本数的比例。 比较样本正确分类百分比与随机正确分类百分比。 因子分析 Factor Analysis 因子分析 因子分析模型 因子分析有关统计量 因子分析步骤 案例分析 编辑本段一、因子分析模型(FA)基本思想 因子分析模型 FA的基本思想 “因子分析”于1931年由Thurstone提出,概念起源于Pearson和Spearmen的统计分析 FA用少数几个因子来描述多个变量之间的关系,相关性较高的变量归于同一个因子; FA利用潜在变量或本质因子(基本特征)去解释可观测变量 FA模型 X1=a11F1+a12F2+ +a1pFp+v1 X2=a21F1+a22F2+

12、 +a2pFp+v2 XAF+V Xi=ai1F1+ai2F2+ +aipFp+vi Xm=ap1F1+ap2F2+ +ampFm+vm Xi 第i个标准化变量 aip 第i个变量对第p个公因子的标准回归系数 F 公因子 Vi 特殊因子 公因子模型 F1=W11X1+W12X2+ +W1mXm F2=W21X1+W22X2+ +W2mXm Fi=Wi1X1+Wi2X2+ +WimXm Fp=Wp1X1+Wp2X2+ +WpmXm Wi 权重,因子得分系数 Fi 第i个因子的估计值(因子得分) 编辑本段二、有关统计量Bartlett氏球体检验:各变量之间彼此独立 KMO值:FA合适性 因子负荷:

13、相关系数 因子负荷矩阵 公因子方差(共同度) 特征值 方差百分比(方差贡献率) 累计方差贡献率 因子负荷图 碎石图 编辑本段三、FA步骤定义问题 检验FA方法的适用性 确定因子分析方法 因子旋转 解释因子 计算因子得分 注意事项 样本量不能太小 变量相关性 公因子有实际意义 编辑本段主要应用在商业上聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。 聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理。 在生物上聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识 在地理上聚类能够帮助在地球中被观察的数据库商趋于的相似性 在保险行业上聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组 在因特网应用上聚类分析被用来在网上进行文档归类来修复信息 在电子商务上聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,可以更好的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。 编辑本段主要步骤1. 数据预处理, 2. 为衡量数

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号