浙江大学生物系统工程-生态系统优化与分析

资源描述

《浙江大学生物系统工程-生态系统优化与分析》由会员分享，可在线阅读，更多相关《浙江大学生物系统工程-生态系统优化与分析（8页珍藏版）》请在金锄头文库上搜索。

1、第一章绪论第二章判别分析（距离判别，fisher 判别，逐步判别）（1）填空：判别分析的关键是什么？答：判别函数。填空：标准差为 2，均值为 3。Matlab 正态分布的调用函数怎么写？答：y=gaussmf(x,2,3);（2）名词解释：判别函数。答：由描述各类的数值指标构成的分类规则，明确已知各类应如何区别，是判别分析中的关键。名词解释：fisher 判别法。答：用投影的方法将 k 个不同总体在 m 维空间上的点尽可能分散，同一总体内的各样本点尽可能的集中。用方差分析的思想则可构建一个较好区分各个总体的线性判别法。（3）简答：判别分析总存在一定的误判率，因此最佳的判别规则是什么

2、？答：最小化误判可能性，最大化正确判别的后验概率。简单：距离判别的的基本思想是什么？fisher 的基本思想是什么？答：样品和哪个总体距离最近，就判别它属哪个总体；投影降维（最小化类内方差，最大化类间方差）。简答：两总体的 fisher 判别法分子分母分别代表什么？答：分子代表类间散度足够大，分母代表类内散度足够小。（4）计算：马氏距离（一维、二维）第三章聚类分析（1）填空：变量测量尺度的类型分成哪三类。答：间隔尺度，顺序尺度，名义尺度。填空：变量之间的聚类即 R 型聚类分析，常用相似系数来测定变量之间的亲疏程度；样品之间的聚类即 Q 型聚类分析，常用距离来测定样品之间的亲疏程度。（2

3、）名词解释：聚类分析。答：把“对象 ”分成不同的类别（这些类不是事先给定的，而是直接根据数据的特征确定的），把相似的东西放在一起，从而使得类别内部的“差异”尽可能小，而类别之间的“ 差异”尽可能大，聚类分析就是按照对象之间的“相似”程度把对象进行分类。（3）简答：中心化变换、规格化变化、标准化变换特点。答：中心化变换：每列数据之和为 0，是种易于计算方差和协方差的变换。规格化变换：最大数值为 1，最小数值为 0，变换后不再有量纲，便于不同变量间的比较。标准化变换：每个变量即数据矩阵中每列数据的平均值为 0，方差为 1，且不再具有量纲，便于不同变量间的比较。是种易于计算相关矩阵（相关系数）

4、的变换。简答：明氏距离、兰氏距离马氏距离的优点或缺点。答：明氏距离两个缺点：一是明氏距离的值与各指标的量纲有关；二是明氏距离没有考虑各个变量之间的相关性和重要性，将两个样品在各个变量上的离差简单地进行了总和。兰氏距离：是一个自身标准化的量，对大的奇异值不敏感，适合高度偏移的数据，有助于克服明氏距离的第一个缺点，但是没有考虑指标之间的相关性。马氏距离：考虑了观测变量之间的相关性与各个观测指标取值的差异程度。（如果各个变量之间相互独立，即观测变量的协方差矩阵是对角矩阵，则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。）简答：为什么同一批数据采用不同的亲疏指标会得到不同

5、的分类结果？选择亲疏测定指标时，应注意遵循的基本原则有哪三点？答：因为不同的亲疏测定指标所衡量的亲疏程度的实际意义不同。基本原则：一是所选择的亲疏测定指标在实际应用中应有明确的意义；二是亲疏测定指标的选择要综合考虑已对样本观测数据实施了的变换方法和将要采用的聚类分析方法；三十适当地考虑工作量的大小。简答：聚类分析主要步骤是什么？答：选择变量、计算相似性、聚类（选择聚类的方法，确定形成的类数）、聚类结果的解释和证实。（4）计算（相似系数、夹角余弦、离差平方和法连接、最短/最长/ 中间距离法表格）第四章主成分分析（原理、步骤、实现）（1）填空：主成分分析的协方差矩阵的对角线上的元素之和等

6、于特征根之和。（2）判断：方差较大，较宽的分布表示了主信号。（对，而方差较小的分布则被认为是噪音或次要分量）判断：信噪比较高，数据准确度较高。（对，信噪比较低则说明数据中的噪声成分比较多）判断：变化较大的信号被认为是噪声。（错，变化较大的信息被认为是信号，变化较小的则是噪声）判断：主成分分析的协方差矩阵对角线上的元素越大，表明信号越强，变量的重要性越高。（对，元素越小则表明可能是存在的噪音或次要变量）判断：主成分分析的协方差矩阵的非对角线元素大小对应相关观测变量对之间冗余程度的大小。（对）（3）选择：哪一个高度冗余？（c ）（4）选择：哪一种有更高的精度？（原始变量的信息损失

7、最少？）（d）（5）简答：主成分分析的作用和优点。（什么叫主成分分析？）答：主成分分析可以有效地找出数据中最“主要” 的元素和结构，取出噪声和冗余，将原有的复杂数据降维，解释隐藏在复杂数据背后的简单结构。优点是简单，无参数限制，可以方便的应用于各个场合。简答：主元分析以及协方差矩阵优化的原则什么？答：一是最小化变量冗余，对应于协方差矩阵的非对角元素要尽量小；二是最大化信号，对应于要使协方差矩阵的对角线上的元素尽可能的大。简答：主成分分析的步骤。答：1、由 X 的协方差矩阵，求出特征根；2、求出分别所对应的特征向量；3、计算累计贡献率，给出恰当的主成分个数；4、计算所选出的 k 个主成分的

8、得分。简答：PCA 的假设和局限答：线形性假设、使用中值和方差进行充分统计、大方差向量具有较大的重要性、主元正交。第五章偏最小二乘法（1）判断：决定系数越大，回归方程价值越高。（对，实际中,决定系数大于 0.5时才有好的应用价值）（2）填空：多元线性回归难题：多重共线性。（包括完全多重共线性，不完全多重共线性）填空：偏最小二乘回归 PLS，数学基础是主成分分析。填空：偏最小二乘回归多元线性回归分析 +典型相关分析 +主成分分析（3）简答：提取成分的两个要求？答：(1)t1 和 u1 应尽可能大地携带它们各自数据表中的变异信息; (2)t1和 u1 的相关程度能够达到最大。这两个要求

9、表明：t1 和 u1 应尽可能好地代表数据表 X 和 Y,同时,自变量的成分 t1 对因变量的成分 u1 又有很强的解释能力。第六章智能优化算法遗传算法（1）判断：时间复杂度表示当问题规模扩大后，程序需要的时间增加。（错）（正解，当问题规模扩大后，程序需要的时间长度增长得有多快，称为时间复杂度。）（2）填空：组合优化问题数学模型包括哪三个部分？目标函数，约束条件，决策变量。（3）简答：组合优化问题的定义、特点、组成？答：定义：可行解集合为有限点集，只要将 D 中有限个点逐一判别是否满足的约束并比较目标值的大小，就可以得到该问题的最优解。对于组合优化问题，最关心的是如何找到有效的算

10、法求得一个最优解。特点：自组织、自适应和自学习性：在编码方案、适应度函数及遗传算子确定后，算法将利用进化过程中获得的信息自行组织搜索。本质并行性：内在并行性与内含并行性。不需求导：只需目标函数和适应度函数。概率转换规则：强调概率转换规则，而不是确定的转换规则。组成：编码（产生初始种群），适应度函数，遗传算子（选择、交叉、变异），运行参数。（4）名词解释：编码：GA 是通过某种编码机制把对象抽象为由特定符号按一定顺序排成的串。GA 使用二进制串进行编码。名词解释：适应度函数：遗传算法对一个个体（解）的好坏用适应度函数值来评价，适应度函数值越大，解的质量越好。适应度函数是遗传算法进化过程的驱

11、动力，也是进行自然选择的唯一标准，它的设计应结合求解问题本身的要求而定。名词解释：个体适应度评价：在 GA 中，以个体适应度的大小来确定该个体被遗传到下一代的概率。个体适应度越高，被选中的概率越大，要求个体适应度大于定于 0。第七章粒子群优化算法（1）群智能是一种由无智能或简单智能的个体通过任何形式的聚集协同而表现出智能行为。（2）群智能算法主要强调对社会系统中个体之间相互协同作用的模拟。（3）进化算法和群智能算法的相同点和不同点？相同点：不是为了忠实地模拟自然现象，而是利用他们的某些特点去解决实际问题，用的都是概率搜索算法。不同点：进化算法模拟了生物演化中的适者生存，但是群智能算法模

12、拟了社会系统中个体之间相互协同作用。（4）群智能潜在的并行性和分布性的特点为处理大量的以数据库形式存在的数据提供了技术保证。（5）粒子群优化(PSO) 产生背景：复杂适应系统(CAS)和人工生命。（6） CAS 理论：系统中的成员被称为具有适应性的主体，所谓具有适应性，就是指它能够与环境以及其它主体进行交流，在这种交流的过程中“学习”或“积累经验 ”，并且根据学到的经验改变自身的结构和行为方式。整个系统的演变或进化，包括新层次的产生、分化和多样性的出现等等，都是在这个基础上出现的。（7） CAS 的四个基本特点：主体是主动、活的实体；个体与环境（包括个体之间）的相互影响，相互作业，是系统

13、演变和进化的主要动力；这种方法不像许多其他的方法那样，把宏观和微观截然分开，而是把他们有机联系起来；这种缄默方法还引进了随机因素的作用，使它具有更强的描述和表达能。（8）人工生命是来研究具有生命基本特征的人工系统，包括如何利用计算技术研究生物现象和如何利用生物技术研究计算问题。（9） PSO 的基础：同种生物之间的信息的社会共享能够带来好处；基本思想：通过群体中个体之间的协作和信息共享来寻找最优解。（10）v 是粒子的速度，x 是粒子当前位置。每个粒子都有一个由目标函数决定的适应值；每个粒子知道自己到目前为止发现的最好位置(pbest) ；每个粒子知道到目前为止整个群体中所有粒子发现的最好位置(gbest) (gbest 是 pbest 中的最好值)。 Rand()是介于（0，1）之间的随机数；C1 c2 是学习因子，通常取 2；每一维，粒子都有一个最大限制速度，如果某一维的速度超过了设定的值，那么这一维的速度就被限定为 Vmax。（11）引入惯性权重因子。W 为非负数，称为惯性因子。w 值较大，全局寻优能力强，局部寻优能力弱；较小反之。（12）（13）（14）（15）（16）

展开阅读全文

浙江大学生物系统工程-生态系统优化与分析

最新文档