模式识别4次作业汇总

资源描述

《模式识别4次作业汇总》由会员分享，可在线阅读，更多相关《模式识别4次作业汇总（34页珍藏版）》请在金锄头文库上搜索。

1、北京工商大学模式识别作业汇总（2014年秋季学期）课程名称：模式识别专业班级：计研141班学生姓名：董文菲刘倩指导教师：于重重成绩：2015年1月20日第一次课的作业1. 在Matlab 环境下，利用第一题中给了matlab程序，尝试声音识别过程，并把程序流程图画出。解：程序实现了识别“kiss”与“love”两个声音的界面图。程序流程图如下：2. 运行网址上的java applet ，了解声音识别的过程。解：智能对话系统的测试点如下图所示，该智能对话系统可以通过语音交互获取信息，控制娱乐设备等智能应用。情感识别的构成如下图：情感识别依赖于先进的音频参数化技术，利用高斯混合模型训

2、练情绪识别模型。目前负面情绪的识别得到了很好的结果。3. 选择鸢尾花数据集（iris，网上下载），并尽可能多地使用数据挖掘导论第三章介绍的不同的可视化技术完成数据预处理（可参看第三章资料中的辅助ppt），形成报告。文献注释和该书网站提供了可视化软件的线索。解：（1）分类选择朴素贝叶斯分类器算法，训练选项选择交叉验证，即把数据集分成若干份，1份作为验证集，其余部分作为训练集合。这样的方法保证了数据集的所有元素都被验证过。这里把数据集分为10份来进行训练。分类器运行的信息，分类器训练的结果，分类器验证验证的结果、准确性计算等信息如下：Visualize信息图，3种类别用不同颜色表示出来。可以从图

3、中看出哪些属性的组合具有较好的区分度。（2）离散化(discretize):类weka.filters.supervised.attribute.Discretize和weka.filters.unsupervised.attribute.Discretize。分别进行监督和无监督的数值属性的离散化，用来离散数据集中的一些数值属性到分类属性。:（3）规范化(Nomalize):类weka.filters.unsupervised.attribute.Normalize。规范化给定数据集中的所有数值属性值，类属性除外。结果值默认在区间0,1，但是利用缩放和平移参数，我们能将数值属性值规范到任

4、何区间。如：但scale=2.0，translation=-1.0时，你能将属性值规范到区间-1,+1。（4）标准化(standardize)：类weka.filters.unsupervised.attribute.Standardize。标准化给定数据集中所有数值属性的值到一个0均值和单位方差的正态分布。第二次课的作业请查一下这里列出来的所有方法，并用实例实现（并在软件中实施一下，任何软件环境都可以。）1. 解：属性有四种类型：标称、序数、区间、比率。其中标称和序数属性统称分类的或定性的。区间和比率是数值的或定量的。1）众数一组数据中出现次数最多的数据就是这组数据的众数。2）x2检验

5、亦称卡方检验。统计学中假设检验的方式之一。x是一个希腊字母，x2可读音为卡方，所以译为卡方检验。卡方检验主要用于定类或定序变量的假设检验，在社会统计中应用非常广泛。卡方检验的步骤一般为：（1）建立假设，确定显著水平a与自由度df、查x2值表得到否定域的临界值；（2）由样本资料计算x2值；（3）将计算所得的x2值与临界x2值（负值都取绝对值）作比较，若计算值大于临界值，则否定0；反之，则承认0。计算卡方值的公式一般可表示为：x2=（fofc）2/fc 式中：fo表示实际所得的次数，fc表示由假设而定的理论次数，为加总符号。 x2检验对于定类与定类或定类与定序变量之间的相关检验应用较多。例：用卡

6、方检验拟合优度：h,p,st = chi2gof(bins,ctrs,bins,.frequency,obsCounts, .expected,expCounts)bin：有n组数值则:bin=0:（n-1）；obsCounts：观测值expCounts：期望值h,p,st：返回值3）符号检验符号检验法：是通过两个相关样本的每对数据之差的符号进行检验，从而比较两个样本的显著性。具体地讲，若两个样本差异不显著，正差值与负差值的个数应大致各占一半。符号检验与参数检验中相关样本显著性t检验相对应，当资料不满足参数检验条件时，可采用此法来检验两相关样本的差异显著性。根据符号检验判断差异显著性时也要查表

7、找出相应的临界值。但特别应注意的是在某一显著性水平下，实得的r值大于表中r的临界值时，表示差异不显著，这一点与参数检验时的统计量和临界值的判断结果不同。4）均值 M = mean(A) 返回沿数组中不同维的元素的平均值。如果A是一个向量，mean(A)返回A中元素的平均值。如果A是一个矩阵，mean(A)将中的各列视为向量，把矩阵中的每列看成一个向量，返回一个包含每一列所有元素的平均值的行向量。如果A是一个多元数组，mean(A)将数组中第一个非单一维的值看成一个向量，返回每个向量的平均值。例：5）标准差（Standard Deviation）在概率统计中最常使用作为统计分布程度（sta

8、tistical dispersion）上的测量。标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。标准差也被称为标准偏差，或者实验标准差，公式为：6）皮尔逊相关皮尔逊相关系数是一种度量两个变量间相关程度的方法。它是一个介于 1 和 -1 之间的值，其中，1 表示变量完全正相关， 0 表示无关，-1 表示完全负相关。7）几何平均数几何平均数是求一组数值的平均数的方法中的一种。适用于对比率数据的平均，并主要用于计算数据平均增长（变化）率。n个观察值连乘积的n次方根就是几何平均数。根据资料的条件不同，几何平均数分为加权和不加权之分。设一组数据为X1，X2，.，Xn，且大于

9、0，则几何平均数Xg为：Xg=xi，i=1,2,.,n8）算数平均算术平均数是加权平均数的一种特殊形式（特殊在各项的权重相等）。在实际问题中，当各项权重不相等时，计算平均数时就要采用加权平均数；当各项权相等时，计算平均数就要采用算数平均数。9）调和平均调和平均数（Harmonic Average）又称倒数平均数，是总体各统计变量倒数的算术平均数的倒数。简单调和平均数是算术平均数的变形，它的计算公式如下：2. 以Dimensionality Reduction为关键词，做一个简单的文献综述（1000-1500字），总结一下你理解的最近常用的Dimensionality Reduction。

10、数据降维方法综述在科学研究和工程实际中，很多大数据集具有高维数的特点。如：图像分析，计算机视觉，地震属性，三维模型的分类与检索等。这些丰富的数据资源在给人们带来便利的同时也带来了一大堆的难题，例如信息过量、难以处理、有价值的信息淹没在海量数据中、数据难以取舍等等。因此，如何对这些丰富的数据资源进行有效的分析，挖掘出数据中蕴含的有用信息己经成为目前的研究者和技术专家所面临的共挑战。为了解决这一问题，可以首先将数据降到低维空间，然后利用得到的低维特征进行既定的学习或者挖掘任务。有效的数据降维技术(DimensionalityReduction)能够探索出原始数据的内在结构和联系，不仅可以消除

11、数据间的冗余，以简化数据，提高计算效率，还能够大大改善数据的可理解性，提高学习算法的精度。数据降维的方法可以分为线性降维技术和非线性降维技术。线性降维技术通常假设数据集采样自一个全局线性的高维空间，即构成数据的各变量之间是独立无关的。如果所面临的数据确实具有全局线性的结构，或者在一定程度上可以近似为全局线性时，这些方法能够有效地学习出其线性结构，得到数据紧致的低维表示。常用的比如主成分分析（PCA: Principle Component Analysis），独立成分分析（ICA: Independent Component Analysis ），线性判别分析（LDA: Linear Dis

12、criminant Analysis ）。其它如因子分析，多维尺度变换、典型相关分析等。然而在现实中所获取的许多数据其各个属性间常常是强相关的，呈现出高度的非线性，例如文本数据、图像数据、语音数据以及视频数据等。这些数据都具有难以获知的复杂结构，此时，采用线性方法就无法得到理想的效果。为了解决这一问题，也提出了许多非线性降维算法。如基于核思想的降维方法：核主成分分析（KPCA），核独立成分分析（KICA），核FISHER判别分析（KFDA）。另如基于流形学习的方法：局部线性嵌入（LLE），等距映射（ISOMAP）。阅读文献比较中发现现有降维方法存在以下有待解决的问题:1、现有的非线性降维方

13、法对于个别的人造数据效果很好,但对于现实数据往往并不优于传统的线性方法,因而要进一步研究这些非线性降维方法使其得到最大程度的改进；2、流形学习的提出为数据降维提供了非常有利的框架,但它们大多为局部方法,局部方法的一个很大的缺陷就是受噪声影响大,如何减少噪声的干扰、提高算法的鲁棒性一直以来都是研究的方向；3、现有降维方法不具有增值能力,对动态增加的观测数据点不能快速明确地映射到低维空间,学习改进增量算法具有一定的研究价值。3. 特征子集选择和特征生成的方法是否一样？你说说你的理解解：不一样。（1）特征生成是选择事物所特有的性质。特征生成的思路如下：时域、频域、时频联合相关系数、FFT、DC

14、T、Wavelet、Gabor 统计、结构、混合直方图、属性关系图底层、中层、高层颜色、形状、纹理、梯度、语义模型 ARMA、LPC（2）特征选择也叫特征子集选择 ( FSS , Feature Subset Selection ) ，是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化，是从原始特征中选择出一些最有效特征以降低数据集维度的过程。特征子集产生过程是搜索特征子空间的过程。搜索的算法分为完全搜索(Complete)，启发式搜索(Heuristic)，随机搜索(Random) 3大类，如下图1所示。图1 特征子集产生过程算法分类图4. 完成对Bru

15、te-force approch算法的简单实现，并找到一种改方法的改进算法，给出流程，重点说明改进后算法的优点。解：Brute-Force算法的基本思想是：（1) 从目标串s 的第一个字符起和模式串t的第一个字符进行比较，若相等，则继续逐个比较后续字符，否则从串s 的第二个字符起再重新和串t进行比较。（2) 依此类推，直至串t 中的每个字符依次和串s的一个连续的字符序列相等，则称模式匹配成功，此时串t的第一个字符在串s 中的位置就是t 在s中的位置，否则模式匹配不成功。Brute-Force算法的C语言实现：#include stdafx.h#include #include stdlib.h#include using namespace std; /宏定义 #define TR

展开阅读全文