基于图的半监督学习及其应用研究

上传人:xins****2008 文档编号:105072144 上传时间:2019-10-11 格式:DOC 页数:138 大小:25.03MB
返回 下载 相关 举报
基于图的半监督学习及其应用研究_第1页
第1页 / 共138页
基于图的半监督学习及其应用研究_第2页
第2页 / 共138页
基于图的半监督学习及其应用研究_第3页
第3页 / 共138页
基于图的半监督学习及其应用研究_第4页
第4页 / 共138页
基于图的半监督学习及其应用研究_第5页
第5页 / 共138页
点击查看更多>>
资源描述

《基于图的半监督学习及其应用研究》由会员分享,可在线阅读,更多相关《基于图的半监督学习及其应用研究(138页珍藏版)》请在金锄头文库上搜索。

1、 浙江大学博士学位论文基于图的半监督学习及其应用研究姓名:潘俊申请学位级别:博士专业:计算机科学与技术指导教师:孔繁胜201106 浙江大学博士学位论文要关注。其中,基于图的半监督学方法由于能同时利用部分有标记样本和大量无有一定的宽泛性,可通过选择不同的损失项和正则化项,推广到其他半监督分类算法的改进作为该框架的一种具体实现,提出了局部敏感的判另蓖蒲方法,该方法在正则化框架中同时引入了有助于分类的样本局部结构信息和判别信息,从而最大程度地利用样本内蕴信息,能在每个局部邻域中进一步最大化类间样本的间隔。造成对约束信息的缸最近邻集并扩充成对约束集,分析成对约束实例包含的信息量并构造权系数矩阵,在加

2、权成对约束信息的指导下求得投影矩阵,通过投影矩阵将样本数据投影到低维空间,使类内各点紧密分布,类间各点分散分布同时,该方法通过一种新的评价函数对舡均值聚类算法进行了改进,能够在尽量不违反成对约束的情况下优化聚类性能选择算法在处理高维数据问题时存在的一些不足,通过引入以成对约束形式表现的监督信息,并借助流形学习的思想,提出一种能同时保持样本空间结构和监督信息的半监督特征选择方法该方法同时考虑样本的局部和非局结构,融合成对约束信息,定义了一种新的特征评价准则结构约束保持分结构 浙江大学博士学位论文 瑃 籺, 住譬瓸, 甌甌琣甌瓵 甌簊, 浙江大学博士学位论文目图近邻图参数牟煌刀訪分类精度的影响图菁

3、心掣鋈说枷瘢籃数据集中某个人的幅图像。图五种算法在不同约束数量下在諹数据集上的聚类性能比较图 图五种算法在不同规模特征子集下在諹数据集上的识别精度 图反射型图四种算法在菁系亩员仁笛榻峁 浙江大学博士学位论文目表五种算法在人脸数据集上的识别率 引言纠睯正是起源于人工智能领域的研究。样,学习目标是构造一个学习机器惴,使得是的一个近似 模型【。空间,用】,表示输出空间,对于两类分类问题,对于多类分类问题,置五畂莆R驯昙茄的标记巧簦已知,剩余样本函数执行时得到的分值大于还是小于这个阈值,来确定样本的类别归属,辠, 浙江大学博士学位论文全部已知,即当九时,此时对决策函数的学习称为监督学习标记全部未知,即

4、当,时,此时的学习称为无监督学习 直推学习在学习过程中已知需预测的样本即是未标记样本,目标就是提高对预测样本的标记精度。上面的四种学习方式中,无监督学习没有利用有标记样本,而监督学习仅仅利用少量的已标记样本,显然,这两种学方式得到的模型的泛化能力很难保证而且,如果弃大量获取容易的未标记样本不用,仅使用代价昂贵的已标记样本,显然没有充分利用现有的信息正因如此,机器学习的研究者越来越关注在已标记样本较少的现实情况下,如何充分利用未标记样本来有效提高学习精度的问题。样本的学习的效果,但两者的基本思想有很大不同,半监督学习的最终目标是要给出测试集比的标记,而直推学习通常只需给出未标记样本集以的标记换句

5、话说。在半监督学习方法中,要预测的样本当时是未知的,因而是个开放的模 图归纳、演绎、直推的关系基于图的半监督学习末,当时等人】指出未标记样本将有助于提高机器学习的效率但是,上半监督学习在机器学习领域属于一个年轻的研究方向 浙江大学博士学位论文的结合【爰喽窖暗木劾嗉偕璧南允绞泶铩緇,基于半监督学的特征抽取【】等记应尽量相同。而不能为零类,这样,分类超平面就落入了样本分布较为稀疏的区域;来描述,如眼的角度和头的方向,这隐含了神经元群体活动性是由其内在的低维物学解释,人们由此提出了流形学习假设 浙江大学博士学位论文低维的流形上,沿着流形相近的样本点的类别相同。根据流形假设,处于一个很小的局部邻域内的

6、样本具有相似的性质。半监督学习采用流形假设是很自然的事情在现有的研究中, 甖等人【】提出了基下面我们就介绍一下基于图的半监督学习的实质、研究现状以及存在的一些问题标记样本辛礁鲋睾洗剩虼丝梢越恼露槲L逵啵晃恼旅胛恼露已 重合淤词图学习的示例粗卮蚀势捣掷害体操 熏合诃提出了基于图的半监督学习,即用图来刻画流形的结构例如,在上面的文本分所有的已标记样本点五和未标记样本点咒,边集合械脑K豦。连接两个顶点信息,如图所示 浙江大学博士学位论文内的任意两个样本点之间构建边,或者通过七一最近邻图来构建边,但不管是用图娌裳曲面上的虹最近邻图 基于图的半监督分类:通常,基于图的半监督分类方法是求解一个关于图的的分

7、类也应相近。例如,文献【】将半监督分类看作一个图的最小分割作用第二项是正则化项,保证相邻样本之间的标记尽量相似。最小分割法是一,恢,籪其中,第二项正则化项可以通过图拉普拉斯矩阵计算,设矽是图的甩力阶项可表示为,葺怀厂喙亟徊教致畚颐窃诘章的节给出最小分割法和调和函数法不允许违反已标记样本的类别,是一种硬分类琇,允许对失函数项和正则化项的贡献,相应的优化问题为 浙江大学博士学位论文谱图聚类:谱图聚类的思想来源于谱图划分,它将样本聚类问题看成是一个无向图的多路划分问题,即用矽表示待聚类样本点的相似矩阵,定义一个图划分的判据,最优化这一判据,使得同一类内的点具有较高的相似性,不同类之问的点具有较低的相

8、似性但是,求图划分判据的最优解是一个难的问题,一个有效的求解方法是考虑问题的连续松弛形式,将原问题转换为求解相似矩阵的特征向量卣笃追治隼砺,从而将这类方法统称为谱聚类方法,有时可以认为,谱方法是对图划分判据的逼近。大切【】等矩阵不同;褂玫木卣筇卣飨蛄坎煌从特征向量获得最终的聚类方法输簉个样本点乙,聚类个数是构造矩阵佗卅佗,其中;求那捌吒鲎畲筇卣髦刀杂奶卣飨蛄縶毛,构造矩阵【,心,俊蔙耐,其中为列向量;规范化矿的行向量,得到矩阵渲戌,曙;将拿恳恍锌闯墒荝空间内的一点,使用缸均值或其他算法将其聚如果】,的第惺菔堑赺,类,则将原样本点毛也划分到第歹类。 浙江大学博士学位论文侍狻引,即当问题的维数不断

9、增加时,为了保证分类器的泛化性能,所需的训练样本数需呈指数增加。特别是,如果维数过高,甚至也就是说,随着问题维数淞渴蛱卣魇的增加,为保证分类器仍能获得良好的性能,样本数需呈指数增加,从而最终影响分类算法的泛化性能降维是进行特征抽取,从而降低数据复杂度【】的重要技术之一,在很大程度上能够避免或降低维数灾难带来的风险,并使得后续的分类、聚类等学习任务具有更高的效率和更优的泛化性能从广义上讲,甚至可以认为降维自然涵盖了分类和聚维来发现高维数据的低本属于第七类,则,否则甹是嵌入到低维空间后的向量,其中, 浙江大学博士学位论文绪论了样本空间的局部结构,其优化问题可表示为 图三幅人脸图像的空间位置关系一个

10、完备问题,先验信息越多,半监督学习方法的复杂性越高,性能不一定更好。因此,对现有先验信息进行挖掘,得到适合半监督学习的先验信息非常关键。其目的是获得高维数据的有效低维描述。特征抽取选择都是最重要最常见的降维方法。主成分分析,坚实的理论为基础,简单且执行效率高,在许多实际问题中得到成功应用,缺点是忽视数据内在的局部结构,不适用于非线性问题。近年来,人们提出了以局部琇为代表的一系列局部型的降据集上缤腟 浙江大学博士学位论文主要工作及内容安排进,能够在尽量不违反成对约束的情况下优化聚类性能。 浙江大学博士学位论文第四章,局部保持的半监督判别学习本章提出了融合局部几何结构和全局判别结构的正则化框架,作

11、为一种具体的实现,进一步提出了一种局部敏感的判别直推学习方法,给出了算法的详细步骤,并通过数值实验给出了分析结果第五章,集成降维与聚类的半监督学习本章提出了利用监督信息来集成降维与聚类的半监督学习方法,该算法充分挖掘成对约束所隐含的信息,来指导数据降维和数据聚类,一方面解决了高维数据的处理问题,另一方面有效利用监督信息来提高聚类性能 淅江大学博士学位论文本文各章节的组织结构如图所示:上第二章图学习的常用方法和基本理论图本文各章节的组织结构 引言在半监督学习中,如何利用耒标记数据来提高学习效果是一个关键问题,其中基于图的学习是半监督学习中一个非常活跃的研究领域正则化技术、核方法与谱图理论是图学习的基本理论和常用方法:半监督学习往往是一个不适定的逆问题,需要通过正则化技术对学习过程加以限制,其中支持向量机是众多正则化技术中具有代表性的一种核方法通过把样本映射到高维特征空闻,从而增加了传统的线性学习方法的计算能力。谱图理论则在一定程度上阐明了利用图上的特征量来描述流形特征的合理性,即在数据分布均

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号