基于多数据域描述转录因子结合位点识别

上传人:xiao****1972 文档编号:116570405 上传时间:2019-11-16 格式:DOC 页数:7 大小:608KB
返回 下载 相关 举报
基于多数据域描述转录因子结合位点识别_第1页
第1页 / 共7页
基于多数据域描述转录因子结合位点识别_第2页
第2页 / 共7页
基于多数据域描述转录因子结合位点识别_第3页
第3页 / 共7页
基于多数据域描述转录因子结合位点识别_第4页
第4页 / 共7页
基于多数据域描述转录因子结合位点识别_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《基于多数据域描述转录因子结合位点识别》由会员分享,可在线阅读,更多相关《基于多数据域描述转录因子结合位点识别(7页珍藏版)》请在金锄头文库上搜索。

1、基于多数据域描述的转录因子结合位点识别基于多数据域描述的转录因子结合位点识别 陈鸣 薛慧君 2 熊赟 朱扬勇1 (复旦大学计算机科学技术学院 上海 200433) (内蒙古电子信息职业技术学院计算机科学系 呼和浩特 010011) 摘 要转录因子结合位点的识别对于理解转录调控机制起着重要作用,也是后基因组时代面临的巨大挑战之一。本文提出了一 个基于多任务学习的转录因子位点的识别方法。首先,建立了一个基于多任务学习理论的多数据域描述模型,然后,结合核方法设 计转录因子结合位点多分类识别算法。最后,对取自于 TRANSFAC 数据库的真实数据进行交叉验证测试,。实验结果表明该方法 能充分地利用稀缺

2、的训练样本,有效地捕获不用同类别间的联系,从而获得了较高的预测准确率。 关键词多任务学习 转录因子结合位点 多数据域描述 核方法 Transcription Factor Binding Sites Recognition by Multiple Data Domain Description Chen Ming1 Xue Huijun2 XiongYun YunXiong1 Zhu Yangyong1 1(School of Computer Science, Fudan University, Shanghai 200433,China) 2(Department of Computer

3、Science, Inner Mongolia Electronic Information Vocational Technical College, Hohhot 010011,China) AbstractThis paper presents a multi-task learning approach to the problem of Transcription Factor Binding Sites (TFBS) recognition. Firstly, a new multiple data domain description model was established;

4、 it was theoretically founded on the new kernel-based multi-task learning formulation of learning multiple tasks simultaneously in order to capture shared structures among tasks. Then, the model was naturally cast to the case of TFBS recognition with kernel methods. Finally, real data set was retrie

5、ved from TRANSFAC database to validate the effectiveness of the proposed method. The experimental result indicated that our multi-task learning approach can significantly improve the prediction accuracy by virtue of using training examples from multiple classes as a whole and meanwhile capturing the

6、ir inter- class relatedness. KeywordsMulti-task Learning Transcription Factor Binding Sites Multiple Data Domain Description Kernel Methods 0 引引 言言 在分子生物学领域,理解转录调控机制是后基因组时代重 大挑战之一。达到这一目标的重要步骤是转录因子结合位点 (Transcription Factor Binding Sites: TFBS)的识别。转录因子 结合位点是基因上游启动子区域长度为 515bp 的短序列片段, 被转录因子结合以调控下游基因。通

7、过生物学试验检测 TFBS 的方法由于开销大、耗时长等缺点,不适合处理海量数据。因 此,越来越多的计算识别方法被提出用于初选待测位点。通常 情况下,一个转录因子结合位点可以被一个或多个转录因子结 合,而相关研究表明这种结合具有较高的特异性。因此,在计 算分子生物学领域,TFBS 的识别问题可看作是视为一个多类 别模式分类问题,即给定一个未知样本,判定它可能被那一类 或哪几类转录因子结合。 模式分类的方法有很多种,常见的有支持向量机(Support Vector Machine, SVM)、人工神经网络、贝叶斯分类器、最近 邻法等。其中目前,基于核方法和正则化理论的机器学习分类 算法是最常用的方

8、法之一,也是统计学习理论 (Statistical learning theory: SLT) 的核心内容1,2。SVM 作为经典的分类算 法,基于 VC 维理论和结构风险最小化原理,克服了传统机器 学习分类算法维度数灾难,、陷入局部最优解,、过拟合等缺 陷,对未知样本具有良好的泛化性能,。因此,SVM 被广泛 应用于模式识别、文本分类、生物信息学、信息安全等诸多领 域。 传统 SVM 主要用于解决二分类问题。近年来提出的多分 类 SVM 作为原始 SVM 的扩展,是将多分类问题分解为多个 两分类问题,忽略了类别间的联系近几年来被研究者相继提出。 其中最常见的两种模型是“一对一”(one-vs

9、-one)1和“一 对多”(one-vs-all)4,其本质是构建多个两类的 SVM 分类 器。特点是可以直接利用传统二分类 SVM,但没有从样本集 整体考虑,而是采用分而治之的策略将多分类问题分解为多个 两分类问题,忽略了类别间的联系。其中,“一对多”one-vs- all 策略采用了一个正负类不平衡的训练集,建立的每个二分 类器负样本数远大于正样本。另外,现有的多分类 SVM 不适 用于只包含正样本集的情况。,比如,而 TFBS 负样本无法 通过生物学试验获得,也无法通过一个有效的方法构造出一个 能确保不会被任何转录因子结合的 TFBS 样本集集无法构造。 因此因此,利用现有的多分类 SV

10、M 处理 TFBS 识别问题并不 收稿日期:201005-017-0615。国家自然基金项目(60903075),上海市重 点学科项目(B114)。陈鸣,硕士生,主研领域:机器学习,生物信息学。 恰当,这就需要设计一个能直接用于多类样本集的多分类器。 基于正则化理论建立的分类器的结构风险通常由两部分控 制:经验风险(训练误差)和置信界。以二分类问题为例,一 个规范超平面构成的指示函数集 (1)( )sgn()h xw xb 的 VC 维 h 满足 ,(2) 22 min(, )1hR An 其中,为符号函数,为向量空间的维数,为覆sgn nR 盖样本向量的超球半径,。通过式(2)式不难发现,|

11、wA 一定程度上减小,能使 VC 维的上界减小,从而降低学 2 Rh 习机的复杂性,以提高预测函数的泛化能力。减小覆盖样本的 超球半径R,就是本文论及的多这正是数据域描述模型的一 个基本思想。数据集的域描述数据域描述的根本任务是对数据 集所在的类别进行描述,拒绝可能来自其他类的数据9,10。本 文在最新的多任务学习理论基础上将数据域描述问题拓展到多 类的情况,建立一个多数据域描述模型,并用于解决 TFBS 识 别问题,从整体上对来自所有类别的样本同时学习,在充分学 习每类样本的同时捕获类别之间的联系。 传统二分类 SVM 采用的 hinge 损失函数对孤立点和噪声 都是较敏感的,即对离群点不具

12、有鲁棒性。若能利用训练点的 先验不确定信息降低噪声,不失为一种有效的解决途径。本文 建立的模型允许处理这种带有不确定信息的样本,方法是根据 他训练样本它们的置信度不同,在惩罚项中引入模糊成员函数 以区别对待,对置信度大的样本给予充分重视,相反(很可能 是噪声点)则限制其作用。 基于核方法和正则化理论的机器学习算法的核心问题是核 函数的选择问题,因其很大程度上影响这是由于建立的分类器 的性能很大程度上取决于选择的核函数。先前基于核方法的生 物实体识别算法通常采用 0-1 编码的多项式核,将生物序列显 式映射到一个高维特征空间(通常是一个 Hilbert 空间),计 算特征向量的内积。然而,对于显

13、然不适合长度不规则的生物 序列片段,这种方法不能有效地度量序列之间的相似性。本文 中,我们采用基于编辑距离的字符串核来度量 TFBS 之间的相 似性,以更好地比较序列间的相似性。实验表明在采用相同的 分类算法时,其预测准确率比 0-1 编码的多项式核有显著提高。 1文章的大致结构如下:第一节介绍相关工作。;第 2 节简单回顾基于 SLT 和核方法的多任务学习理论框架,并给 出相关的记号和定义。;第 3 节提出一个多数据域描述模型, 并用于解决转录因子结合位点的识别问题。;第 4 节在真实数 据集上测试该方法的有效性。;最后,对研究工作进行总结并 指出进一步工作。 1 1相关工作相关工作 目前在

14、计算分子生物学领域,采用机器学习方法进行常见 的 TFBS 识别方法是通过从海量基因序列中寻找超频词(over- represented N-mers)来发现特定模式。代表性的主要有算法有 两种途径。一种是基于无监督学习的 TFBS 发现方法(TFBS discovery),代表性算法有 MEME27、Gibbs sampling28。, 实通过从海量基因序列中寻找超频词(over-represented N- mers)来发现特定模式。实验表明对于位点进化较保守的物种 (如酵母、果蝇等)该方法有很好的识别效果,而对于位点进 化相对不保守的脊椎动物(如人、大鼠、小鼠等),效果通常 不尽人意29

15、。另一种是基于有监督学习的 TFBS 识别算法 (TFBS identification),通过对相关生物数据库中的已知位点 样本进行学习并得出分类模型,从待测基因序列中识别 TFBS。通常采用支持向量机、人工神经网络等机器学习分类 机器学习分类算法算法。文献11提出了基于数据域描述的一 类 SVM (One-Class SVM: OSVM)用于高维分布区域估计,也 即用来描述样本集中大多数数据所在的高维特征空间区域。文 献12采用 OSVM 对 TRANSFAC 数据库26中的转录因子结合 位点数据进行训练,得到相应的数据域描述后用于顺势调控元 件判别。该方法直接利用已有 OSVM 分别对每

16、类数据进行建 模,而没有从整个数据集出发,考虑不同类转录因子之间的联 系。另外,采用,由于对生物序列进行了 0-1 编码的核函数, 不适合长度不规则的 TFBS 序列片段。为弥补上述缺点,本文 设计一个新的多分类器结合字符串核设计 TFBS 识别算法。 采用 SVM 进行多分类在计算分子生物学中有广泛的应用。 例如,文献3结合 SVM 和 ECOC 算法实现了转录因子的四分 类问题。通过构建 4 个二分类 SVM 对各个类别的转录因子独 立地进行训练和分类,然后对分类结果进行综合判别,好处是 能够直接利用现有的二分类 SVM,缺点是不能对整个数据集 同时学习,未考虑类间联系。近年来,多任务学习已成为机器 学习领域的一个研究热点。Evgeniou 和 Micchelli 提出了一个 基于统计学习 SLT 和函数正则化的多任务学习理论框架16,17, 通过新的正则化因子对不同的任务同时学习,捕获类间联系。 类似地,本文在此基础上建立一个基于 SLT 统计学习和正则 化理论的多数据域描述模型并用于解决

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号