构叶蛋白质的提取与检测.doc

资源描述

《构叶蛋白质的提取与检测.doc》由会员分享，可在线阅读，更多相关《构叶蛋白质的提取与检测.doc（102页珍藏版）》请在金锄头文库上搜索。

1、构叶蛋白质的提取与检测1、相关定义1.1、PPI提取基本概念取任务之前,先介绍下信息提取系统。信息提取系统与信息检索、自动文摘等有实质性的区别,它从指定的文本集中提取用户感兴趣的信息并以一定的格式输出。信息提取系统不仅是查找信息,而且代替用户理解信息。如果仅仅利用信息检索系统并不能完成信息提取目标,信息检索只能找出满足特定查询条件的整篇文档或片段,人们仍然需要阅读找到的文档和片段来获取所需要的信息。此外,信息提取系统与自动文摘相比,是一个受限的信息处理过程, 要按照预先规定的信息模板来提取,因此信息提取更加注重系统的工程性和可操作性。蛋白质相互作用关系及其功能信息的提取是生物学家

2、们非常关心的问题。在生物体内,每个蛋白质不是单独地完成所赋予的功能,它们通常会与细胞中的其他蛋白质相互作用形成一个复合体来完成特定的功能,甚至有些蛋白质的功能只有在形成复合体之后才能显现出来。因此,研究这些相互作用关系和规律之后才能在真正意义上理解蛋白质功能。虽然研究者们已经建立了一些蛋白质相互作用数据库,但大量的有关信息仍然以自然语言文本的形式存在于文献中。蛋白质相互作用关系提取的任务就是实现自动地从生物医学文献中提取出蛋白质相互作用关系,并以结构化形式描述提取出来的信息,然后存储到数据库中供进一步的研究使用。在生物医学领域,实体之间的关系特指一个对象作用于另一个对象的行为,

3、或一个对象与另一个对象之间的从属关系。例如一种蛋白质对另一种蛋白质的抑制行为或一种蛋白质与某个蛋白质家族的从属关系等。目前大部分的生物医学关系提取系统主要是提取特定的命名实体之间的二元关系,例如蛋白质与蛋白质的关系、基因与基因的关系、蛋白质与疾病的关系等。所以,蛋白质关系提取的任务就是从PPI 语料库中提取存在相互作用的蛋白质实体对。以PPI语料库中的句子”We also found another armadillo-protein, p0071, interacted with PSl”为例,句中 p0071 和 PSl 这两个蛋白质实体间存在相互作用关系,蛋白质关系提取系统的任

4、务就是准确理解这种语义并反馈这个事实。 8 t领士学位论文 i/ MASTERS THESIS 2. 2支撑技术完整的蛋白质相互作用信息的挖掘过程应该包括五个模块:语料库预处理模块、蛋白质命名实体识别(Protein Named Entity Recognition)模块、蛋白质相互作用关系提取模块、蛋白质相互作用注释信息提取模块和蛋白质相互作用网络构建及可视化模块,如图232.1所示。目前,大部分研究都集中在命名实体识别和PK提取这两个模块上,本文的研究重点是PPI提取。数据流 “I : ;丽I I 语料:文、?本单元.? ? IH /”?PPI功能注(I 丨一 I 卜-模块

5、 :数据预处理丨化 I接影响到后面PPI提取系统的性能。因此,命名实体识别技术在生物文本挖掘中占据重要的地位。命名实体识别技术的研究起步较早,其在新闻领域的应用中已取得了非常好的效果,准确率可以达到90%以上,几乎接近人工识别的水平。然而,在生物医学领域,生物命名实体识别远没有达到这个水平,原因是生物实体不像新闻领域中的实体具有命名规范(人名)和数量稳定(地名)的特点,它们具有如下命名特征32: 9 额士学位论文 MASTERS THESIS (1)描述性命名习惯:很多生物实体名称具有描述性,由多个单词组成,名字很长,难以确定它的边界。 (2)同一实体多种变体:同一个实体可能有多

6、种书写形式,例如:”immuno “globulin和”immuno-globuli”n指的是同一个蛋白质。另夕卜,有些功能毫不相关的蛋白质可能出现同名的情况。 (3)实体名嵌套:有些实体名字符串可能包含其他生物实体名组成的子串, 例如:”TRKB”和”neurotrophin TRKB “receptor是两个不同的蛋白质实体名,这种情况下也很难确定蛋白质命名实体的边界。 (4)大量缩写形式:很多生物学家喜欢在文章中用缩写来表示生物命名实体,并且缩写方法也没有统一的规范,根据习惯的不同一般有以下两种, 一种是使用蛋白质全称中各单词的首字母组合来表示,这种表示方法会出现不同的生物实体具

7、有相同缩写的问题;另一种是根据单词的音节, 例如蛋白质”irmnunoglobuli”n的缩写就是”Igl”。以上这些命名特征使得生物命名实体识别成为一项具有难度和挑战性的任务。目前,生物命名实体识别方法主要包括以下三种:传统的基于字典的方法、基于规则的方法和基于机器学习的方法。基于字典的方法是最早使用的方法,也是最容易想到和最简单的方法。它采用与字典匹配的方式从文中搜索相同或相似的字符串,从而识别出蛋白质、基因等生物命名实体。Toiri等人33使用生物医学词典来识别蛋白质和基因两类生物实体,其准确率达到了 88.7%。基于字典的方法简单有效,一般都能找到字典范围内的命名实体。

8、然而,近年来生物医学的飞速发展使得字典的更新速度赶不上文献的更新速度,基于字典的方法无法有效地识别新出现的命名实体,方法的有效性依赖字典的规模和质量。基于规则的方法是根据常见的生物实体命名习惯预定义一些规则来匹配文本, 即可识别出生物命名实体。Fuk34uda等人采用词形特征和词性特征的规则库来识别命名实体,系统的综合分类率只有40.7%。基于规则的方法优点是可以根据需要随时添加新的规则进去,但生物实体命名规则多样化,并且不断涌现出新的形式,很难列举出所有的命名规则,这需要花费大量的时间和人力。该方法在产生规则的语料库中效果较好,但可移植性差。另外,有些生物实体(如蛋白质和基因)

9、具有相似的命名规则,虽然利用规则的方法可以简单地确定实体边界,但却难以进一步判断其所属类型。机器学习方法将命名实体识别任务看作词分类问题,其中最重要的一个环节是 10 颂士学位论文 Xy MASTERS THESIS特征选择,常见的特征有词形特征、词典特征、词性特征等。文本中的每个词都用这些特征组成的特征向量来表示,然后用分类器来学习。Li等人16将识别任务分为命名实体边界检测和命名实体分类两个子任务,两个子任务都采用了条件随机域 (CRF)方法,其准确率达到了 74.31%。机器学习方法的优势在于不仅可以发现字典中未包含的实体,而且能够通过上下文语境更准确地判断实体所属类型。但是

10、, 该方法的有效性很大程度上依赖训练语料库的规模和质量,以及特征值的选取。总体而言,机器学习方法是目前生物命名实体识别的主流方法。以上几种方法都各有优缺点,现在很多研究都将这三种方法进行一定程度的整合来提高识别性能。虽然本文实验所使用的语料库已将蛋白质实体名做了标注,不需要蛋白质命名实体识别这个步骤,但生物命名实体识别的好坏将从根本上影响 PPI提取系统的性能。 2. 3相关资源及工具 1.2、相似性定义心理学家认为相似性是存在于两个对象之间的一种关系,是一种心理反应。目前对它的形 32 成机理还不能确定,因此心理学和人工智能的相关研究对相似性并没有严格的定义。相似性的含义往往通过

11、两个方面来确定,一是通过与其他类似关系的区别来确定,二是通过相似性所具有的特征来确定。相关关系是与相似性最难区分的关系。Resnik44用轿车、自行车、汽油的事例对这两者之间存在的区别进行了解释。 “轿车依赖于汽油作为燃料,显然它们之间的相关性比轿车与自行车更为紧密,但人却普遍认为轿车与自行车之间的相似性大于轿车与汽油。这个例子说明,相关性不能等同于相似性。即使轿车与汽油是紧密相关的,但由于这两者之间没有共同的特性,人们也不会认为它们是相似的。而轿车和自行车都是交通工具,都有轮子并且可以载人,因此它们是相似的。” 从这段话的描述中,可以看出,如果两个对象之间存在相似性,那么这两个对

12、象之间必然有共同的特征和性质。如果说相关性与相似性之间是互斥的关系,也是不成立的,Resnik 认为, 相似性可以被认为是一种特殊的相关性:对象间基于蕴涵关系的相关性。对象间的相似性常常用对象间的语义距离来度量,两个对象间的语义距离越小,相似性就越大。 Lin 于 1998 年在基于信息学理论的基础上给出了相似性的直觉定义45。这一直觉定义从对象之间的共同点和差异性角度出发,考察两个对象之间的相似性。如果两个对象之间的共同点越多,那么它们的相似性就越大;如果两个对象之间的差异点越多,那么它们的相似性就越小; 如果两个对象之间只存在共同点,那么它们之间的相似性最大;如果两个对象之间只有

13、差异点, 那么它们之间的的相似性最小。从 Lin 对直觉的定义可以看出,相似性成立的关键是两个对象间有共同点,没有了共同点相似性也就不存在了,而两个对象间相似性的大小可以通过差异性来反映,差异性可以作为相似性的补充。 1.3、大豆多肽的概念肽peptide是 -氨基酸以肽链连接在一起而形成的化合物,它也是蛋白质水解的中间产物11。由两个氨基酸分子脱水缩合而成的化合物叫做二肽,同理类推还有三肽、四肽、五肽等。通常由 10100 氨基酸分子脱水缩合而成的化合物叫多肽。它们的分子量低于 10000Da(Dalton 道尔顿),能透过半透膜,不被三氯乙酸及硫酸铵所沉淀。也有文献把由 1

14、0 以下个氨基酸以下组成的肽称为寡肽(小分子肽);1050 个氨基酸组成的肽称为多肽;由 50 个以上的氨基酸组成的肽就称为蛋白质。多肽没有严密并且相对稳定的空间结构,即其空间结构易变,具有可塑性,蛋白质分子则具有相对严密,比较稳定的空间结构,多肽和蛋白质都是氨基酸多聚缩合物,而多肽也是蛋白质不完全水解的产物。大豆多肽又叫大豆肽,即”肽基大豆蛋白水解物”的简称,是一种生物活性肽,是大豆蛋白质经酸、碱、蛋白酶作用,再经特殊处理而得到的蛋白质水解产物。大豆多肽的必需氨基酸组成与大豆蛋白质完全一样,含量丰富而平衡,且多肽化合物易被人体消化吸收,并具有防病,治病,调节人体生理机能的作用

15、,大豆多肽是极具潜力的一种功能性食品基料,已逐渐成为 21 世纪的健康食品。 7 西安科技大学硕士学位论文 1.4、本体的概念提取流程本体的概念语义主要隐含在数据库的实体关系表表名中。然而由于关系数据库表分为实体表和关联表,并且可能出现多个实体关系表表示的同一个实体、或者不同关系表之间具有层次关系的情形,因此,不可以把每个关系表一一对应的生成本体概念。本体概念的提取工作主要根据3.4.1节和3.4.4节的讨论,从以下三个方面入手: 1) 从多个需要合并生成概念的实体关系表中提取一个共同的概念; 2) 从其他不需要合并生成概念的实体关系表中提取概念; 3) 从具有层次关系的实体关系表中

16、提取具有层次关系的子概念。华南理工大学硕士学位论文 36 图4-2 从关系表提取概念的总流程图图4-2描述了从关系数据库表提取概念的处理流程,得到以下流程4-1: Tables=所有被待处理的数据库表; while(tables 未遍历完) A=tables 的下一个表; if(表 A 未生成过本体类) efkeys=表 A 的所有导出外键; pkeys= 表 A 的所有主键; if(efkeys 的数量大于 0) 进入多个表合并生成类及具生成具有层次关系的类的处理过程,即图4_3_1中的”X” 节点,详细处理过程将在流程4-2中说明,流程4-2执行完毕将会从”Z” 节点返回。 else 进入根据实体关系表生成类的处理流程,即图4-2中的”Y”节点,详细处理过程将在流程4-3中说明,流程4-3将会从”Z”节点返回。流程4-1 从关系表提取概念的总流程 1.5、提取与匹配相关概念 3.1.1 特征信息类型3.1.1 特征信

展开阅读全文