生物医学文本挖掘目前研究工作综述

上传人:飞*** 文档编号:52256167 上传时间:2018-08-19 格式:PPT 页数:61 大小:830.50KB
返回 下载 相关 举报
生物医学文本挖掘目前研究工作综述_第1页
第1页 / 共61页
生物医学文本挖掘目前研究工作综述_第2页
第2页 / 共61页
生物医学文本挖掘目前研究工作综述_第3页
第3页 / 共61页
生物医学文本挖掘目前研究工作综述_第4页
第4页 / 共61页
生物医学文本挖掘目前研究工作综述_第5页
第5页 / 共61页
点击查看更多>>
资源描述

《生物医学文本挖掘目前研究工作综述》由会员分享,可在线阅读,更多相关《生物医学文本挖掘目前研究工作综述(61页珍藏版)》请在金锄头文库上搜索。

1、生物医学文本挖掘目前研究工作生物医学文本挖掘目前研究工作 综述综述A survey of current work in biomedical text miningAaron M. Cohen, MD is a postdoctoral fellow in the medical informatics programme at OHSU. Dr Cohen works in the area of text mining, focusing on issues and applications important to biomedical researchers. He was chai

2、rman of the W3Cworking group that produced version 2 of the Synchronized Multimedia Integration Language (SMIL 2.0).William Hersh, MD is Professor and Chair of the Department of Medical Informatics & Clinical Epidemiology in the School of Medicine at Oregon Health &Science University (OHSU) in Portl

3、and, Oregon. Dr Hershs research focuses on the development and evaluation of information retrieval systems for biomedical practitioners and researchers. HENRY STEWART PUBLICATIONS 1467-5463. BRIEFINGS IN BIOINFORMATICS . VOL 6. NO 1. 57 71. MARCH 2005作者简介,文章来源作者简介,文章来源Aaron M. Cohen,医学博士,俄勒冈卫 生科学大学医

4、学信息学项目的博士后研究 员,研究方向是文本挖掘,主要集中在文 本挖掘的应用及存在的问题,他是W3C工 作组的主席,创建了同步多媒体整合语言 版本2 (SMIL 2.0). William Hersh ,医学博士,是俄勒冈州 波特兰市俄勒冈卫生科学大学医学院,医 学信息学和临床流行病学专业的教授和主 席,研究方向是信息检索系统的开发和评 价。 BRIEFINGS IN BIOINFORMATICS . VOL 6. NO 1. 5771. MARCH 2005背景和目的背景和目的公开发表的生物医学研究成果以及由此 带来的潜在的生物医学知识正以越来越 快的速度增长,几个世纪以来科技信息 通常都是

5、以指数增长2004年MEDLINE数据库含有1250多万 条记录,目前仍以每年50万条记录的 速度增长。背景和目的背景和目的生物医学研究的目标是发现知识并以诊断 、预防和治疗的方式把知识应用到实践。人们很可能没有发现生物医学知识各个要 素之间的重要联系,因为没有人建立必要 的联系。 必须建立一些方法来帮助研究者和内科 医生高效地利用现有的研究成果,并把这 些研究成果应用到实践背景和目的背景和目的文本挖掘和知识抽取是帮助研究者处理信 息过载的方法文本挖掘不同于信息检索(IR)和文本摘要 (TS)文本挖掘也不同于自然语言处理(NLP)文本挖掘和知识提取主要集中在解决特定 领域的具体问题例如:寻找与

6、偏头痛的生物学过程有关的 药理学物质来确定偏头痛可能的新的治疗 方法背景和目的背景和目的生物医学文本挖掘的目的是帮助研究者 更加有效地识别所需要的信息以及发现 被大量的可获得信息掩盖的关系就是通过对文献中及生物医学数据库自 由文本中的大量生物医学知识应用算法 、统计方法和数据处理方法,把信息过 载的压力从研究者转嫁给计算机。目前研究的活跃领域目前研究的活跃领域命名实体识别文本分类关系抽取同义词缩写词提取假说形成集成框架命名实体识别命名实体识别(NER)(NER)目的是在文本集合中识别出特定类型事 物的所有名称,例如在期刊论文集中识 别出所有药物的名称,在medline摘要 中识别出所有基因名称

7、及符号命名实体识别命名实体识别具有挑战性具有挑战性不存在一个完整的包含各种类型的生物医学命 名实体的字典相同的词或短语由于上下文不同表达的是不同 的事物许多生物学实体有多个名称 PTEN和MMAC1需要解决候选名称重复的问题可能是由多个词构成的词组例如:颈动脉 carotid artery因此需要判断实体名称的边界方法方法基于字典的方法:将自然语言文本与事先存在 的包括大量生物医学命名实体名称的字典词条 进行比对,根据匹配的结果进行实体识别。精 确、模糊匹配基于规则的方法: 通过规则的定义将实体与其 他文本划分为不同的类,进而识别出来,大写 字母+符号+数字基于统计的方法: 将命名实体识别问题

8、转化为 分类问题。通过使用分类工具,对训练文本进 行机器学习,进而区分出各种命名实体类型, 最终识别出测试文本中的命名实体。混合方法系统评价指标系统评价指标准确率(预测正确的命名实体数除以预 测命名实体总数)召回率(预测正确的命名实体数除以文 本中的命名实体总数)召回率和准确率的调和均值F-measure=2PR/P+R召回率和准确率的平衡点NERNER系统系统Tanabe和Wilbur开发的AbGene系统是比较成 功的基于规则 曾被多个研究者作为命名实体识别组件用于关 系抽取研究当中。 AbGene系统把Brill的词性标注扩展到包括基 因和蛋白质名称作为标记类型 使用生物医学文本的700

9、0个手工标注的句子作 为训练语料 之后AbGene使用手工生成的基于语言统计特 性的后处理规则进一步识别基因名称的上下文 以及消除假阳性假阴性 系统达到了85.7%的准确率和66.7%的召回率 。NERNER系统系统Chang创建了GAPSCORE系统根据词的外观、形态和上下文对句子中的每 个词打分,然后采用分类器训练这些特征。 分数较高的词更可能是基因或蛋白质名称或 符号。利用Yapex语料库进行训练,根据精确匹配 和模糊匹配分别计算召回率、准确率和F值模糊匹配(召回率81%、准确率74%、F值 77%)的系统性能好于精确匹配(召回率 50%、准确率59%、F值54%)。NERNERHani

10、sch等人利用基因与蛋白质名称的大型词 典语义分类可能在蛋白质名称附近出现的词特异度为95%,敏感度为90%Zhou等人使用基于丰富特征集合的方法训练 了隐马尔可夫模型,【构词特征(大写)、形 态特征(前缀、后缀)、词性特征、语义触发 (核心名词和动词)、别名特征】在GENIA语料库上获得了66.5%的准确率, 66.6%的召回率。其他的系统包括Narayanaswamy等人的、 Settles的以及Mika和Rost的NERNERChen和Friedman采用MEDLEE系统识别与生物医 学文本中表现型信息对应的短语利用自然语言方法识别期刊论文摘要中的表现型短 语以及在文本中由分散的词组成的

11、表现型短语。由于研究较少,可获得的表现型相关的术语知识库 较小自动引入成千上万的与语义类型有关的UMLS术语 以及来自哺乳动物本体的上千个术语,并且还手工 加入了其他术语对300篇文档进行可行性研究,系统的准确率为 64%,召回率为77.1%。性能低于基因和蛋白质命 名实体识别系统NERNER总之,目前基因和蛋白质NER系统的性能指 标F值大约在75%-85%之间。这个值与2002年Hirschman等人研究的结果 和2004年BioCreative专题讨论会任务1A的 结果一致。虽然性能最好的系统也没有超过前几年的, 但是研究者对不同数据集采用不同的方法都 得到了一致的结果。NERNER为了

12、解决性能平台,Tanabe和Wilbur利用AbGene生成 大型的高质量的词典,包括在生物医学文本中出现的 基因和蛋白质名称把AbGene应用到MEDLINE数据库产生了一个包含200 多万个预测基因和蛋白质名称的初始集。利用主题分析提纯这些名称列表利用归纳逻辑编程学习规则在主题内区分基因名称和 非基因名称利用假阳性过滤器去除明显不正确的名称,例如含有 “http”或是以“tion”结尾的名称。最终产生了含有1,145,913个基因名称的集合。随机样本评估得到的准确率约为82%。利用语料库进行评价,精确匹配的准确率为61%,部 分匹配的准确率为88%NERNER目前讨论的主题是NER性能多好

13、才能有助于 文本挖掘。如果假设关系提取需要识别三个生物医学术 语(两个实体和一个关系),那么关系提取 的性能应该近似等于NER性能的立方。对于提取新闻文章,这个独立性假设看起来 是对的。但这个假设并不适用于生物学关系我们还没有为生物医学文本挖掘获得标准的 NER系统构建方法或者是更新词典的方法, 所以这一领域的研究工作还要继续。文本分类文本分类文本分类试图自动测定文档或文档的某 部分是否含有感兴趣的特征,通常是根 据文档是否讨论某一特定的主题或者是 含有特定类型的信息。感兴趣的信息并不是被用户明确指定的 ,而是提供阳性训练集(已经发现含有 感兴趣特征的文档集)和阴性训练集文本分类系统应该能够自

14、动提取可以区 分阳性和阴性的特征并把这些特征应用 到候选文档进行决策文本分类文本分类精确的文本分类系统对数据库管理者尤 其有用,数据库管理者可能不得不浏览 数据库中的大量文献来寻找含有某种信 息的少量文献越来越多的生物医学信息都是以文本形 式创建,数据库管理者需要把这些信息 转换编码数据因此强烈的需要一种有效的方式把文本 分类方法应用到生物医学文本。文本分类文本分类Yeh等人组织了文本挖掘竞赛,是2002 年KDD国际竞赛的一部分。任务是要 评价FlyBase数据集的论文并根据有没 有果蝇基因产物来确定是否应该管理那 篇论文性能最好的条目是利用一套手工创建的 规则生成的,这些规则是基于词性标注

15、 、词典和语义限制创建的,语义限制是 通过检测训练文档形成的得到的F值为78%文本分类文本分类另一个有效的方法是根据文中有没有基 因产物对生物医学论文进行分类,进行 特征提取后利用朴素贝叶斯分类器分类有两个性能不错的系统,利用规则的表 达式(interact+gene name+bind)去 寻找词的模式,然后利用支持向量机( SVM)对论文分类文本分类文本分类Donaldson等人使用支持向量机作为分类 器,对文献摘要进行分类,提取出与蛋白 质相互作用相关的文献摘要,同时还用来 判断句子是否涉及具体的蛋白对100个摘要进行评价得到的准确率为 96%,召回率为84%。他们估计这个分类 系统能减

16、少约三分之二管理者需要阅读的 摘要数目。文本分类文本分类为了管理Swiss-Prot数据库的信息,有研究利 用概率潜在分类(Probabilistic LatentCategoriser,PLC)和KL(Kullback Leibler)分歧重新排序PubMed返回的文档评价显示准确率召回率平衡点大约为70%,相 对于原来的40%而言,准确率改善了25-45%Liu等人把文本分类独特的应用到图像说明。 在试验研究中,他们分类图像库中的文本来寻 找含有表示蛋白质相互作用和信号事件的图像文本分类文本分类把文本分类应用到生物医学管理者和标引者的 实际工作过程中的研究才刚刚开始。2004年 TREC Genomics Track中的任务之一就是文 本分类问题 这个任务试图模仿手工标注者为了寻找含有基 因实验证据信息的文档而在小鼠基因组信息学 (MGI)系统中

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号