数字图书馆关键技术及其在生物信息学中的应用

上传人:新** 文档编号:588101776 上传时间:2024-09-07 格式:PPT 页数:44 大小:2.01MB
返回 下载 相关 举报
数字图书馆关键技术及其在生物信息学中的应用_第1页
第1页 / 共44页
数字图书馆关键技术及其在生物信息学中的应用_第2页
第2页 / 共44页
数字图书馆关键技术及其在生物信息学中的应用_第3页
第3页 / 共44页
数字图书馆关键技术及其在生物信息学中的应用_第4页
第4页 / 共44页
数字图书馆关键技术及其在生物信息学中的应用_第5页
第5页 / 共44页
点击查看更多>>
资源描述

《数字图书馆关键技术及其在生物信息学中的应用》由会员分享,可在线阅读,更多相关《数字图书馆关键技术及其在生物信息学中的应用(44页珍藏版)》请在金锄头文库上搜索。

1、数字图书馆关键技术及其数字图书馆关键技术及其在生物信息学中的应用在生物信息学中的应用2002-05-30上海(国际)数据库研究中心内容安排1.数字图书馆2.数字图书馆研究的意义3.复旦大学数字图书馆关键技术研究4.在生物信息学中的应用2研究动机q信息在国民经济中占有重要地位,是不可多得的战略性资源q信息的有效利用可产生巨大的社会效益和经济效益q数据量的迅速膨胀q分布式的异构信息管理q复杂的数据类型q信息的快速、精确的查询需求应大力开展信息资源建设对信息的良好组织和管理一种解决方案:数字图书馆3数字图书馆是国家信息基础设施q数字图书馆是一种基于计算机网络,特别是基于 Internet的数字化信息

2、资源管理系统,它维护分布式、大规模且有组织的数据库和知识库,保护信息资源的安全和知识产权,支持本地和远程用户借助计算机网络对系统内的数据库和知识库进行一致性的访问,传送和表现用户所需的信息,实现资源共享。数字化的信息资源 超链接的信息组织方式信息的网络化传输 以用户为中心的服务模式4各国政府和机构积极推动数字图书馆的研究与开发q美国数字图书馆研究及建设作为其国家信息基础设施NII的重要组成部分美国政府蓝皮书中对数字图书馆的战略意义给予了高度的重视美国数字图书馆先导研究计划DLI-1、DLI-2q世界其它国家欧洲出版工程、法国与英国的国家图书馆以及日本、新加坡等国家政府、机构也都积极推动数字图书

3、馆的研究与开发工作qIBM和HP等跨国公司大力开展数字图书馆的系统研发工作5q对国际上数字图书馆研究状况的跟踪调研q国内重要的数字图书馆建设项目中国数字图书馆工程中国试验型数字图书馆(CPDLP)电子图书馆相关关键技术研究知识网络数字图书馆系统工程中国高等教育文献保障体系(CALIS)新一代图书馆信息系统(NLIS)电子文档管理系统(EDMS) 上海图书馆数字化工程 数字图书馆系统软件平台及其应用等国内数字图书馆的建设6涉及数字图书馆的关键计算机技术q数字式资源的采集技术(直接生成、数字化转换)q数字化资源的存储与管理技术(数据压缩、信息安全)q信息访问和查询技术(分类、索引、异构信息的一致性

4、检索)q数字化资源的传送与信息发布技术(多媒体信息的传输、同步和QoS控制技术)q数字化资源的权限管理方法q面向特定用户的个性化服务7事例研究: 异构性与互操作q大规模复杂信息系统q没有集中控制机构q遗留系统异构性是数字图书馆研究和建设不可回避的客观现实异构性是数字图书馆研究和建设不可回避的客观现实结构上的异构性结构上的异构性 (结构化、半结构化、非结构化结构化、半结构化、非结构化)地理位置地理位置 (分布式分布式)组织形式组织形式 (自治自治) 需要互操作技术8事例研究:异构性与互操作Wrapper/Mediator方案 q利用XML为异构的信息资源(数据库系统、HTML的网页集合、传统信息

5、服务机构的可检索对象甚至是遗留系统)提供逻辑上的统一信息资源视图q将 XML查询语言看作是视图定义语言,它驱动Mediator系统q该Mediator系统负责选择、调整和集成由多个自治资源站点返回的信息,然后以XML文档一致格式反馈给用户Wrapper是存取和转换已知信息资源的工具Mediator 是一种工具,它通过查询重构和/或内容处理改善信息或传递信息9事例研究:异构性与互操作 InfoBusq斯坦福大学承担的DLI-1项目q针对现存系统的互操作问题,不定义新的标准或试图修改现存的系统,而是承认它们的客观存在q基本思想是用图书馆服务代理这样一种CORBA对象表现在线服务。这些代理与现存的系

6、统以它们固有的方式进行通讯,并将信息转换成由CORBA方法定义的标准界面10事例研究:异构性与互操作 Ontologyq本体(Ontology)是领域知识的概念化说明q本体的元素:对象、概念及其关系通过形式化的说明被严格规定q一组主体(Agent)按照他们形成的本体承诺相互交流领域知识,他们在给定的领域中对知识采取一致的解释和处理q知识体系追求论域中的一致性而不是其完整性q它可以为实现语义级的互操作提供帮助11事例研究:Ontology about Water LiliesNymphaeaceaeCaspary,1888BarclayaEuryaleNupharNymphaeaVictoria

7、NelumboCabombaBraseniaNymphaeaceaeCook,1990BarclayaEuryaleNupharNymphaeaVictoriaOndineaNelumbonaceaeCook,1990CabombaceaeCook,1990CabombaBraseniaNelumbo12事例研究:事例研究:多媒体信息检索多媒体信息检索CBIRCBIR 基于色彩直方图的图像检索(图像表达为其色彩直方图特征)基于色彩分布的图像检索(图像表达为色彩的区域分布或变换域系数分布特征)基于区域的图像检索(图像表达为对象级的特征)基于区域分割和语义标注的图像检索excerpted from

8、 J.Z. Wangs Semantics-sensitive Retrieval for Digital Picture Libraries保持对象信息的位置、形状和纹理注重感兴趣的对象,消除对象的平移、定比、旋转的影响结合语义标引的综合检索 13图像索引的基本处理流程图像索引的基本处理流程Excerpted from J.Z. Wangs Semantics-sensitive Retrieval for Digital Picture Libraries14图像检索的处理流程图像检索的处理流程Excerpted from J.Z. Wangs Semantics-sensitive Re

9、trieval for Digital Picture Libraries15事例研究:多媒体信息检索视频结构的分析Excerpted from Dr, Zhnag Hongjiangs 新一代多媒体检索 高层高层 底层底层 抽象程度抽象程度抽象程度抽象程度故事故事故事故事 1 1故事故事故事故事 2 2故事故事故事故事 N N.镜头镜头镜头镜头 1 镜头镜头镜头镜头 2镜头镜头镜头镜头 M.电视节目电视节目电视节目电视节目图像图像图像图像.针对多媒体中蕴含的时间特性、空间特性和时空特性开发基于内容的多媒体信息检索技术16事例研究:多媒体信息检索 Informediaq自动分析视频、音频、隐含

10、的标题、场景变换和其它信息q其特色在于:虽然个别模式的分析只能得到不完美的信息,但是组合所有模式提供的信息却能得到非常优异的效果q向Informedia数字图书馆馆藏中增加新的素材将视频素材分割到各主题部分中通过音轨语音的识别、视频流隐含标题的识别来标识每个部分相关的文本各种自然语言处理工具产生合适的索引纪录q用户可以用多模式中的任何一种形式提出查询要求多模式信息检索体现优异的效果多模式信息检索体现优异的效果17数字图书馆研究在复旦大学1995年起,复旦大学与IBM中国研究中心联合开展了数字图书馆的关键技术研究w中国历史地图数字图书馆原型系统国家自然科学基金重点资助项目“电子图书馆相关关键技术

11、研究”(编号:69933010)上海市科技发展基金项目“数字图书馆系统软件平台及其应用”(合同号:005115012) ,达到国际先进水平上海市自然科学基金项目“页面图像的内容检索技术”(合同号:00ZD14006),达到国际领先进水平 目标:研究和开发Internet上基于数据库技术的数字化信息资源管理技术18研究成果提出了一种基于Internet技术、合理组织大规模数字化资源的数字图书馆解决方案,研制了支撑该技术方案的一批关键技术,开发了实用的软件功能模块,适应于今后越来越多的分布式、自治、异构信息源的集成与一致性服务 形成了具有自主知识产权、先进实用的数字图书馆系统软件开发平台。该平台可

12、根据应用特点,形成多种系统配置方案 19研究成果互互互互操操操操作作作作分分分分布布布布式式式式检检检检索索索索元元元元数数数数据据据据组组组组织织织织网网网网站站站站建建建建模模模模多多多多媒媒媒媒体体体体信信信信息息息息管管管管理理理理个个个个性性性性化化化化服服服服务务务务WEBWEB信信信信息息息息检检检检索索索索元元元元数数数数据据据据管管管管理理理理资资资资源源源源封封封封装装装装全全全全文文文文检检检检索索索索资源整合资源整合资源整合资源整合站点服务站点服务站点服务站点服务综合技术综合技术综合技术综合技术分布式信息集成管理平台分布式信息集成管理平台分布式信息集成管理平台分布式信息

13、集成管理平台解决方案解决方案20资源整合层面的研究成果元数据组织技术及软件模块,采用有向无环图模型和资源描述框架(RDF),集成自治资源的元数据,为用户提供一致的信息服务界面,为数字图书馆系统提供信息组织结构,为个性化服务提供内容参考 分布式检索技术及软件模块,从数字图书馆的众多的收藏中发现优选收藏,发布检索请求并集成检索结果 互操作技术及软件模块,采用Wrapper/Mediator互操作模型、XML和CORBA技术,完成分布式自治信息源的能力描述和访问接口包装,为分布式检索提供对异构信息源的统一访问接口 21资源站点建设层面的研究成果资源建模/维护技术与软件模块,支持Web应用的多种粒度的

14、抽象、封装、重用及导航,提供自治信息源的优选建模和维护支持 基于内容的多媒体检索技术和媒体服务器,支持基于内容的图像检索和高性能的中文全文检索 22数字图书馆综合技术方面的成果XML数据管理技术与软件模块,基于关系数据库系统,实现对数字图书馆中的XML数据的存储,提供高效稳定的查询处理 个性化服务技术与软件模块,发掘在特定用户的使用履历中隐藏的个人信息偏好,动态用户归类和兴趣预测,为用户提供主动的信息推送服务 Web信息搜索技术与软件模块,采用结构匹配技术,实现对Internet上特定数据源的基于内容和结构的查询 元数据配置与管理工具,辅助维护数字图书馆元数据体系,构造自治数据源的Wrappe

15、r资源编目工具,支持对DTD模板的结构性和层次性的灵活编目,实现对数字资源的元数据置标和封装23一种生物信息源集成方法24生物信息学产生了大量相关资源生物信息学数据库w共有335个主要的数据库(据Nucleic Acids Research, 2002)w是实验数据与最终的结构、功能研究的桥梁w各有侧重,关心问题的范围比较狭窄,但又有重叠生物信息学的相关服务wBLAST, FASTA等序列比对工具w基于HMM的Pfam, HMMer等数据挖掘工具w系统发育分析的Phylogeny工具25当生物学家想利用利用资源时26给生物学家的研究带来不便寻找众多数据库和相关服务网站使用各种风格各异的用户界面

16、要明确知道需要访问哪些数据源使用不同的协议分别发出查询请求不停的作Copy&Paste,甚至格式转换手工综合查询结果集成生物信息资源,集成生物信息资源,提供统一的访问机制提供统一的访问机制27相关研究BioKleisli (宾夕法尼亚大学计算机系)DiscoveryLink (IBM研究院)TAMBIS (曼彻斯特大学计算机系)TINet (GSK公司和IBM研究院)国内尚未发现公开发表的自主研究BioKleisi采用采用Mediator(调节器调节器)技技术实现了若干数据源的集成,其后术实现了若干数据源的集成,其后的的K2/Kleisli系统还利用数据仓库实系统还利用数据仓库实现了现了OLA

17、P(联机分析处理联机分析处理)DiscoveryLink基于基于Wrapper/ Mediator(包装器包装器/调节器调节器)实现了信实现了信息源集成,提出了查询的分解和基息源集成,提出了查询的分解和基于代价的优化策略于代价的优化策略 基于基于Wrapper/ Mediator实现了信息实现了信息源集成,借助源集成,借助BioKleisli中的中的CPL语语言作为查询语言并给出了查询优化言作为查询语言并给出了查询优化的方法。通过的方法。通过TaO(TAMBIS Ontology)本体定义为用户浏览和)本体定义为用户浏览和查询处理提供领域知识查询处理提供领域知识TINet基于多数据库中间件基于

18、多数据库中间件OPM(Object-Protocol Model,对,对象协议模型象协议模型)定义数据源的对象视定义数据源的对象视图,其图,其CORBA(Common Object Request Broker Architecture,公共对象请求代理体系结构公共对象请求代理体系结构)服务服务器使各数据源器使各数据源Wrapper(包装器包装器)更更易于扩充易于扩充存在的一些缺陷:存在的一些缺陷:vBioKleisli 系统查询能力相对较弱,而且并未给出查系统查询能力相对较弱,而且并未给出查询优化策略;询优化策略;vTAMBIS系统和系统和DiscoveryLink系统集成的数据源数系统集成

19、的数据源数量还很少,后者在查询处理中并未运用领域知识,因量还很少,后者在查询处理中并未运用领域知识,因而查询分解也未从语义角度考虑;而查询分解也未从语义角度考虑;vTINet系统中的查询处理能力不强等等系统中的查询处理能力不强等等28当前生物信息资源集成技术的特点目前的生物信息学数据源仅限于海量数据的存储体,除TAMBIS外,其他工作都还没有在概念和联系层次集成信息源现有集成系统的查询处理能力还不是很强,尤其是当多个数据库存在信息重叠时,缺乏从中选择最佳检索成员,动态生成优化检索方案的能力现有的工作主要面向数据集成,而对服务集成考虑不多。支持数据与服务综合性集成的体系仍欠完备29研究目标建立一

20、套生物信息学资源集成方法w提供综合查询能力w具有良好的可扩展性w支持Internet网络计算环境w同时支持数据集成和服务集成整合一批重要的生物信息学资源w数据库:GenBank/EMBL/DDBJ, SWISS-PROT, PIR, PDB, KEGG, DIP, PRINTS, PubMed等w应用服务:BLAST, FASTA, HMMER, Pfam等30主要研究内容基于新一代Internet技术的信息资源(内容和服务)集成与互操作技术适用于重要生物信息学资源综合应用的联邦数据库体系结构服务于终端用户和应用程序的一致性访问接口可供语义互操作的本体31接口层Mediator层Wrapper

21、层GenBankSWISS-PROTBLAST服务PubMed整整体体技技术术框框架架32接口层Mediator层Wrapper层GenBankSWISS-PROTBLAST服务PubMed33接口层客户端可能是Web浏览器,也可能是应用程序以Web Service方式统一系统向外公开集成信息资源的访问界面,可支持BLAST, Pfam等应用服务底层集成的信息资源对用户透明,即用户只需提出查询请求和相关概念,无需知道“去哪里找,怎么找?”34接口层Mediator层Wrapper层GenBankSWISS-PROTBLAST服务PubMed35Mediator层查询生成:针对用户请求,借助领域

22、知识本体生成整体查询表达式查询处理/优化:基于查询效率、语义等因素,选择底层信息资源并相应地分解查询方案 执行查询:参照资源元数据,通过内部互操作机制将执行信息发送给wrapper层结果生成:集成各返回的结果信息,整理后发往用户接口层36接口层Mediator层Wrapper层GenBankSWISS-PROTBLAST服务PubMed37Wrapper层wrapper的作用是降低mediator和底层数据资源交互的复杂度每个信息资源对应一个wrapper完成数据格式、查询格式的转换这部分的研究内容包括针对一类生物信息源的半自动Wrapper生成技术和工具 38接口层Mediator层Wrap

23、per层GenBankSWISS-PROTBLAST服务PubMed39本体和资源元数据利用本体(ontology)提供领域知识,给出系统中各实体概念的定义和其间在语义上的联系,是同一领域内进行语义互操作的基础w本体已在生物信息学中得到应用。如GO(Gene Ontology)、TaO、RiboWeb、EcoCyc等资源元数据包括了被集成信息源的URL地址、数据模式、功能、查询格式、访问代价等相关信息,包括了各数据源和mediator内部数据模式的映射,包括了各数据源元数据与本体的映射本体相对稳定,资源元数据更改较频繁,映射提高了可扩展性40关键技术问题生物信息学领域可伸缩、易扩展的信息集成和

24、互操作体系结构同时支持数据集成和服务集成的信息集成方法生物信息学的互操作协议,包括用于语义互操作的本体以及集成技术;适用于人类用户浏览和应用程序访问的统一访问接口技术41该方法的技术特色可伸缩的(scalable)体系结构,既保持原有资源继续提供服务,又能整合多个自治资源提供协同的服务;可扩展的(extensible)集成模式,既充分利用现有的信息资源,并能有效整合今后不断出现的新兴资源;综合的(comprehensive)集成能力,同时支持数据源集成和服务集成;一致的(coherent)访问接口,终端用户和应用程序可借助统一的访问接口利用集成的信息和相关服务。42知识发现DNA Minerq

25、从海量的生物数据库中发现有用的多次出现的模式是数据挖掘技术在生物信息学中应用的重要目标。挑战:w序列长,隐含其中待发掘的模式也很长w生物序列模式包含变异、插入和删除qDNA-Miner由集成的DNA数据库、模式发掘模块和用户界面三个部分组成q模式发掘模块完成三项功能:w发掘重复模式 一个DNA序列和模式的定义,找出该序列中所有(部分)满足定义的重复模式w发掘隐含的基序(potential motif) 找出数据库中所有满足定义的模式w基于对隐含基序的分类 利用发掘出来的隐含的基序建立分类规则、总结出主要的每类序列的主要特征和主要差异,便于对新基序的分析和归类43结论q信息是重要的战略资源,需要充分地加以创造性的利用qInternet(WWW)建立了基本的信息发布机制,但缺乏合理的信息组织和管理机制q数字图书馆是一条解决上述问题的有效途径, 被认为是下一代Internet网上信息资源的管理模式q生物信息学是数字图书馆的一个重要应用领域q数字图书馆技术可以为生物信息学研究提供技术支持44

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号