生物信息学_21世纪的核心科学

上传人:kms****20 文档编号:46525086 上传时间:2018-06-27 格式:PDF 页数:4 大小:411.93KB
返回 下载 相关 举报
生物信息学_21世纪的核心科学_第1页
第1页 / 共4页
生物信息学_21世纪的核心科学_第2页
第2页 / 共4页
生物信息学_21世纪的核心科学_第3页
第3页 / 共4页
生物信息学_21世纪的核心科学_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《生物信息学_21世纪的核心科学》由会员分享,可在线阅读,更多相关《生物信息学_21世纪的核心科学(4页珍藏版)》请在金锄头文库上搜索。

1、自然杂志22卷3期学科发展生物信息学2 1世纪的核心科学”史定华(上海大学理学院)、上海市教委博士点基金资助项目关键词生物信息学生命科学信息科学系统科学随机数学计算机科学本文从地球生命是物质、能量、信息三大要素综合集成的角度,阐述作为生命科学与信息科学相结合的生物信息学,在2 1世纪的科学研究中的重要作用和地位.同时从决定论和非决定论、可逆性和 不可逆性、物理退化 (嫡增加)与生 物进化 (墒减少)、个体描述与群体描述等等科学方法论的角度,论述系统科学对创建生物信息学的指导意义和途径.最后以开发新世纪计算机为例说明研究生物信息学的应用潜力和价值.一、引言1 95 3年沃森和克里克在英国 自然

2、杂志上发表了D NA双螺旋结构模型,它由四种 碱基A(腺嗓吟)、G (鸟镖吟)、C (胞嚓吮)、T (胸腺嗜咙 )成对组成.这一发现震惊了全世界并创立了一门新的学科分子生物学一旦发现了DNA是主要遗传物质而且生命的指令就隐藏在DN A的基因片断中.从此,人类对基因的认识不再停留在孟得尔的抽象概念上,而是 由A、G、C、T组成的非常具体的符号串.现今,生物学经过分子生物学、计算分子生物学开始跨人生物信息学的时代.生物学也从数学的应用几乎为零,而转变为数、理、化 与计算机科学全面介人的局面.本文将围绕其中的生物遗传信息问题作简要的议论.生物的基本特征是以遗 传信息作为纽带,通过信息传递与表达 的个

3、体 发育,以及 世代适 者生存 的种群进化,来展开绚丽多彩的生命历程.这一过程是如何调节与控制的?分子生物学已初步阐明:遗传信息由D N A经转录得到信使R N A,再翻译成为具有各种生物功能的蛋白质.考虑到所有生物的遗传信息都写在 由四种碱基A、G、C、T组成的长短不一 的D NA序列中.其 中智慧人类有2 3对染色体、3 0亿个碱基对、1 0万个左右基因、2 0种氨基酸组成数千种同源蛋白族;人从一个受精卵细胞到发育成熟需要复制百万亿个细胞并组装成具有复杂功能的各种器官和协调一致的系统,而复制和组装的出错率仅为万亿分之一因此,从某种意义上说,每个生物体都是大 自然创造的最复杂、最高效的一台超

4、级“计算机”.生物遗传信息涉及分子水平和系统演化,生物信息学必须将两者有机结合起来研究才有望取得突破.二、新世纪科学革命的源头人类在 2 0世纪实现了两次科学革命.量子力学 是微观层 次的科学革命,它带给人类既有灾难也有福音.相对论是宇观层次的科学革命,它开辟了人类认识宇宙起源的可能性.在这世纪之交,科学革命的源头将在何处闪光?全世界有识之士都认为将发生在与我们人类相同尺度的宏观层次上,而且很可能是生命科学与信息科学相结合的领域.美国提出的三大著名计划:“曼哈顿计划”,微观层次,释放物质 蕴含的能量,使 人类步人了原子能时代;“阿波罗计划”,宇观层 次,摆脱质量产生的引力,使人类首次飞离地球开

5、创了太空探险的新纪元;“人类基因组计划”,宏观层次,驾驭信息传递和调控的技巧,目标 是破译生命遗传密码这部“天书”的奥秘.这三大计划既抓住了物质、能量、信息的核心问题,又留下了广阔的发展空间.空间有上下、前后和左右之分,时间有过去与未来之别.人虽然可观察空间的区分,但只能感觉到时光 的流逝.数理科学在描述自然规律时离不开时空本性的研究.时空作为宇宙万物 演出的舞 台,它的本性如何?一直困扰着哲人和智者.生命,特别是智慧人类,能在广裹宇宙的局部时空中展现,与物质、能量和信息三大要素综合集成作用是 紧密联系在一起的.简而言之,生命活化物质,生命耗散能量,生命依存 信息,特别是,信息在从非生命世界演

6、 化成生命世界的过程中所起的建设性作用.生物信息伴随“人类基因组计划”的飞速进展,国际上三大生物序列数据 库 (G en Ba nk,EMBL,D DB J)的序列177学科发展Z i厂an乙笼hiVol,22No,3总量正呈指数增长. 如何发掘这些数据蕴含的宝藏,从中提取解释生命奥秘的信息,这是人类所面临的巨大挑战,也是对人类所积累知识和创新 能力的考验.即将启动的“后基因组计划”,将把发掘这些数据蕴含的宝藏作为主攻方向之一可以预见,在未来的十余年或更长的一段时间里,人类将在 开发这一宝藏的过程 中,在综合已有知识的基础上,创造出许多崭新的知识,甚至彻底改变科技发展的面貌.这是不是新世纪科学

7、革命所要找寻的源头?,厂三、生物遗传信息研究现状生物序列信息分析包括:功能位点确定、基因寻找、序列联配、同源识别、特征 片断检测、数据库搜索,生物之间的演化关系,以及蛋白质和R NA的结构与功能预测等等.这对于理解生物信息是如何传递与调控的有着举足轻重的影响.其 中涉及到如何 建模、模型 比较、模型训练、信息表达等等一系列困难而又复杂的问题.为了分析生物序列信息,特别是预测蛋白质和R NA的功能与结构,人们已经创造了多种行之有效的方法.例如几何代数、形式语言、隐马 氏模型和非线性动力 学等等.几何代数方法 由我国学者张春霆院士首创,他所提出的z曲线和D N A群等概念现已受到国际学术界的重视.

8、我国学者郝柏林院士等则正在利用形式语 言和复杂性理论研究生物序列信息.采用非线性动力学方法研究的一个概貌可见文献 【1.然而,国际上比较流行的生物序列信息分析方法是基于隐马 氏模型的机器学习途径.隐马氏模型首先是用于语音识别川,19 94年前后 开始用 于生物序列信息分析 3 j.近年来,国际上这一研究方 向发展极为迅速,不仅论文数量激增,而且已有著作问世 ,“.不过国内从 事这一研究方向的单位与人员还很少,据说王梓坤院士带领一个小组正在从事这方面的研究工作.什么是隐马 氏模型?它由随机产生 的状态序列与符号序列组成.虽然状态序列构成一个马氏链,但它是隐藏的,仅仅这些隐藏状态发出的符号序列能被

9、观察.因此一个隐马 氏模型的参数由初始概率分布、转移概率矩阵和在每个状态下发出的符号概率矩阵组成.隐马氏模型的三个主要问题是:( 1 )给定一个隐马氏模型和一个 观察到的符号序列,我们想知道隐马氏模型产生该观察序列的概率得分(s co r in g)问题.(2)给定一个隐马 氏模型和一个观察到的符号序列,我们想知道隐马 氏模型用来产生该观察序列时的最佳状态序列联配(A lig川1 1ent s )问题.(3 )给定大量的数据,即一批符号序列,我们想找到最能说明这些数据的隐马 氏模型的参数训练(Train-吨)问题.由于隐马氏模型含有大量参数,解决训练问题实质上是一个高维统计问题.通常采用EM算

10、法求解,先计算后验期望E步,再极大化参数M步.然而在实际应用中,高维数值积分和全局优化都极其困难.于是开发高效的马尔可夫链蒙特 卡罗(MCMC )方 法,如 吉布斯和H it界瑟-一争M 甲刁,一 一一-书山1侧几卜02月_侧Jj4其中M为配备、I为插人、D为删除状态,发出符号是 2 0 种氨基酸.隐马氏模型实质上是一种新型的机器学习模型.在语音识别、汉字识别、身份识别和各种模式识别上具有特殊的优点.在生物序列信息分析 中,隐马 氏模型正在与神经网络、随机形式语言、嫡和信息以及概率 自动机等等相结合,为开辟新的研究领域吸引着众 多学者.这里似乎预示着信息理论在新世纪可能会有重大突破.四、系统科

11、学的指导意义经典科学,特别是物理与化学对物质和能量已有广泛的研究.然而,人类尽管对信息技术的研究已取得辉煌的成 就,但对信息理论的研究远不尽如人意.究其原因是经典科学注重研究非生命世界,在那里物质与能量占据主导地位.生命科学和人文科学虽以研究生命世界为己任,但远没有达到经典 科学的定量化水平.经典科学虽然从微观到宇观 的各个领域都已取得了辉煌的成就,但也在决定论和非决定论、可逆性和不可逆性、物理退化(嫡增加)与生物进化(墒减少)、动力学规律和统计自然杂志22卷3期学 科发展性规律 等等问题上陷人了苦恼的悖论之 中.出路何 在?以非线性和复杂性为核心、以嫡 与信息为重要内容的系统科学似乎为解决此

12、 问题带来了一线光明.系统科学从它诞生之初 就与生物学有不解之缘,维纳提出控制论时就强调它是关于在动物和机器中控制和通信的科学.贝塔朗菲的一般系统理论也是从生物学的机体论发展出来的.普里高津、哈肯等学者开创的有 序系统理论更是注重生物进化 与 自组织.圣塔 费研究所专门从事复杂系统理论的研究,其 中人 工生命技术就是一个重要领域.而开放系统理论则涉及物质、能量与信息三大要素的交换.系统科学研究 自然界和人类社会各类系统的共 同特性,探索系统的生成、演化和突现的普遍规 律.系统科学与经典科学在方法论上有着本质的区别.经典科学注重还原分析,而 系统科 学强调整体把握;前者追求简单性、必然性、决定论

13、目标,后者探索复杂性、偶然性、非决定论问题.在对自然界进行描述时,经典科学多以个 体描述 为主,系统科学则 突出群体描述.个 体与确定性没有信息,群体与不确定性才 是信息之掉.基于群体描述的密度演化理论“可望为解决上述悖论和填平物理学和生物学、必然性和偶然性、自然科学 与人文科学之 间的鸿沟发挥巨大的作用.另外,数理科学一直密不 可分,前者 为后者提供理论框架和描述方法,共 同探索着大 自然的奥秘.经典力学与微分方程、相对论与黎曼几何、量子力学 与泛函分析都是众所周知的.而涉及生命科学与人文科 学的群体动力学或系统动力学,所对应的数学似乎应该是随机过程.在系统科学的指导下,通过概率模型,如贝叶

14、斯网络和密度演化理论,来统一研究生物遗传 信息的各种方法,从而建立生物信息学.这似乎是一条可行的途径,也对发展系统科学有着重要 的意义.( l )集成电路的量子效应:如今的集成技术已使计算机CP u的线 宽 (元 件 与连线 的最 小尺度) 达到0.3 5脚,而当线宽达到0.1脚时,量子效应不可避免.(2 )串行运作 方式:尽管经典计算机的时钟频率在不断提高,由于固有 串行运作方式的限制,许多大型复杂的问题仍然难以解决.(3 )网络安全问题:计算机联网虽然开创了无限商机,但电子商务、签名识别 往往都需要 加密、解密、纠错和容错,一系列技术受经典计算机的局限难以突破.(4 )复杂性问题:由于串行

15、运算关系,许多重要的大型计算问题都是指数复杂性问题,而 目前经典计算机只能解决计算复杂性为多项式的问题.自从19 94年美国南加州大学用DN A分子和生物技术解决了一个汉密顿道路问题后,人们开始考虑构造全新的D NA计算机.D N A计算机是用碱基(A、G、C、T)序列作为数字编码,用生物实验作为运算过程.通过复制、剪切、拖曳、粘贴、提取将DNA (碱基)序列按不 同方式组合就可解决特定的问题.前面 的比较说明,D N A计算机在信息含量 与结构可靠两方面均 占优 势.然而,它的最大优点是并行处理能力.由于PCR技术的发明,在极短时 间内可按指数速度复制产生亿万条DNA序列,因此.DN A计算

16、机能否成功取决于多学科在分子运算 机制和分子算法设计方面获得突破性进展.其关键仍然是发展生物信息学.如上所述,生物信息学的突破将具有重大的科学意义和应用潜力.另一方面,从纯技术的角度,生物序列信息的破译也必将对疾病治疗和新药研制产生不可估量的经济效益并造福人类社会.一1一 /、结论五、开发新世纪的计算机将经典计算机与大 自然创造的最复杂的生命“计算机”作比较如下:(l)位元计算机是0与l;D NA是A、G、C、T;(2)信息计算机是Zn;DNA是4“,如n二10时分别为1024和l以857 6;(3 )结构计算机是单股线性序列;DNA是双股螺旋序列.自从经典计算机 问世以来,其性能和面貌经历了日新月异的变化,取得了辉煌的业绩.同时也暴露了难以克服的局限,主要表现为以下几点:生物的多样性和统一性,以及从分子水平和系统演化角度研究生命现象,为生物学、物理学、化学、数学、计算机科学等众多学科的协同作战,共同开创生物信息学提供了无限广阔的机会,我国古代在科学史上曾做出过举世瞩目的贡献,例如,5仪幻a前 中华龙祖伏羲得河图而创八卦,直到今天对宇宙起

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号