应用文献轮廓挖掘技术分析黑斑息肉综合征差异表达基因

上传人:鲁** 文档编号:512988675 上传时间:2024-02-22 格式:DOCX 页数:11 大小:17.05KB
返回 下载 相关 举报
应用文献轮廓挖掘技术分析黑斑息肉综合征差异表达基因_第1页
第1页 / 共11页
应用文献轮廓挖掘技术分析黑斑息肉综合征差异表达基因_第2页
第2页 / 共11页
应用文献轮廓挖掘技术分析黑斑息肉综合征差异表达基因_第3页
第3页 / 共11页
应用文献轮廓挖掘技术分析黑斑息肉综合征差异表达基因_第4页
第4页 / 共11页
应用文献轮廓挖掘技术分析黑斑息肉综合征差异表达基因_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《应用文献轮廓挖掘技术分析黑斑息肉综合征差异表达基因》由会员分享,可在线阅读,更多相关《应用文献轮廓挖掘技术分析黑斑息肉综合征差异表达基因(11页珍藏版)》请在金锄头文库上搜索。

1、应用文献轮廓挖掘技术分析黑斑息肉综合征差异表达基因【摘要】 目的探索黑斑息肉综合征(PJS)特异性相关基因。方法根据PJS基因谱表达系列,采用基于文献轮廓的数据挖掘方法,从Medline文献数据库中提取基因的相关文献并分析词的频率,再基于重复发生和共发生的过滤标准提取功能相关的词,最后基于词的发生频率对基因进行功能聚类。结果从PJS患者的特异差异表达基因谱中得到270个已知基因名称的差异表达基因,从聚类结果看,是与“遗传”和“先天缺陷”“肿瘤”“肌肉”“突变”关系密切的基因聚在一起,包括了COL6A2和COL6A3两个基因。结论COL6A2和COL6A3可能是PJS特异性相关基因。【关键词】

2、黑斑息肉综合征 微阵列 数据挖掘 生物信息学Mining Gene Expression Microarray Data of PeutzJeghers Syndrome by Literature ProfilingDai Yichen, Huang Zhongxi, Song Yugang, Xie Junpei, Zeng Weiof Gastroenterology, PLAHospital, Xiamen 361003, China;Hospital, Guangzhou 510515, ChinaAbstract: ObjectiveTo search for the studie

3、s on PeutzJeghers syndrome (PJS)related genes. MethodsPJS microarray gene expression data was mined by literature profiling. The search was based on the analysis of literature profiles generated by extracting the frequencies of certain terms from the abstracts on these different expression genes sto

4、red in the Medline literature database. Terms are then filtered on the basis of both repetitive occurrence and cooccurrence among multiple gene entries. Finally, clustering analysis with Cluster and Treeview program was performed. ResultsCOL6A2 and COL6A3 were the two novel genes related with PJS po

5、lyps. ConclusionCOL6A2 and COL6A3 genes may play an important role in the pathogenesis of PJS polyps.Key words: PeutzJeghers syndrome; microarray; literature profiling;computational biology我们应用文献轮廓挖掘技术分析PJS基因差异表达情况,揭示参与PJS形成的多个基因的功能关系以及发现特异性的相关基因,进而揭示PJS形成的可能机制。1材料和方法11获取差异表达基因把资料完整地入选病例分为大肠腺瘤组、PJS大

6、肠息肉组和正常大肠黏膜对照组。大肠镜检查术中留取的新鲜组织标本液氮冻存备用,按Trizol 一步法提取样品组织总RNA,经质量检测后,将各组的RNA样品等量混合,进行反转录荧光标记,用Cy3dUTP标记大肠腺瘤组和大肠PJS息肉组的cDNA,用Cy5dUTP标记正常大肠黏膜组的cDNA。将已标记的样品cDNA探针与深圳微芯生物公司提供的含有8 064个人类靶基因的基因表达谱芯片进行杂交,经清洗、扫描仪扫描荧光图像、提取杂交信号,经转换后以数据形式输出,对数据进行标准化处理后用生物信息学软件进行生物信息学分析。以芯片中密度值在5108以上的数据点为有效数据,同时把比值2或的数据点作为存在显着性表

7、达差异基因点的筛选标准,筛选各组间差异表达的基因。根据差异表达基因的筛选标准,选取已知基因名称的差异表达基因。大肠PJS息肉特异性表达变化的基因有270个,其中已知基因259个,EST 11个。获取基因的相关摘要通过检索在PUBMED文献中那些在标题中包含基因的官方名称、缩写或别称的条目来获取基因的相关文献。如果检索到的文献不足5篇, 则需进一步扩展到摘要中包含基因名称的条目,甚至用基因家族名称代替基因名称。基因命名的信息从人类基因命名委员会的网站和NCBI的Locuslink的网站上获取。由于相当大量的文献并不遵守官方命名,因此一方面会存在漏检现象,另一方面则出现假阳性。为了避免过高的假阳性

8、,有必要快速浏览搜索结果以便发现并删除不恰当的检索字符串。文字分析选择XML的输出格式后,点击工具条的保存按钮就可以将查询结果保存下来。摘要从输出文件中抽取来,并保存在一个新文件中,并且一篇摘要保存一行。用Montreal公司的Provalis Research软件的Wordstat模块的“文本转换魔术师”对每个文件进行格式转化。再用simstat模块打开并用“内容分析”的统计方法进行分析。输出选择词的类别百分比。数据过滤在分析的文献中发现的每一个特定词都赋予一个发生频率值,这样每一个基因都有好几万条记录。这些词当中大多数要么是普遍存在的,要么是极罕见的,因此对于定义基因特异性词的发生轮廓没有

9、多大用处,必须删除。剩下的词则是出现在少数基因的大多数摘要中,从而传递了这些基因的相关信息。数据过滤规则:第一步,删除在科学文献当中常见的词。选用每个词在250个随机选取的基因中的发生值的平均值来确定该词的基值。把基值超过5%的词归为无辨别力的一类并删除。第二步,每个基因的名词发生值与基值做比较。选取词的发生值与基值的差异值超过阈值=t+的词。其中t是最小的阈值,k是常数,n是给定基因的相关摘要的数目;t和k是主观设定的而且直接影响结果和噪声水平,本实验选择t=15%和k=。第三步,只有当至少两个基因包含同一个词时,该词才可以用来定义基因之间的关系,因此只有至少通过两个基因的过滤的名词才保留下

10、来。第四步,当噪音词太多时,手动删除不相关的词。根据上述数据过滤原则和大肠腺瘤与大肠PJS息肉的组织学、病理生理及可能的相关发病机制等特点选词,从297个关键词中选择出的38个词,根据词义之间的相关性以同义词的方式合并,最终归为25类。并可根据词的意义对这个词的频率值乘以一定的权重,这样与这词相关的基因就易于聚成一类。等级聚类由于词及其发生值就象微阵列的基因及其表达值一样,因此基因表达谱聚类分析的方法和软件可以用来对词进行聚类分析。首先,用经过几轮过滤后定义的词来构建一个相对于各个基因的词发生值的词/基因阵列。其次,采用Eisen 实验室的聚类软件和树观看软件。用Cluster的平均连锁等级聚

11、类算法进行聚类分析;用Treeview观看结果。2结果从PJS患者的特异差异表达基因谱中得到270个已知基因名称的差异表达基因,从PUBMED得到22 776篇摘要,经过文字识别与数据过滤后,得到25个相关词。PJS相关基因聚类结果见封二图5。图左边代表树结构,上边代表用到的关键词,右边代表对应的基因,图中黄色亮点代表该词在对应基因的相关文献中出现的频率。聚类结果显示基因按词的发生模式聚成不同的类。局部放大显示为封二图6和封二图7,从聚类结果看,是与“遗传”和“先天缺陷”“肿瘤”“肌肉”“突变”关系密切的基因聚在一起,包括了COL6A2和COL6A3两个基因。因此,我们更仔细地检索这2个基因的

12、所有相关文献,发现COL6A2和COL6A3可能与PJS息肉有密切相关。3讨论文献轮廓挖掘技术12是基于芯片的表达监控实验产生大量的数据,采用基于文献轮廓的数据挖掘方法,从Medline文献数据库中提取基因的相关文献并分析词的频率,再基于重复发生和共发生的过滤标准提取功能相关的词,最后基于词的发生频率对基因进行功能聚类。这种文献轮廓的数据挖掘技术能简便而有效地用于表达谱数据分析,产生一个大量不同基因之间的功能关系的相干图,黄仲曦等3应用这种方法分析了鼻咽癌的微阵列数据,发现了两条新的发病基因。结合数据挖掘、文献分析和芯片实验结果,我们发现COL6A2和COL6A3是两个可能与PJS患者相关的基

13、因。本研究结果显示,在PJS患者的大肠错构瘤中,型胶原2基因COL6A2的表达为正常肠道黏膜的倍,而在腺瘤组织中,COL6A2的表达是正常肠黏膜的倍。型胶原3基因COL6A3的表达为正常肠道黏膜的倍,而在腺瘤组织中,COL6A3的表达是正常肠黏膜的倍。提示COL6A3,COL6A2在PJS患者中高表达,在腺瘤中低表达,是PJS可能的致病基因。进行性肌营养不良是一组主要累及骨骼肌系统的遗传性疾病。文献研究表明45,COL6A3,COL6A2基因突变可导致先天性肌肉营养发育不良Ullrich型及Bethlem肌病。Camacho Vanegas O6实验结果显示患者的胶原VI的mRNA和蛋白均处于

14、较低的水平,用免疫荧光法检查纤维原细胞和骨骼肌,发现型胶原基本缺乏,证实Ullrich病是由于胶原基因的突变,型胶原蛋白合成严重减少所引起。Lamande SR7研究认为Bethlem肌病不仅与正常型胶原蛋白合成减少有关,还与细胞外基质中出现异常的型胶原蛋白有关。PJS错构瘤的型胶原基因表达水平明显比正常肠黏膜增高,其过度表达可能是导致PJS患者胃肠道平滑肌过度发育生长的原因,值得进一步研究。【参考文献】 1张文彤,姜庆五,赵耐青,等.数据挖掘技术在生物信息学基因变异规律研究中的应用J.中国卫生统计,2005,22:5-8. 2朱凌云,吴宝明.医学数据挖掘的技术、方法及应用J.生物医学工程杂志

15、,2003,20(3):559-562.3黄仲曦, 姚开泰.用文献轮廓挖掘鼻咽癌微阵列表达数据J.第一军医大学学报,2004,24(7):798-801.4Lampe AK, Dunn DM, Von Niederhausern ACAutomated genomic sequence analysis of the three collagen VI genes: applications to Ullrich congenital muscular dystrophy and Bethlem myopathyJ. J Med Genet,2005,42(2):108-120.5Baker

16、NL, Morgelin M, Peat R, et al. Dominant collagen VI mutations are a common cause of Ullrich congenital muscular dystrophyJ. Hum Mol Genet,2005,14(2):279-293.6CamachoVanegas O, Bertini EUllrich scleroatonic muscular dystrophy is caused by recessive mutations in collagen type VIJ. Proc Natl Acad Sci U S A,2001,98(13):75

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号