应用文献轮廓挖掘技术分析黑斑息肉综合征差异表达基因

上传人:油条 文档编号:2113831 上传时间:2017-07-20 格式:DOC 页数:9 大小:33KB
返回 下载 相关 举报
应用文献轮廓挖掘技术分析黑斑息肉综合征差异表达基因_第1页
第1页 / 共9页
应用文献轮廓挖掘技术分析黑斑息肉综合征差异表达基因_第2页
第2页 / 共9页
应用文献轮廓挖掘技术分析黑斑息肉综合征差异表达基因_第3页
第3页 / 共9页
应用文献轮廓挖掘技术分析黑斑息肉综合征差异表达基因_第4页
第4页 / 共9页
应用文献轮廓挖掘技术分析黑斑息肉综合征差异表达基因_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《应用文献轮廓挖掘技术分析黑斑息肉综合征差异表达基因》由会员分享,可在线阅读,更多相关《应用文献轮廓挖掘技术分析黑斑息肉综合征差异表达基因(9页珍藏版)》请在金锄头文库上搜索。

1、1应用文献轮廓挖掘技术分析黑斑息肉综合征差异表达基因【摘要 】 目的探索黑斑息肉综合征(PJS)特异性相关基因。方法根据 PJS 基因谱表达系列,采用基于文献轮廓的数据挖掘方法,从Medline 文献数据库中提取基因的相关文献并分析词的频率,再基于重复发生和共发生的过滤标准提取功能相关的词,最后基于词的发生频率对基因进行功能聚类。结果从 PJS 患者的特异差异表达基因谱中得到 270 个已知基因名称的差异表达基因,从聚类结果看,是与“遗传”和“先天缺陷” “肿瘤” “肌肉” “突变”关系密切的基因聚在一起,包括了 COL6A2 和 COL6A3 两个基因。结论COL6A2 和 COL6A3 可

2、能是 PJS 特异性相关基因。 【关键词】 黑斑息肉综合征 微阵列 数据挖掘 生物信息学Mining Gene Expression Microarray Data of PeutzJeghers Syndrome by Literature ProfilingDai Yichen, Huang Zhongxi, Song Yugang, Xie Junpei, Zeng Wei21.Department of Gastroenterology, PLA No.174 Hospital, Xiamen 361003, China;2.South Hospital, Guangzhou 5105

3、15, ChinaAbstract: ObjectiveTo search for the studies on PeutzJeghers syndrome (PJS)related genes. MethodsPJS microarray gene expression data was mined by literature profiling. The search was based on the analysis of literature profiles generated by extracting the frequencies of certain terms from t

4、he abstracts on these different expression genes stored in the Medline literature database. Terms are then filtered on the basis of both repetitive occurrence and cooccurrence among multiple gene entries. Finally, clustering analysis with Cluster and Treeview program was performed. ResultsCOL6A2 and

5、 COL6A3 were the two novel genes related with PJS polyps. ConclusionCOL6A2 and COL6A3 genes may play an important role in the pathogenesis of PJS polyps.Key words: PeutzJeghers syndrome; microarray; literature profiling;computational biology3我们应用文献轮廓挖掘技术分析 PJS 基因差异表达情况,揭示参与 PJS 形成的多个基因的功能关系以及发现特异性的相

6、关基因,进而揭示 PJS 形成的可能机制。1 材料和方法11 获取差异表达基因把资料完整地入选病例分为大肠腺瘤组、PJS 大肠息肉组和正常大肠黏膜对照组。大肠镜检查术中留取的新鲜组织标本液氮冻存备用,按 Trizol 一步法提取样品组织总RNA,经质量检测后,将各组的 RNA 样品等量混合,进行反转录荧光标记,用 Cy3dUTP 标记大肠腺瘤组和大肠 PJS 息肉组的cDNA,用 Cy5dUTP 标记正常大肠黏膜组的 cDNA。将已标记的样品 cDNA 探针与深圳微芯生物公司提供的含有 8 064 个人类靶基因的基因表达谱芯片进行杂交,经清洗、扫描仪扫描荧光图像、提取杂交信号,经转换后以数据形

7、式输出,对数据进行标准化处理后用生物信息学软件进行生物信息学分析。以芯片中密度值在 5108以上的数据点为有效数据,同时把比值2 或0.5 的数据点作为存在显著性表达差异基因点的筛选标准,筛选各组间差异表达的基因。根据差异表达基因的筛选标准,选取已知基因名称的差异表达基因。大肠 PJS 息肉特异性表达变化的基因有 270 个,其中已知基因 259 个, EST 11 个。41.2 获取基因的相关摘要通过检索在 PUBMED 文献中那些在标题中包含基因的官方名称、缩写或别称的条目来获取基因的相关文献。如果检索到的文献不足 5 篇, 则需进一步扩展到摘要中包含基因名称的条目,甚至用基因家族名称代替

8、基因名称。基因命名的信息从人类基因命名委员会(HGNC)的网站和 NCBI 的 Locuslink的网站上获取。由于相当大量的文献并不遵守官方命名,因此一方面会存在漏检现象,另一方面则出现假阳性。为了避免过高的假阳性,有必要快速浏览搜索结果以便发现并删除不恰当的检索字符串。1.3 文字分析选择 XML 的输出格式后,点击工具条的保存按钮就可以将查询结果保存下来。摘要从输出文件中抽取来,并保存在一个新文件中,并且一篇摘要保存一行。用 Montreal 公司的 Provalis Research 软件的 Wordstat 模块的“文本转换魔术师 ”对每个文件进行格式转化。再用 simstat 模块

9、打开并用“内容分析”的统计方法进行分析。输出选择词的类别百分比。1.4 数据过滤在分析的文献中发现的每一个特定词都赋予一个发生频率值,这样每一个基因都有好几万条记录。5这些词当中大多数要么是普遍存在的(例如, “if”,“because”, “cell”, “identified”在大多数基因的大多数摘要中都出现) ,要么是极罕见的(只在极少数基因的极少数摘要中出现) ,因此对于定义基因特异性词的发生轮廓没有多大用处,必须删除。剩下的词则是出现在少数基因的大多数摘要中,从而传递了这些基因的相关信息。数据过滤规则:第一步,删除在科学文献当中常见的词。选用每个词在 250 个随机选取的基因中的发生

10、值的平均值来确定该词的基值。把基值超过 5%的词归为无辨别力的一类并删除。第二步,每个基因的名词发生值与基值做比较。选取词的发生值与基值的差异值超过阈值=t+(k/n)的词。其中 t 是最小的阈值,k是常数,n 是给定基因的相关摘要的数目;t 和 k 是主观设定的而且直接影响结果和噪声水平,本实验选择 t=15%和 k=1.5(这样当文献只有 5 篇时,阈值为 45%,而当文献数目很大时,最小阈值为15%) 。第三步,只有当至少两个基因包含同一个词时,该词才可以用来定义基因之间的关系,因此只有至少通过两个基因的过滤的名词才保留下来。第四步,当噪音词太多时,手动删除不相关的词。根据上述数据过滤原

11、则和大肠腺瘤与大肠 PJS 息肉的组织学、病理生理及可能的相关发病机制等特点选词,从 297 个关键词中选择出的 38 个词,根据词义之间的相关性以同义词的方式合并,最终归为 25 类。并可根据词的意义对这个词的频率值乘以一定的权重,这样与这词相关的基因就易于聚成一类。61.5 等级聚类由于词及其发生值就象微阵列的基因及其表达值一样,因此基因表达谱聚类分析的方法和软件可以用来对词进行聚类分析。首先,用经过几轮过滤后定义的词来构建一个相对于各个基因的词发生值的词/基因阵列。其次,采用 Eisen 实验室的聚类软件(Cluster)和树观看软件(Treeview) 。用 Cluster 的平均连锁

12、等级聚类算法进行聚类分析;用 Treeview 观看结果。2 结果从 PJS 患者的特异差异表达基因谱中得到 270 个已知基因名称的差异表达基因,从 PUBMED 得到 22 776 篇摘要,经过文字识别与数据过滤后,得到 25 个相关词。PJS 相关基因聚类结果见封二图 5。图左边代表树结构,上边代表用到的关键词,右边代表对应的基因,图中黄色亮点代表该词在对应基因的相关文献中出现的频率。聚类结果显示基因按词的发生模式聚成不同的类。局部放大显示为封二图 6 和封二图 7,从聚类结果看,是与 “遗传”和“先天缺陷” “肿瘤” “肌肉” “突变”关系密切的基因聚在一起,包括了 COL6A2 和

13、COL6A3 两个基因。因此,我们更仔细地检索这2 个基因的所有相关文献,发现 COL6A2 和 COL6A3 可能与 PJS7息肉有密切相关。3 讨论文献轮廓挖掘技术12是基于芯片的表达监控实验产生大量的数据,采用基于文献轮廓的数据挖掘方法,从 Medline 文献数据库中提取基因的相关文献并分析词的频率,再基于重复发生和共发生的过滤标准提取功能相关的词,最后基于词的发生频率对基因进行功能聚类。这种文献轮廓的数据挖掘技术能简便而有效地用于表达谱数据分析,产生一个大量不同基因之间的功能关系的相干图,黄仲曦等3应用这种方法分析了鼻咽癌的微阵列数据,发现了两条新的发病基因。结合数据挖掘、文献分析和

14、芯片实验结果,我们发现 COL6A2 和 COL6A3 是两个可能与 PJS 患者相关的基因。本研究结果显示,在 PJS 患者的大肠错构瘤中,型胶原 2 基因COL6A2( FJ 细胞外基质蛋白)的表达为正常肠道黏膜的 2.38 倍,而在腺瘤组织中,COL6A2 的表达是正常肠黏膜的 0.87 倍。型胶原 3 基因 COL6A3 的表达为正常肠道黏膜的 2.86 倍,而在腺瘤组织中,COL6A3 的表达是正常肠黏膜的 0.92 倍。提示COL6A3, COL6A2 在 PJS 患者中高表达,在腺瘤中低表达,是PJS 可能的致病基因。进行性肌营养不良是一组主要累及骨骼肌系统的遗传性疾病。文献研究

15、表明45 , COL6A3,COL6A2 基因突变可导致先天性肌肉营养发育不良 Ullrich 型及 Bethlem 肌病。8Camacho Vanegas O6 实验结果显示患者的胶原 VI 的 mRNA和蛋白均处于较低的水平,用免疫荧光法检查纤维原细胞和骨骼肌,发现型胶原基本缺乏,证实 Ullrich 病是由于胶原基因的突变,型胶原蛋白合成严重减少所引起。Lamande SR7研究认为Bethlem 肌病不仅与正常型胶原蛋白合成减少有关,还与细胞外基质中出现异常的型胶原蛋白有关。PJS 错构瘤的型胶原基因表达水平明显比正常肠黏膜增高,其过度表达可能是导致 PJS 患者胃肠道平滑肌过度发育生

16、长的原因,值得进一步研究。【参考文献】1张文彤,姜庆五,赵耐青,等.数据挖掘技术在生物信息学基因变异规律研究中的应用J.中国卫生统计,2005,22(1):5-8.2朱凌云, 吴宝明 .医学数据挖掘的技术、方法及应用 J.生物医学工程杂志,2003,20(3):559-562.3黄仲曦, 姚开泰. 用文献轮廓挖掘鼻咽癌微阵列表达数据J. 第一军医大学学报,2004,24(7):798-801.4Lampe AK, Dunn DM, Von Niederhausern ACAutomated genomic sequence analysis of the three 9collagen VI genes: applications to Ullrich congenital muscular dystrophy and Bethlem myopathyJ . J Med Genet,2005,42(

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号