文档详情

基因中常见的名词解释

大米
实名认证
店铺
DOCX
7.95KB
约1页
文档ID:429157696
基因中常见的名词解释_第1页
1/1

基因组拼接中常见的名词解释Read:高通量测序平台产生的序列就称为readsContig:拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig (重叠群)Scaffold:基因组de novo测序,通过reads拼接获得Contigs后,往往还需要 构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3血、 6Kb、10Kb、20Kb)两端的序列基于这些序列,可以确定一些Contig之间的 顺序关系,这些先后顺序已知的Contigs组成ScaffoldContig N50: Reads拼接后会获得一些不同长度的Contigs将所有的Contig 长度相加,能获得一个Contig总长度然后将所有的Contigs按照从长到短进 行排序,如获得 Contig 1,Contig 2,Contig 3... Contig 25将 Contig 按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加 上的 Contig 长度即为 Contig N50举例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50。

Contig N50可以作为 基因组拼接的结果好坏的一个判断标准Scaffold N50: Scaffold N50与 Contig N50的定义类似Contigs 拼接组装获得 一些不同长度的Scaffolds将所有的Scaffold长度相加,能获得一个Scaffold 总长度然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1, Scaffold 2, Scaffold 3... Scaffold 25将 Scaffold 按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即 为 Scaffold N50举例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold 总长度*1/2时,Scaffold 5的长度即为 Scaffold N50Scaffold N50可 以作为基因组拼接的结果好坏的一个判断标准测序深度和覆盖度:测序深度是指测序得到的总碱基数与待测基因组大小的比值假设一个基因 大小为2M,测序深度为10X,那么获得的总数据量为20M。

覆盖度是指测序获得的序列占整个基因组的比例由于基因组中的高GC、 重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的 区域,这部分没有获得的区域就称为Gap例如一个细菌基因组测序,覆盖度 是98%,那么还有2%的序列区域是没有通过测序获得的。

下载提示
相似文档
正为您匹配相似的精品文档