数据处理及组装-杭州

上传人:wm****3 文档编号:46620881 上传时间:2018-06-27 格式:PDF 页数:37 大小:1.72MB
返回 下载 相关 举报
数据处理及组装-杭州_第1页
第1页 / 共37页
数据处理及组装-杭州_第2页
第2页 / 共37页
数据处理及组装-杭州_第3页
第3页 / 共37页
数据处理及组装-杭州_第4页
第4页 / 共37页
数据处理及组装-杭州_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《数据处理及组装-杭州》由会员分享,可在线阅读,更多相关《数据处理及组装-杭州(37页珍藏版)》请在金锄头文库上搜索。

1、测序数据的处理测序数据的处理倪培相倪培相 Total strategy of shotgun sequencing and assembly测序技术中的核心技术测序技术中的核心技术测序技术中的核心技术测序技术中的核心技术?SangerSanger双脱氧终止法双脱氧终止法双脱氧终止法双脱氧终止法 ?PCRPCR技术技术技术技术对对L L- -WW理论曲线的讨论理论曲线的讨论设: G= haploid genome length in bp; L= length of clone insert in bp; N= number of clones fingerprinted; = N / G =

2、probability per base of starting a number clone; T= amount of overlap in base pairs needed to detect overlap; = T / L; overlap in base pairs needed to detect overlap; c= redundancy of coverage = LN/G.GNLc=Proposition 1. Let be the fraction of which two clones mucst share in order that the overlap ?

3、detectable given the fingerprinted scheme, let N be the number of clones fingerprinted, and let c be the redundancy of coverage. Also, let LT=111. The expected number of apparent islands is cNe 2. The expected number of apparent islands composisting of j clones is) 1( j1)1 (jc2ceNe3. The expected nu

4、mber of apparent islands composisting of at least two clones is 2ccNeNeContig Contig 个数个数Contig Contig 覆盖度覆盖度与实际曲线的比较与实际曲线的比较常用数据处理软件的使用常用数据处理软件的使用 phredphred phd2fastaphd2fasta cross_matchcross_match phrapphrap consedconsed一、一、phredphred 功能:从上游得到的峰图文件中读出碱基生成功能:从上游得到的峰图文件中读出碱基生成phdphd文文 件。件。 前提:前提:s

5、etenvsetenv PHRED_PRAMETER_FILE PHRED_PRAMETER_FILE / /usr/local/genome/bin/lib/phredpar.datusr/local/genome/bin/lib/phredpar.dat 基本命令:基本命令: phred phred - -id id chromat_dirchromat_dir/ / - -pd pd phd_dirphd_dir/ / - - trim_phdtrim_phd - -trim_alttrim_alt “ “ “ “ - -trim_cutoff 0.01trim_cutoff 0.01p

6、hredpar.datphredpar.dat文件文件“ET“ET- -21m13fwd 21m13fwd longreaderlongreader“ primer energy“ primer energy- -transfer ABI_373_377transfer ABI_373_377 “mob377longrngrxlET“ primer energy“mob377longrngrxlET“ primer energy- -transfer ABI_373_377transfer ABI_373_377 “ET40m13960208“ primer energy“ET40m13960

7、208“ primer energy- -transfer ABI_373_377transfer ABI_373_377 “DP5%LRBD_M13_FWD_ screen.out.seq.screen ; screen.out* *. .seq.screenseq.screen文件格式文件格式203C04_0411.Z1.ABD CHROMAT_FILE: 203C04_0411.Z1.ABD PHD_FILE: 203C04_0411.Z1.ABD.phd.1 TIME: Sun Feb 6 00:20:41 2000 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

8、XXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXCTGGGGGGCTCT TTTCTCCAGTTTTAAAGGCCTTGGAGCTCCGTTGATCCATTAACGACCTT CGAAAAGGGGGAGAACAGGATCAGGTAAATATGAGTGGTACCCTTATCAA CCATTTTAAAGATCTTGCCCCCCTTTAA

9、ATCAGAGATGTATAAGCACAAA GGGGTTTTTCTGCCAACATAGTGTTCACAAAAAAAGGTATATAACCCTCA GCAGTTCGAAAAATATAGCCTCGGAATCACACGAGTATCGGCATTATATA AACCACGTCTAATGTAAGCACTscreen.outscreen.out文件格式文件格式cross_matchcross_match primer2.seq ./primer1.seq primer2.seq ./primer1.seq - -minmatchminmatch 12 12 - -penalty penalty - -2

10、2 - -minscoreminscore 20 20 - -screen screen - - alignments alignments - -discrep_listsdiscrep_lists cross_matchcross_match version 0.990329version 0.990329Run Run date:timedate:time060214:011344060214:011344 Query Query file(sfile(s): primer2.seq): primer2.seq Subject Subject file(sfile(s): ./prime

11、r1.seq): ./primer1.seq Presumed sequence type: DNA Presumed sequence type: DNA 287 2.65 0.59 0.00 XiongX_2R_D01.ab1 2 341 (68) C re287 2.65 0.59 0.00 XiongX_2R_D01.ab1 2 341 (68) C ref_2 (66) 543 202 f_2 (66) 543 202 C XiongX_2R_D01.a 91 GTGAAATCAATATCCCGCACAAGAGTGCTACTCTCCTCGC XiongX_2R_D01.a 91 GT

12、GAAATCAATATCCCGCACAAGAGTGCTACTCTCCTCGCTCCGGGCCCA 42CTCCGGGCCCA 42ref_2 452 GTGAAATCAATATCCCGCACAAGAGTGCTACTCTCCTCGref_2 452 GTGAAATCAATATCCCGCACAAGAGTGCTACTCTCCTCGCTTCGGGCCCA 501CTTCGGGCCCA 501C XiongX_2R_D01.a 41 TAACACTTGGGGC XiongX_2R_D01.a 41 TAACACTTGGGG- -TAGCTAAAGTGAATAGCTAAAGTGAA- -GGTATCCGA

13、CATCTG 2GGTATCCGACATCTG 2- -I I - -v v ref_2 502 TAACACTTGGGGGTAGTTAAAGTGAACTGTATCCGACATref_2 502 TAACACTTGGGGGTAGTTAAAGTGAACTGTATCCGACATCTG 543CTG 543Transitions / Transitions / transversionstransversions = 0.50 (3 / 6)= 0.50 (3 / 6) Gap_initGap_init rate = 0.01 (2 / 342), avg. gap size = 1.00 (2 /

14、 2) rate = 0.01 (2 / 342), avg. gap size = 1.00 (2 / 2) S 16 C(8) 529 S 16 C(8) 529 ggatacCttcactggatacCttcact D 16 C(8) 528 D 16 C(8) 528 ggatacCttcactggatacCttcact S 26 G(9) 518 S 26 G(9) 518 actttaGctacccactttaGctaccc D 29 A(21) 514 D 29 A(21) 514 ttatctAccccaattatctAccccaa四、四、phrapphrap 功能:对所有的功能:对所有的readsreads根据它们的序列文件根据它们的序列文件 和质量文件比较各个和质量文件比较各个 readsreads之间的之间的 overlapoverlap,对最有可能的,对最有可能的readsreads进行拼接。进行拼接。 基本命令:基本命令:phrap phrap project.seq.screenproject.seq.screen - - new_acenew_ace phrap.outphrap.outPhrapPhrap生成文件生成文件 project.seq.screen.contigsp

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 高中教育 > 物理资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号