<>内为需要输入的内容,但不包括括号所有命令都需要在MrBayes >的提示下 才能输入文件格式: 文件输入,输入格式为 Nexus file (ASCII, a simple text file ,如图):或者还有其他信息:interleave=yes 代表数据矩阵为交叉序歹!J interleaved sequencesnexus文件可由MacClade 或者Mesquite 生成但Mrbayes并不支持the full Nexus standard 同时,Mrbayes象其它许多系统软件一样允许模糊特点,如:如果一个特点有 两个状态2、3,可以表示为:(23) , (2,3) , {23}或者{2,3}但除了 DNA{A, C, G, T, R, Y, M, K,S, W, H, B, V, D, N}、RNA{A, C, G, U, R, Y, M, K, S, W, H, B, V, D, N}、Protein {A, R, N, D, C, Q, E, G, H, I, L, K, M, F, P , S, T, W, Y, V, X卜二进制 数据{0, 1}、标准数据(形态学数据){0, 1,2, 3, 4, 5, 6, 5, 7, 8, 9}外,并不支持 其他数据或者符号形式。
执行文件:execute 或缩写exe ,注意:文件必须在程序所在 的文件夹(或者指明文件具体路径),文件名中不能含有空格,如果执行成功, 执行窗口会自动输出文件的简单信息选定模型:lset 和 prset , lset 用于定义模型的结构, prset 用于通常至少需要两个命令,定义模型参数的先验概率分布在进行分析之前可以执行 showmodel 命令检查当前矩阵模型的设置或者执行 help lset 检查默认设置(如图) :略Nucmodel 用于指定 DNA 模型的一般类型 我们通常选取标准的核苷酸替代模型 nucleotide substitution model ,即默认选项 4by4 另外, Doublet 选项用于 paired stem regions of ribosomal DNA 的分析, Codon 选项用于 DNA sequence in terms of its codons 的分析替代模型的一般结构一般由 Nst 设置决定默认状态下,所有的置换比率相同,对应于 F81 模型( JC model ) 一般我们选用 GTR 模型,即 nst=6 。
Code 设置只有在 DNA 模型设置为 codon 的情况下才使用 Ploidy 设置也与我们无关Rates 通 常 设 置 为 invgamma (gamma-shaped rate variation with aproportion of invariable sites) ,Ngammacat(the number of discrete categories used to approximate thegamma distribution) 一般采用默认选项 4 通常这个设置已经足够,增加该选项设置的数量可能会增加似然计算的精确性, 但所花时间也成比例增加, 大多数情况下,由增加该数值对结果的影响可以忽略不计余下的选项中,只有 Covarion 和 Parsmodel 与单核苷酸模型相关,而我们既不会采用 parsimony model ,也不会采用 the covariotide model ,故保留默认状态在对矩阵作了以上修改后,重新输入 help lset 命令,可以查看变化后的设置设置先验参数 prior :现在可以为模型设置先验参数了模型有 6 种类型的参数: the topology, thebranch lengths, the four stationary frequencies of the nucleotides, the sixdifferent nucleotide substitution rates, the proportion of invariable sites,and the shape parameter of the gamma distribution of rate variation.默认参数在大多数分析中都已足够, 通常不许修改, 如需立即使用, 这部分可以跳过。
通过输入 help prset 可以获得模型的各参数默认设置列表:略,我们只对 Revmatpr (for the six substitution rates of the GTR rate matrix), Statefreqpr (for the stationary nucleotide frequencies of the GTR rate matrix), Shapepr (for the shape parameter of the gamma distribution ofrate variation), Pinvarpr (for the proportion of invariable sites), Topologypr (for the topology), Brlenspr (for the branch lengths) 这几项设置作简单介绍Revmatpr and Statefreqpr 的默认的先验概率密度 prior probability density都是 a flat Dirichlet (所有值都为 1.0) 有时可能需要把 Statefreqpr 设置为equal ,比如在 JC and SYM 模型下,命令 prset statefreqpr=fixed(equal) 。
如果我们要对默认的 statefreqpr 的 flat Dirichlet prior 状态加以强调, 即 equal nucleotide frequencies 可 以 输 入 命 令 prset statefreqpr=Dirichlet(10,10,10,10)或 者 更 甚 的 强 调 prsetstatefreqpr=Dirichlet(100,100,100,100)如果修改了该选项后想改回来,输入 prset statefreqpr=Dirichlet(1,1,1,1)或者 prsst= Dir(1,1,1,1) Shapepr 参数定义 the prior for the a (shape) parameter of the gamma distribution of rate variation.Pinvarpr 参数定义 the prior for the proportion of invariable sites Topologypr 参数默认设置 uniform puts equal probability on all distinct,fully resolved topologies.The alternative is to constrain some nodes in the tree to always bepresent but we will not attempt that in this analysis.Brlenspr 参数可以设置为 unconstrained 或者 clock-constrained 。
默认为 unconstrained ,对于没有 分子钟 的树, the branch length prior 可以设置为指数的 exponential 或者均一的 uniform ,默认为指数的,参数为 10.0 ,对大 多分析都合适 可以在分析前输入 showmodel 命令检查模型的设置分析及设置:由 mcmc 命令设置参数并开始分析在设置前可以输入 help mcmc 命令查看默认设置Seed 是随机数产生器随机输出的一个种子数值 Swapseed 是单独的用于产生随机交换序列 the chain swapping sequence 的随机数产生器 除非特别指定,这两个值由系统时钟生成Ngen (number of generations )设置分析要跑的代数通常可以先设置较少并可以估计一个较长的分析所要花的时间和代数如果要设置 ngen 值但不想立即开始分析,可以使用 mcmcp 命令,如mcmcp ngen=10000 默认状态下, bayes 会同时运行两个 (Nruns = 2) 完全独立的但由不同的随机树开始的分析一般采取默认设置检查 Mcmcdiagn 参数是否设置为 yes , Diagnfreq 是否设置为一个合适的值,如默认的每第 1000 代(可以更改) 。
这样 bayes 会在每第 1000 代计算各种运行(分析)的诊断,并把它们保存在一个 .mcmc 的文件中最重要的诊断, 不同分析中树取样 the tree samples 的相似性的衡量, 也会在每 1000代输出到屏幕上 每一次诊断完成, 一个固定数量 (burnin) 或者比例 (burninfrac)的样品会被丢弃 Relburnin 参数定义是使用固定数量 (relburnin=no) 还是百分比 (relburnin=yes) 默认状态为 (relburnin=yes and burninfrac=0.25 ),即每个诊断完成, 25 %的样品被丢弃默认状态下, bayes 会使用 Metropolis coupling 提高 the MCMC sampling ofthe target distribution Swapfreq, Nswaps, Nchains 和 Temp 四个参数一起控制 Metropolis coupling 行为Nchains 设置为 1 ,不使用 heating 设置为 n , n-1 个热链 heated chains 被使用。
默认n=4,表示bayes会使用3个热链和1个"cold" chain 根据经验,heating 对于大于 50 个类群(序列)的分析是很重要的增加热链数量对于分析大的困难的数据集可能有帮助但分析时间也会随着链的增加成比例增加MPI 版本的程序要好些,时间影响较小Bayes 使用一种增值的热方案 an incremental heating scheme ,该方案下,通过增加其后验概率,链i被heated到the power 1/ (1 + i 其中a是由Temp参数控制 Heating 的作用是保持后验概率平稳 flatten out the posteriorprobability ,以便热链可以轻松找到后验概率中的峰 isolated peaks ,帮助冷链 cold chain 快速通过这些峰每第 Swapfreq 代,会从两条链中随机抽取并交换它们的状态 an attempt is made to swap their states 默认参数对大多数分析已足够,但如果你采用了不止 3 个热链,你可以增加交换数量 (Nswaps)number of swaps ,默认设置为每次链停交换一次 that are tried each timethe chain stops for swapping 。
Samplefreq 定义对链取样的频率默认状态。