ZD39 BQ - PDF Free Download

58 生物信息学第一篇生物信息学基础第 1-3 章两条序列联配算法及序列搜索序列分析是生物信息学最主要的研究内容之一, 它可以分为两个主要部分 : 一是序列组成分析 ( 包括基因和基因组层次 ), 二是序列之间的比较分析两条序列或多条序列间的联配或比对, 目的是对它们的序列相似性进行评估, 找出这些序列中结构或功能相似性区域等通过联配未知序列与已知序列 ( 其功能或结构等已知 ) 的相似程度, 我们可以判断或推测未知序列的结构与功能第一节序列联配基本概念序列联配 (sequence alignment) 也叫序列对比, 是生物信息学中的重要内容之一, 许多生物信息学分析均涉及序列联配方法如下两条 DNA 序列 : >seq1 TGCGGAGC >seq2 TCGGAGC 我们简单地把它们联配如下, 仅有两个碱基匹配 : TGCGGAGC TCGGAGC 如果我们在一条序列中引入一个空位或空格 (gap), 即一条 DNA 序列在进化过程中经常发生的碱基删除事件, 它们的联配结果会显著改善 : TGCGGAGC T-CGGAGC 序列联配我们可以定义如下 : 根据特定的计分规则, 通过一定的算法对两条或多条 DNA 或蛋白质序列进行比较, 找出它们之间最优匹配或最大相似度匹配序列联配的意义在于, 通过序列比对可以获得一个序列相似性度比对值, 通过这个值的统计学特征分析 ( 见本章第四小节 ), 可以获得两条序列相似度或同源性的一个统计学判断如果达到显著水平, 说明两条序列相似, 进化上有亲缘关系在序列分析中, 大量问题涉及这样的相似度判断, 如基因家族系统发育等分析根据序列联配的目的不同, 序列联配可以分为全局联配和局部联配两种方式全局联配 (global alignment) 目的是对两条序列的全长进行比对, 目标是基于它们的全长序列获得最优匹配结果同样上例两条序列, 以一定计分规则 ( 如碱基匹配得 1 分, 错配罚 1 分, 一个空位罚 3 分 ), 它们的全局最优联配结果如下 :

第 1-3 章两条序列联配算法及序列搜索 59 TGCGGAGC T-CGGAGC (7-3 = 4 分 ) 局部联配 (local alignment) 的目的是获得两条序列比对中得分最高的匹配片段上例的局部最优联配结果为 : CGGAGC CGGAGC (6 分 ) 上述案例的两条序列很短, 略加比较就可以获得最佳匹配结果而实际应用中, 序列往往很长, 可能的联配方式很多, 这样就需要一个算法找到两条序列的最佳匹配结果 ( 详见第三节 ) 由此可见, 进行序列匹配, 需要一个计分规则 / 系统 ( 生物信息学专业名称叫计分矩阵 ) 和一个确定最优联配的算法, 同时, 还需要一个统计方法确定序列间的相似程度以下各节就分别对计分矩阵联配算法和统计方法进行讲解第二节计分矩阵计分矩阵 (scoring matrix) 是序列联配过程中使用的计分规则, 是序列比对的重要组成部分, 它给出序列联配中碱基或氨基酸匹配或错配值, 故又称替换矩阵 ( substitution matrix) DNA 序列相对比较简单, 只有 4 种碱基, 而蛋白质序列有 20 种氨基酸, 如何给出这些氨基酸匹配和错配的一个科学准确评价值, 即准确反映它们的生物学特征, 是生物信息学发展之初就面临的问题, 也是最早被解决的序列联配关键问题一计分矩阵的一般原理构建计分矩阵, 我们需要找到一个可以估计任何联配的某一统计数, 使生物学关系最显著的联配统计数最大先看以下 2 条氨基酸序列的联配情况如果我们将各残基按相同率处理, 则 2 种联配方式 (a 和 b) 的得分是相等的 (9 个残基中 5 个匹配 ): ( a) TTYGAPPWCS ( b) TTYGAPPWCS TGYAPPPWS TGYAPPPWS 但是联配 (a) 中是一些相对常见的残基 (A P S 和 T) 保持一致, 而联配 (b) 则是有一些相对稀有残基 (W- 色氨酸和 Y- 酪氨酸 ) 相一致我们需要一个更科学的赋分方法来反映匹配氨基酸间生物学和化学关系实际联配中,C-C 匹配相对比 S-S 匹配更重要些, 因为半胱氨酸 (C) 是具有非常特殊性质的相对稀有氨基酸, 而丝氨酸 ( S) 则相对常见或普通同样, D-E 错配值应取正值, 因为这两个残基具有相同的化学性质, 在两条联配的蛋白质序列中能起到相同的功用但是,V-K 匹配结果则应被罚分, 因为这两个残基毫无相似, 不可能在两条序列中起到一样的作用用于 DNA 序列联配的替换矩阵相对比较直观以下是一个常被使用的 DNA 替换

60 生物信息学第一篇生物信息学基础矩阵 : A C G T A 0.9-0.1-0.1-0.1 C -0.1 0.9-0.1-0.1 G -0.1-0.1 0.9-0.1 T -0.1-0.1-0.1 0.9 矩阵中每个匹配的碱基对均计为 0.9 分, 每个不匹配 ( 错配 ) 的碱基对被罚 0.1 分, 这样, 下面一个联配的得分应为 5 0.9+2 ( -0.1)= 4.3: GCGCCTC GCGGGTC 用于蛋白质联配的替换矩阵相对复杂, 因为没有一个矩阵可以适用各种情况构建矩阵时, 应考虑不同的蛋白质家族在进化过程中一种氨基酸突变成另一种氨基酸概率的差异, 根据不同的蛋白质家族和预期的相似程度构建不同的替换矩阵两个最著名的氨基酸替换矩阵分别是 PAM 和 BLOSUM, 它们分别是在 1979 年和 1992 年被提出的一个重要的概念必须明确同源性 (homology) 和相似性 (similarity) 是不同的 2 个概念, 不能混淆和混用 2 条序列具有同源性, 意味着这两条序列存在进化方面的关系, 它们从一条共同的祖先序列进化而来 ; 而相似性, 只是表明两条序列间具有一定的相似程度序列联配计分中另一个重要问题是空位问题空位处理是针对序列进化过程中可能发生的插入和缺失而设计的插入和缺失可能只涉及 1 个或多个碱基或残基, 也可能是整个功能域 (domain), 所以, 在进行空位罚值设计时必须反映这些情况一般用两个参数应用于空位罚值 (gap penalties) 设定, 一个与空位设置 (gap opening) 有关, 另一个与空位扩展 (gap extension) 有关任一空位的出现均处以空位设置罚值, 而任一空位的扩大则处于空位扩展罚值对于一个空位长度为 k 的罚值 w K 可用下式表示 : w k = a+bk 其中 a 是空位设置罚值,b 为空位扩展罚值这两个参数值设置的变化会对联配产生明显影响 ( 表 1-3.1) 表 1-3.1 空位设置和空位扩展罚值对联配的影响空位设置罚值 (a) 空位扩展罚值 (b) 联配效果大大极少插入或缺失, 适用于非常相关蛋白质间的联配 ; 大小少量大块插入, 用于整个功能域可能插入的情况小大大量小块插入, 适用于亲缘关系较远的蛋白质同源性分析如何设定罚值并无明确的理论可循, 大的空位设置罚值配以很小的空位扩展罚值, 被普遍证实是最佳的设定思路经过多年的试验, 一个合适的空位罚值方式已经被确定下来, 大多数联配程序均对特定的替换矩阵设定了空位罚值的缺略值 (default) 如果使用者希望使用不同的替换矩阵, 则可以根据特殊问题设置合适的空位罚值标准

二氨基酸替换矩阵第 1-3 章两条序列联配算法及序列搜索 61 1. PAM 替换矩阵已故 Dayhoff 是蛋白质列序比较的先驱, 她和她的同事们通过对蛋白质进化模式的研究, 建立了一组被广泛应用的氨基酸替换矩阵, 这些矩阵常被称为 Dayhoff 矩阵 MDM (Mutation Data Matrix) 或 PAM(Percent Accepted Mutation) 矩阵由于蛋白质最有可能是自然选择的目标, 可以认为蛋白质序列的分析比 DNA 分析更具有生物学意义蛋白质分析完全避免了几个三联体可能编码同一氨基酸的遗传密码简并问题各种氨基酸间特性不一样, 在进化过程中一种氨基酸被另一种氨基酸替换的概率大小也不一样例如氨基酸可分成中性疏水 (G A V L I F P M) 中性亲水(S T Y W N E C) 碱性(K R H) 和酸性 ( D E) 氨基酸等在比较许多具有相似特性蛋白质序列的基础上,Dayhoff 等 (1979) 确定了进化过程中一种氨基酸被另一种氨基酸替换的经验数据他们收集了大量蛋白质家族序列, 通过比较, 她们共观测到 1572 次替换事件以此为基础, 她们建立了表 1-3.2 的可观测或可接受点突变矩阵 A (accepted point mutation matrix)( 由于舍入误差使表中的数值相加不完全等于 1 572) 氨基酸 i 被氨基酸 j 替换的经验次数 ( 记作 A ij ) 可从上表中找到矩阵 A 可被称为原始 PAM 矩阵表 1-3.2 氨基酸替换次数表 (Dayhoff 等,1979) A R N D C Q E G H I L K M F P S T W Y R 30 N 109 17 D 154 0 532 C 33 10 0 0 Q 93 120 50 76 0 E 266 0 94 831 0 422 G 579 10 156 162 10 30 112 H 21 103 226 43 10 243 23 10 I 66 30 36 13 17 8 35 0 3 L 95 17 37 0 0 75 15 17 40 253 K 57 477 322 85 0 147 104 60 23 43 39 M 29 17 0 0 0 20 7 7 0 57 207 90 F 20 7 7 0 0 0 0 17 20 90 167 0 17 P 345 67 27 10 10 93 40 49 50 7 43 43 4 7 S 772 137 432 98 117 47 86 450 26 20 32 168 20 40 269 T 590 20 169 57 10 37 31 50 14 129 52 200 28 10 73 696 W 0 27 3 0 0 0 0 0 3 0 13 0 0 10 0 17 0 Y 20 3 36 0 30 0 10 0 40 13 23 10 0 260 0 22 23 6 V 365 20 13 17 33 27 37 97 30 661 303 17 77 10 50 43 186 0 17 注 : 总计观测到 1572 次替换 ; 表中次数均已乘 10; 祖先序列不明时, 次数以平分处理

62 生物信息学第一篇生物信息学基础由矩阵 A 可以进一步获得突变概率矩阵 M ( mutation probability matrix) 矩阵 M 的元素 M ij 表示经过一定的进化时期氨基酸 j 被氨基酸 i 所替换的经验频率 Dayhoff 等进而把可观测突变百分率 (percent accepted mutation 或 point accepted mutation per 100 residues), 即 PAM 作为一种时间度量单位假设同一位点不会发生二次以上的突变, 则 1PAM 等于 100 个氨基酸多肽链中预期发生一次替换所需的时间 Schwarts 和 Dayhoff(1979) 发现将突变概率矩阵 M 250 次方处理获得的 250PAM 矩阵, 对于研究远缘蛋白质之间进化关系是一个合适的时间单位 Dayhoff 等 ( 1979) 进一步定义了一个相对概率矩阵 R ( relatedness odds matrix), 表 1-3.3 中各元素已经对数处理, 为对数概率矩阵 (log-odds matrix), 并将最有可能发生相互替换的氨基酸归类排列表 1-3.3 PAM250 的对数概率矩阵 (Dayhoff 等,1979) C S T P A G N D E Q H R K M I L V F Y W C 12 S 0 2 T -2 1 3 P -3 1 0 6 A -2 1 1 1 2 G -3 1 0-1 1 5 N -4 1 0-1 0 0 2 D -5 0 0-1 0 1 2 4 E -5 0 0-1 0 0 1 3 4 Q -5-1 -1 0 0-1 1 2 2 4 H -3-1 -1 0-1 -2 2 1 1 3 6 R -4 0-1 0-2 -3 0-1 -1 1 2 6 K -5 0 0-1 -1-2 1 0 0 1 0 3 5 M -5-2 -1-2 -1-3 -2-3 -2-1 -2 0 0 6 I -2-1 0-2 -1-3 -2-2 -2-2 -2-2 -2 2 5 L -6-3 -2-3 -2-4 -3-4 -3-2 -2-3 -3 4 2 6 V -2-1 0-1 0-1 -2-2 -2-2 -2-2 -2 2 4 2 4 F -4-3 -3-5 -4-5 -4-6 -5-5 -2-4 -5 0 1 2-1 9 Y 0-3 -3-5 -3-5 -2-4 -4-4 0-4 -4-2 -1-1 -2 7 10 W -8-2 -5-6 -6-7 -4-7 -7-5 -3 2-3 -4-5 -2-6 0 0 17 表中数值均乘以 10 1PAM 相当于所有的氨基酸平均有 1% 发生了变化, 经过 100PAM 的进化, 并非每个氨基酸的残基均发生变化 : 有一些可能突变多次, 甚至又变成原来的氨基酸, 而另一些氨基酸可能根本没有发生过变化总体上说, 利用大于 100PAM 的时间间隔可能区分进化关系较远的同源性蛋白质应该注意,PAM 与进化时间之间没有大致对应关系, 因为不同的蛋白质家族的进化速率是不同的当 2 条序列进行相似性比较时, 事先不知道怎样的进化时间

(PAM) 是恰当的对于相近的序列, 比较容易选择, 即使不太合适的矩阵也无妨在很多年里,PAM250( 矩阵后面数字表示一种进化的距离, 数字越大, 进化距离越远 ) 是应用最广的替换矩阵, 因为该矩阵是唯一由 Dayhoff 最初发表的矩阵后来一些学者利用大量新出现的蛋白质序列数据更新 Dayhoff 矩阵的频率数值, 由此构建新的 PAM 矩阵, 但它们与最初的 PAM 矩阵没有太大的差异 2. BLOSUM 替换矩阵另外一种构建矩阵的方法是由 Henikoff 等于 1992 年提出的, 建成的矩阵称为 BLOSUM (blocks substitution matrix) 他们直接利用多序列联配 (multiple alignment) 分析亲缘关系较远的蛋白质, 而不是用近缘的序列这方法的优点是符合实际观测结果, 不足之处是它不能和进化挂起钩来大量的试验表明,BLOSUM 矩阵总体比 PAM 矩阵更适合于生物学关系的分析和局部相似性搜索假设 f ij 为序列联配中氨基酸 i 和 j 对 ( 忽略顺序 ), 则 i,j 对氨基酸所占比例为 : q ij = f ij / f ij i,j 在完全独立的状况下, 该比例的期望值为 : e ij = p2 i i = j { 2pi p j i j 则 BLOSUM 矩阵元素 (i,j) 定义为 : p i = q ii + 1 2 j iq ij s ij = 2log 2 (q ij / e ij ) 蛋白序列的高度保守区 ( highly conserved regions) 或称为模块 ( block) 数据被用于构建 BLOSUM 矩阵 BLOSUM 矩阵后的数字表示用于构建矩阵模块的最小相似比例, 例如 BLOSUM62 为用于构建矩阵的模块序列数据中, 序列片段的各联配点上至少 62% 是相同的矩阵后的数字越大, 则表示关系越近三位置特异性计分矩阵 (PSSM) PSSM(position-specific scoring matrix) 是由一个简单对数变换而来的矩阵, 它给出不同来源的一小段保守序列 ( 基序 ) 各个特定位置氨基酸的频率 PSSM 可以用于一条序列的保守序列的搜索一条序列中, 与 PSSM 最相似的位置即为 PSSM 代表的基序位置 PSSM 在数据库搜索, 特别是保守短序列 ( 功能域 ) 搜索方面有很好的应用例如 PSI - BLAST, DELTA-BLAST 等均使用 PSSM 进行搜索等 ( 详见第四节 ) 下面举例说明 PSSM 构建过程 : 例如如下一个保守序列联配结果 : 由 5 条序列, 每条 6 个碱基构成, 即从左到右 6 个位置上均有 5 个碱基构成第 1-3 章两条序列联配算法及序列搜索 AGGCTT AAGCTA AAACTT TAACTA AGACTT 63

64 我们如何将其转换成一个 PSSM? 步骤 1: 联配 6 列位置上四种碱基数量统计 ; 合计 ( 即背景 ) 统计四种碱基步骤 2: 各个位置四种碱基频率计算 ; 合计四种碱基频率计算步骤 3: 标准化 ( 去除背景碱基的影响 ), 即各个位置碱基频率除以背景相应碱基频率步骤 4: 进行以 2 为底对数 log2 数据转换, 完成 PSSM 构建 #1 #2 #3 #4 #5 #6 合计 A 4 3 3 0 0 2 12 G 0 2 2 0 0 0 4 C 0 0 0 5 0 0 5 T 1 0 0 0 5 3 9 #1 #2 #3 #4 #5 #6 背景频率 A 0.8 0.6 0.6 0 0 0.4 0.40 G 0 0.4 0.4 0 0 0 0.13 C 0 0 0 1.0 0 0 0.17 T 0.2 0 0 0 1.0 0.6 0.30 #1 #2 #3 #4 #5 #6 背景频率 A 2.0 1.5 1.5 0 0 1.0 0.40 G 0 0.3 0.3 0 0 0 0.13 C 0 0 0 5.9 0 0 0.17 T 0.7 0 0 0 3.3 2.0 0.30 #1 #2 #3 #4 #5 #6 A 1.0 0.6 0.6-3.3-3.3 1.0 G -3.3-1.7-1.7-3.3-3.3-3.3 C -3.3-3.3-3.3 2.6-3.3-3.3 T 0.7-3.3-3.3-3.3 1.7 1.0 PSSM 可以直接用于序列搜索, 确定未知序列中与 PSSM 序列相似的保守区段对于一条未知序列, 可以用 PSSM 对该序列进行扫描 ( 即从左到右以 PSSM 宽度为窗口宽度, 逐个碱基位置进行比对 ), 这样就可以获得未知序列中各个位置片段与 PSSM 相似性概率例如某一未知序列 : 未知序列 :...A G A C T A... #1 #2 #3 #4 #5 #6 A 1.0 0.6 0.6-3.3-3.3 1.0 G -3.3-1.7-1.7-3.3-3.3-3.3 C -3.3-3.3-3.3 2.6-3.3-3.3 T 0.7-3.3-3.3-3.3 1.7 1.0 利用上述 PSSM(6 个碱基窗口 ) 对该条未知序列进行逐个碱基位点扫描在上述未知序列的某一个特定位点, 基于该 PSSM 的几率对数值 (log odds score) 为 (1.0-1.7+0.6+2.6+ 1.7+1.0) = 5.2 生物信息学第一篇生物信息学基础 5.2 意味着 37 / 1 比率支持未知序列中该 6 个碱基连续片段与 PSSM 并非随机匹配也就是说, 该未知序列的确包含与该保守区域高度同源的序列片段以上有关替换矩阵的讨论仅仅提及蛋白质序列的比较, 相关的原则同样适用于 DNA 序

第 1-3 章两条序列联配算法及序列搜索 65 列的比较如前所述,DNA 替换矩阵非常简单, 所有四个碱基的匹配与不匹配的替换数值均设为相同, 不同的只有匹配与否 ( 匹配 0.9 分和错配罚分 0.1) 一个较复杂的模型可以把转换 ( 两种嘧啶或两种嘌呤间的突变 ) 频率设为高于颠换 ( 嘧啶与嘌呤间的突变 ) 频率第二节两条序列联配算法一 Needleman-Wunsch 算法 Needleman-Wunsch 算法是一种全局联配算法, 它从整体上分析两个序列的关系, 即考虑序列总长的整体比较, 用类似于使整体相似 (global similarity) 最大化的方式, 对序列进行联配两个不等长度序列的联配分析必需考虑在一个序列中一些碱基的删除即在另一序列做空位 (gap) 处理 Needleman 和 Wunsch(1970) 最初提出的算法是寻求使两条序列间的距离最小, 或最短距离, 它使用的是一个动态规划 (dynamic programming) 的方法该算法可以用于核酸和蛋白质序列, 是生物信息学最经典算法之一在给定计分规则 ( 替换矩阵和空位罚值 ) 情况下, 它们总是能给出具有最高 ( 优 ) 联配值的联配结果但是, 这个联配结果并不一定具有生物学意义, 因为它可能达不到生物学意义上的显著水平如果将两条联配的序列沿双向表的上轴和左侧轴放置, 两条序列的所有可能的联配方式都将在它们所形成的方形图中 ( 例举见图 1-3.1a) 图中标出了一条序列所有碱基与另外一条序列碱基所有可能的联配方式 ( 碱基匹配不匹配和删除即空位 ), 这样所有可能的联配方式都在这个方形图中从最上角出发, 到右下角结束, 任何一个联配方式均可以画出一条联配路径, 或反过来, 任何一条路径也对应一种联配方式 ( 如图中标注的一个路径及其对应的联配结果 ) 这样一来, 我们确定任意 2 条序列最优联配结果的问题就转化为寻找最优路径问题了所有可能的路径 ( 联配方式 ) 如果都在这个方形图中, 那么我们如何找到最短路径? 对于任一联配位点, 即图中的任一单元格, 仅有三种可能的方式延伸联配过来 ( 图 1-3.1b):(1) 碱基匹配或不匹配, 即每一序列均加上一个碱基 ( x 路径 ), 并给其增加一个规定的距离权重 ( 匹配加分, 错配罚分 );(2) 在一个序列中增加一个碱基而在另一序列中增加一个空位或反之亦然 (y 和 z 路径 ) 这三种延伸方式的权重值分别加上到达上一个位点的累计得分 (x,y,z), 就可以得到三种可能联配方式的得分, 然后得分最高 ( H) 的路径作为到达本位点的最佳路径引入一个空位时也将增加一个规定的距离权重 ( 空位罚分 ) 因此, 图中的一个单元可以从 ( 最多 ) 三个相邻的单元达到为了获得最优路线, 我们必须保证从一开始就每步最优, 即把到达单元格距离最小的方向作为序列延伸的方向将这些方向记录下来, 并在计算了所有的单元之后, 沿着记录的方向就有一条路径可从方形图右最下角 ( 两个序列的末端 ) 追踪到左最上角 ( 两个序列的起点 ) 由此所产生的路径将给出具有最短距离的序列联配 ( 即最优连配结果 ) 如两条路径获得等距离 ( 相同得分 ), 意味着存在两条最短路径

６６生物信息学第一篇图１３１生物信息学基础两条序列联配方式与路径以两个短序列为例将上述过程说明如下ｓｅｑ１ＣＴＧＴＡＴＣｓｅｑ２ＣＴＡＴＡＡＴＣＣＣ设定计分规则为碱基匹配不罚分０碱基错配时距离权重罚分为１引入一个空位时距离权重为３两条序列分列于图两侧图１３２初始值设为０然后依次从左上角向右下角计算最佳路径根据图１３１ｂ每个联配位点均可以计算其ｘｙｚＨ值例如本例中第一位点浅色框为ｘｙｚＨ０３３０意思是进行碱基联配路径ｘ得０分不罚分而在其中任何一条序列中加入一个空位ｙｚ均罚３分最后到达这个位点的最高得分是进行碱基联配即最佳路径Ｈ得０分初始位点值０碱基匹配０而其他两个路径分别得分６上一个位点得分３该路径得分３再看一个位点深色框ｘｙｚＨ１３３３其最佳路径是在序列１中插入一个空位ｚ其得分为３上一个位点０３而序列２中插入空位的路径ｙ达本位点最后得分９上一个位点６３碱基联配路径ｘ得分４上一个位点３１后两个路径值均不及第一个ｚ路径因此Ｈ３联配过程中可以用箭头标出最佳路径如此依次类推就可以最终确定这两条序列最后一个联配位点的得分反推得到这个得分的路径就可以得到其联配方式而该联配方式就是这两条序列的最佳联配结果本例中沿箭头所指方向在表中从右最下角向左最上角追踪可以发现６条路径可以从初始位点抵达最后一个位点说明存在６种最佳联配方式ＺＤ３９生物信息学兴邦二校成品１８５ｍｍ２６０ｍｍ３９行３９字１０５ＳＳ

第１３章６７两条序列联配算法及序列搜索ＣＴＡＴＡＡＴＣＣＣＣＴＧＴＡＴＣＣＴＡＴＡＡＴＣＣＣＣＴＧＴＡＴＣＣＴＡＴＡＡＴＣＣＣＣＴＧＴＡＴＣＣＴＡＴＡＡＴＣＣＣＣＴＧＴＡＴＣＣＴＡＴＡＡＴＣＣＣＣＴＧＴＡＴＣＣＴＡＴＡＡＴＣＣＣＣＴＧＴＡＴＣ在上述６种联配中罚分均为１０即在较短序列中有６个匹配碱基１个错配碱基和３个空位ＣＴＡＴＡＡＴＣＣＣ０３３３６３９３１２３１５３１８３２１３２４３２７３３０ＣＴＧＴＡＴＣ３３３９３３３６３１２３１５３１８３２１３０３３３６３９３１２３１５３１８３２１３２４３２７３６３９３１２３３３６３９３４３６３１８３１２３１５３１３４３７３１０３１３３１６３１９３２２３０３３３６３９３１２３１５３１８３２１３２４３１５３９３１２３１３４３７３１０３１３３１６３１９３４３６３９３１３４３７３１０３１３３１６３４３７３２３５３４３７３１０３１３３３３４３７３１０图１３２ＮｅｅｄｌｅｍａｎＷｕｓｃｈ算法实例计分方式设定碱基错配罚１分单个碱基缺失或插入时罚３分碱基匹配不罚分即得０分图中箭头为每个位点最佳联配方向来源每个单元格３个特别标出举例内有四个数字分别为ｘｙｚＨ值Ｈ值下划线图１３１两条序列的全局最优联配Ｈ值１０即罚１０分其联配路径见反向箭头该算法可以用代数形式来描述设具有碱基ａｉ和ｂｊ的两个序列ａ和ｂ这两个序列间距离为ｄａｂ通过评价序列ａ中前ｉ个位置和序列ｂ前ｊ位置的距离ｄａｉｂｊ递归地得到距离ｄａｂ如果ａ和ｂ的长度为ｍ和ｎ则其期望距离为ｄａｍｂｎ上表中引入的第ＺＤ３９生物信息学兴邦二校成品１８５ｍｍ２６０ｍｍ３９行３９字１０５ＳＳ

68 生物信息学第一篇生物信息学基础 1 行 1 列单元的距离为 0( 相当于空序列或初始位点 ), 在单元 (i,j) 内, 使到达该单元距离增加的三种可能事件为 : 1. 从单元 (i-1,j) 向 (i,j) 的垂直移动, 相当于在 b 序列中插入一个空位使相似序列延伸换言之,b 序列由 a 序列中 a i 的缺失所产生, 这一事件的权重记作 w_(a i ) 2. 从单元 (i-1,j-1) 向 (i,j) 的对角线移动, 相当于增加碱基 a i 和 b j 使相似序列延伸换言之,b 序列由 a 序列中的 a i 被 b j 取代所产生, 这一事件的权重记为 w_(a i,b j ) 3. 从单元 (i,j-1) 向 (i,j) 的水平移动, 相当于在序列 b 中插入一个空位使相似序列延伸换言之,b 序列由 b j 插入 a 序列所产生, 这一事件的权重记为 w + (b j ) 因此, 单元 (i,j) 的距离 d( a i,b j ) 可看成三个相邻单元的距离加上相应权重后的最小者, 即 ìd(a i -1,b j ) + w - (a i ) ï d(a i,b j ) = miníd(a i -1,b j-1 ) + w(a i,b j ) ï îd(a i,b j-1 ) + w + (b i ) 且初始条件为 d(a 0,b 0 )= 0 d(a 0,b j )= j k = 1 d(a i,b 0 )= i k = 1 w + (b k ) w - (a k ) 在图 1-3.2 的实例中 w - (a i )= -3 ( 对于每一个 i) 0 (i = j) w(a i,b j )= { -1 (i j) w + (b j )= -3 ( 对于每一个 j) 当联配两个序列时, 通过计算其随机重排序列的联配距离 ( 如 1 000 次 ), 可以得到这两个序列间的最小距离估计 ( 距离分布 ) 如果实际得到的联配距离小于 95% 的重排序列距离 (1 000 个距离值 ), 则表明实际获得的联配距离达到了 5% 的显著水平, 是不可能由机误造成的二 Smith-Waterman 算法 Smith-Wateman 算法是在 Needleman-Wunsch 算法基础上发展而来的, 它是一种局部联配算法由于亲缘关系较远的蛋白质序列可能只有一些相互独立的保守片段, 所以进行局部相似性分析有时可能比整体相似性分析更合理 Smith 和 Waterman(1981) 提出了一种查找具有最高相似性片段的算法对于序列 A = (a 1,a 2,,a m ) 和 B = (b 1,b 2,,b n ),H ij 被定义为以 a i 和 b j 碱基对结束的片段 ( 亚序列 ) 的相似性值与 Needle -Wunsch 算法一样, Smith-Waterman 算法也要利用递推关系来确定 H 值,H 的初始值为 : H i0 = 0, 0 i n, H 0j = 0, 0 j m 相似性计算中包括 2 个统计量 : 碱基对 ( 或氨基酸等序列因子对 ) a i,b j 的相似性值 S (a i,b j ) 和空位权重 ( 罚分 )w k = v+uk(k 为空位长度 ) Smith-Waterman 算法可以给出两条序

第 1-3 章两条序列联配算法及序列搜索 69 列的最大相似性值以 a i,b j 碱基对结束的片段可以由以 a i-1 和 b j-1 结束片段增加碱基 ( 因子 ) 来获得, 或者 a i 可以删除 k 长度的碱基片段,b j 可删除 l 长度碱基片段具体算法如下 : P ij = max(h i-1,j -w 1,P i-1,j -u) Q ij = max(h i,j-1 -w 1,P i,j-1 -u) ìï H i-1,j-1 +S(a i,b j ) ïp ij = max 1 k i (H i-k,j -w k ) 则 H ij = maxí,(1 i m,1 j n) ïq ij = max 1 l j (H i,j-l -w l ) ï î0 其中 P 0,0 = P 0,j = Q 0,0 = Q i,0 = 0 该算法可以确保具有最大 H ij 值的序列片段是最优联配结果或相似性最好的从 ( a i, b j ) 为起点, 向后追踪 H ij 矩阵, 直到到达 0 值对于具有最大相似性片段以外部分的差异性, 不会影响到该片段的 H 值举例说明这一算法我们同样以 Needleman-Wunsch 算法中的两条短序列为例将两条序列 (CTGTATC 和 CTATAATCCC) 排于表 1-3.4 的两侧, 相应的 H ij,p ij 和 Q ij 值分别列入表中本例的权重等根据 Smith 和 Waterman(1981) 的例子设定为 : { S(a i,b j )= 1-1 / 3 a i = b j a i b j w k = -(1+k / 3) (1 k) 对于 4 个碱基具有相同频率的随机长序列,S( a i,b j ) 值的平均值为零 w k 值应至少不小于匹配与不匹配权重的差值表 1-3.4 的最大 H ij 为 4.33(8 行与 7 列相交处 ), 说明该位点是局部可以达到最高序列相似度的联配位点, 反推其到达路径, 就得到一条最优路径 ( 星号表示 ), 其对应具有最大相似性的片段联配方式为 : CTGTA-TC CTATAATC 表 1-3.4 Smith-Waterman 算法例举 j = 0 j = 1 j = 2 j = 3 j = 4 j = 5 j = 6 j = 7 C T G T A T G i = 0 H ij 0 0 0 0 0 0 0 0 P ij 0 0 0 0 0 0 0 0 Q ij 0 0 0 0 0 0 0 0 i = 1 C H ij 0 1.00 0 0 0 0 0 1.00 P ij 0-0.33-0.33-0.33-0.33-0.33-0.33-0.33 Q ij 0-0.33-0.33-0.67-1.00-1.33-1.33-1.33 i = 2 T H ij 0 0 2.00 0.67 1.00 0 1.00 0 P ij 0-0.33-0.67-0.67-0.67-0.67-0.67-0.33 Q ij 0-0.33-0.67 0.67 0.33 0-0.33-0.33

70 生物信息学第一篇生物信息学基础续表 j = 0 j = 1 j = 2 j = 3 j = 4 j = 5 j = 6 j = 7 C T G T A T G i = 3 A H ij 0 0 0.67 1.67 0.33 2.00 0.67 0.67 P ij 0-0.67 0.67-0.67-0.33-1.00-0.33-0.67 Q ij 0-0.33-0.67-0.67 0.33 0 0.67 0.33 i = 4 T H ij 0 0 1.00 0.33 2.67 1.33 3.00 1.67 P ij 0-1.00 0.33 0.33-0.67 0.67-0.67-0.67 Q ij 0-0.33-0.67-0.33-0.67 1.33 1.00 1.67 i = 5 A H ij 0 0 0 0.67 1.33 3.67 2.33 2.67 P ij 0-1.33 0 0 1.33 0 1.67 0.33 Q ij 0-0.33-0.67-1.00-0.67 0.00 2.33 2.00 i = 6 A H ij 0 0 0 0 1.00 2.33 3.33 2.00 P ij 0-1.33-0.33-0.33 1.00 2.33 1.33 1.33 Q ij 0-0.33-0.67-1.00-1.33-0.33 1.00 2.00 i = 7 T H ij 0 0 1.00 0 1.00 2.00 3.33 3.00 P ij 0-1.33-0.67-0.67 0.67 2.00 2.00 1.00 Q ij 0-0.33-0.67-0.33-0.67-0.33 0.67 2.00 i = 8 C H ij 0 1.00 0 0.67 0.33 1.67 2.00 4.33 P ij 0 1.33-0.33-1.00 0.33 1.67 2.00 1.67 Q ij 0-0.33-0.33-0.67-0.67 1.00 0.33 0.67 i = 9 C H ij 0 1.00 0.67 0 0.33 1.33 1.67 3.00 P ij 0-0.33-0.67-0.67 0 1.33 1.67 3.00 Q ij 0-0.33-0.33-0.67-1.00-1.00 0 0.33 i = 10 C H ij 0 1.00 0.67 0.33 0 1.00 1.33 2.67 P ij 0-0.33-0.67-1.00-0.33 1.00 1.33 2.67 Q ij 0-0.33-0.33-0.67-1.00-1.33-0.33 0 第四节 BLAST 算法及数据库搜索当你面对大量两条序列间的比对时, 运算时间变得非常重要例如数据库序列搜索就是这样一个问题, 未知序列或递交序列 (query sequence) 需要跟数据库 ( 如 GenBank) 中大量已有序列进行比对, 确定与递交序列的相似序列, 这时就需要在短时间内 ( 如 1 分钟 ) 返回搜索比对结果直接利用上述两种算法, 将需要大量运算时间, 难以达到时间要求, 必须提出新算法来解决这一问题 Altschul 等人 1990 年提出的用于数据库搜索的 BLAST ( Basic Local Alignment Search Tool) 算法和 1988 年 Pearson 和 Lipman 提出的 FASTA(Fast All) 算法

很好地解决了这一问题这两个算法 ( 尤其 BLAST) 是目前应用最广泛的方法, 美国生物信息技术中心 (NCBI) 和欧洲生物信息学研究所 ( EBI) 等分别应用它们来进行 DNA 和蛋白质序列相似性搜索这两个算法都是一种基于局部联配搜索工具, 给出的是递交序列与数据库序列的最佳局部联配结果两者算法相似, 本节以 BLAST 为例进行讲解一 BLAST 算法 BLAST 算法同样是利用动态规划算法, 与 Smith-Waterman 算法类似, 其不同之处是引入了所谓字或字符串 (Word 或 K-tuple,K-mer 等 ) 的检索技术所有序列其实都是由若干字符串组成, 例如我们以 3 个碱基长度的字符串为例, 下列 DNA 序列包括了 6 个字长为 3 的字符串, 其中 2 个字符串 (GCG 和 CGG) 各出现了 2 次 : >seq1 TGCGGAGCGG 其包含的字符串 :TGC,GCG,CGG,GGA,GAG,AGC 为了降低比对时间,BLAST 算法中一个重要手段, 是建立序列数据库的字检索系统, 即将数据库中所有序列所包含的不同长度字符串进行扫描, 并建立索引这样, 数据库中存贮的序列包含哪些特定长度字符串就已知了, 如常见的 11 个碱基长度 DNA 和 3 个氨基酸长度蛋白质字符串等当对递交序列进行数据库搜索比对时, 首先对递交序列进行扫描, 确定其包含的所有特定长度字符串, 然后仅对包含相同字符串的数据库序列 ( 一般仅占整个数据库序列很小的比例 ) 进行进一步比对这样就节省了大量无关序列比对的耗时对于包含相同字符串的数据库序列, 进行进一步序列比对时, 基于匹配上的字符串, 分别向两端延伸, 序列延伸规则基于动态规划算法下面用图解方式进行具体说明 : 第一步 : 扫描递交序列的每个位点, 发现特定位点 (p) 起始字长为 w 匹配值超过 T 的所有字并列表第二步 : 根据上述字列表, 确定目标数据库中所有包含与列表中字完全一致的序列第 1-3 章两条序列联配算法及序列搜索 71

７２生物信息学第一篇生物信息学基础续表第三步对于每个匹配的字得到的联配所谓ｈｉｔ向两端以动态规划算法向外延伸延伸过程中联配值Ｓ不断变动当联配过程中联配值Ｓ降低超过某一临界值Ｘ延伸结束这样我们可以获得所谓高得分联配对ＨＳＰｈｉｇｈｓｃｏｒｉｎｇｓｅｇｍｅｎｔｐａｉｒ然后列出所有超过某一设定临界联配值或Ｅ值的ＨＳＰＥ值是一个统计参数详见下节表明随机情况下可以获得等于或超过联配Ｓ值的ＨＳＰ数量该值越小说明在统计学意义上递交序列与得到的ｈｉｔ序列相似性越高上述对于每个匹配字得到的联配以动态规划算法向两端延伸延伸方式是以一个特定数值Ｘ为限定如果超过该值就终止联配这种动态规划联配方式是一种数值限定类型ｓｃｏｒｅｌｉｍｉｔｅｄＤＰ图１３３当然我们也可以用其他条件进行联配限定如不允许插入空格ｕｎｇａｐｐｅｄＤＰ或插入空格数量进行限定ｂａｎｄｅｄＤＰ如果没有限定就是我们熟知的全局联配方式所谓允许空格的全联配这些限定ＤＰ往往针对特殊问题或目的进行选用以提高搜索速度和高效获得特定靶序列二利用ＢＬＡＳＴ进行数据库序列搜索采用ＢＬＡＳＴ的基本算法目前形成了若干不同的工具分别用于特定序列数据库和特定目的的序列搜索以ＮＣＢＩ提供的在线序列数据库搜索工具ＢＬＡＳＴ２０１４年１２月为例图１３４ＢＬＡＳＴＮ是对核苷酸递交序列库搜索核苷酸序列数据库ＢＬＡＳＴＰ是在蛋白质序列库中搜索蛋白质序列ＴＢＬＡＳＴＮ则可以在核酸序列库中搜索蛋白质序列此时序列库在搜索之前要按所有６种读框即时翻译与此相反的一项分析则由ＢＬＡＳＴＸ来完成它要将所递交的核酸序列按所有６种读框翻译然后再用它搜索蛋白质序列库同时特定目的或方式搜索工具不断被开发出来图１３５例如Ａｌｔｓｃｈｕｌ等人１９９７提出了一个寻找蛋白质家ＺＤ３９生物信息学兴邦二校成品１８５ｍｍ２６０ｍｍ３９行３９字１０５ＳＳ

第１３章图１３３两条序列联配算法及序列搜索７３序列动态规划联配方式可以利用空格是否允许空格数量和联配值等进行限定联配过程族保守序列新算法ＰＳＩＢＬＡＳＴＰｏｓｉｔｉｏｎＳｐｅｃｉｆｉｃＩｔｅｒａｔｅｄＢＬＡＳＴ算法并开发了相应的软件ＰＳＩＢＬＡＳＴ可以对数据库进行多轮循环检索每一轮的检索速度都大约是ＢＬＡＳＴ的两倍每一轮都能提高检索的敏感性图１３４美国国家生物信息中心ＮＣＢＩ提供的在线ＢＬＡＳＴ序列搜索工具２０１４年１２月ＺＤ３９生物信息学兴邦二校成品１８５ｍｍ２６０ｍｍ３９行３９字１０５ＳＳ

７４生物信息学第一篇生物信息学基础图１３５数据库ＢＬＡＳＴ搜索工具基于局部动态规划算法除了标准ＢＬＡＳＴ工具如ＢＬＡＳＴＰ等不断发展了新的用于蛋白质和核苷酸序列数据的ＢＬＡＳＴ工具下面框中ＰＳＩＢＬＡＳＴ等利用ＢＡＬＳＴ工具搜索数据库案例对一条未知ＤＮＡ序列利用ＢＬＡＳＴＮ工具搜索核苷酸数据库获得如下搜索结果ＺＤ３９生物信息学兴邦二校成品１８５ｍｍ２６０ｍｍ３９行３９字１０５ＳＳ

第 1-3 章两条序列联配算法及序列搜索 75 上述结果中可见未知 DNA 序列与搜索获得的数据库序列联配得分 (score) 和统计测验结果 (E-value) 等其中一条数据库记录 (KP751445) 与未知序列具体联配结果如下 :

７６生物信息学第一篇生物信息学基础该搜索相关参数列表该参数列表中可以看到我们用的搜索参数默认搜索字长Ｗｏｒｄｓｉｚｅ为２８ｎｔ结果输出的默认联配值Ｅｘｐｅｃｔｖａｌｕｅ１０调低该值可以减少低相似度序列的输出序列联配计分系统ＭａｔｃｈＭｉｓｍａｔｃｈｓｃｏｒｅｓＧａｐｃｏｓｔｓ为匹配１分错配罚２分不考虑空位罚分下面ＢＬＡＳＴｘ为新开空位罚１１分空位每延伸一个罚１分数据库中３４６６６万条序列进行了比对统计测验参数ＫａｒｌｉｎＡｌｔｓｃｈｕｌｓｔａｔｉｓｔｉｃｓｋ λ 和Ｈ取值情况详见下节数据库搜索的有效序列数据统计结果等列在最后同样可以对该未知ＤＮＡ序列用ＢＬＡＳＴＸ工具进行蛋白质序列数据库搜索该工具首先按照６个ＯＲＦ阅读框对未知ＤＮＡ序列进行翻译然后比对蛋白质数据库序列数据搜索结果如下ＺＤ３９生物信息学兴邦二校成品１８５ｍｍ２６０ｍｍ３９行３９字１０５ＳＳ

第 1-3 章两条序列联配算法及序列搜索 77

78 生物信息学第一篇生物信息学基础可见 BLASTX 与 BLASTN 分别在蛋白质和核苷酸序列水平上进行搜索, 所使用的搜索参数完全不同前文提及 PSSM, 该计分矩阵在生物信息学领域应用非常广泛, 一个最常见的应用就是 BLAST 搜索中的应用在蛋白质序列搜索的几个算法中,PSI-BLAST 和 DELTA-BLAST 均使用了 PSSM( 见下图 :NCBI 的 BLAST 主页 ) 这两种算法均利用了一种循环搜索策略, 即利用初次 BLASTP 搜索结果, 临时构建一个新的计分矩阵 ( 即 PSSM), 然后利用该 PSSM 作为下次搜索的计分矩阵, 搜索获得结果后再构建新的 PSSM, 如此循环往复, 直到搜索结果不再变化为止这样的搜索算法可以最大限度地找到与递交序列具有同源性的序列 ( 有时序列相似性会很低 )

第１３章７９两条序列联配算法及序列搜索三序列相似性的统计推断ＢＬＡＳＴ搜索返回的结果中提供了递交序列与数据库中序列比对结果的得分ｓｃｏｒｅ和一个统计测验结果Ｅｖａｌｕｅ到目前为止对局部联配的统计学问题已基本搞清楚特别是那些不含有空位的局部联配更是如此我们不妨首先考虑不含有空位的局部联配问题ＢＬＡＳＴ最初的搜索程序便是以此为基础的无空位局部联配涉及的是等长度的一对序列片段两个片段的各部分彼此比较ＳｍｉｔｈＷａｔｅｒｍａｎ算法方法可以找到所有最高比值片段对ＨＳＰ即这些片段对的比值Ｓ不会因片段的延伸而进一步升高为了分析上述分值随机性产生的几率大小需要建立一个随机序列模型对于蛋白质而言最简单的序列模型可通过从一条序列中随机地选取氨基酸残基当然这一条序列中各种残基的频率必须一定另外一对随机氨基酸的联配期望值必需为负值否则不论联配片段是否相关都会得到高比值统计理论也将派不上用场就像独立随机变量之和总是倾向于正态分布ｎｏｒｍａｌｄｉｓｔｒｉｂｕｔｉｏｎ一样独立随机变量的最大值倾向于极值分布ｅｘｔｒｅｍｅｖａｌｕｅｄｉｓｔｒｉｂｕｔｉｏｎ在进行两条序列最佳局部联配结果统计测验时主要涉及的是后一种情况对于两条序列在一定的序列长度ｍ和ｎ限定下ＨＳＰ的统计值可由２个参数ｋ和 λ 确定最简单的形式即不小于比分值为Ｓ的ＨＳＰ个数可由下列公式估计其期望值Ｅｋｍｎｅ λｓ１３１我们称该期望值为比值Ｓ的Ｅ值Ｅｖａｌｕｅ上述公式非常灵敏在给定比值的情况下将两图１３６概率密度函数正态分布虚线和极值分布实线比较条比较序列长度加倍则ＨＳＰ数即Ｅ值也将加倍同样Ｓ值为２Ｘ的某个ＨＳＰ其长度必是Ｓ值为Ｘ的ＨＳＰ的两倍所以Ｅ值将随着Ｓ值的增大急剧减少参数ｋ和 λ 可分别被简单地视为搜索空间ｓｅａｒｃｈｓｐａｃｅｓｉｚｅ即数据库序列数据量和计分系统的特征数最初获得的比值Ｓ在没有计分系统或统计量ｋ和 λ 的辅助下没有什么意义单独的比值就如同没有单位米或者光年的距离可将比值按下式标准化 λｓｌｎｋＳｌｎ２１３２获得Ｓ值就如同得到了具有标准单位的数值Ｅ值因此可简化为Ｅｍｎ２Ｓ１３３二进制值ｂｉｔｓｃｏｒｅ使所用的计分系统赋予了统计学意义除了可以确定搜索空间外同样可以计算相应的显著水平具有大于或等于某一比值Ｓ的随机ＨＳＰ数可由泊松分布确定由此可以计算出搜索到某一比值大于或等于Ｓ的ＨＳＰ的概率为ＺＤ３９生物信息学兴邦二校成品１８５ｍｍ２６０ｍｍ３９行３９字１０５ＳＳ

80 e -E E X X! 的概率为式中 E 由 (1-3.1) 式确定 (1-3.4) 作为一个特例, 搜索不到比值 S 的 HSP 概率为 e -E,, 所以至少发现一个 HSP 比值 S P = 1-e -E = 1-exp( -kmne -λx ) (1-3.5) 这是与比值 S 相关的 P 值 ( 概率值 ) 例如, 在可能搜索到 3 个 HSP 比值 S 的情况下, 至少发现一个 HSP 的机率为 0.95[ 可由 (1-3.5) 式算得 ] BLAST 程序中使用了 E 值而非 P 值, 这主要是从直观和便于理解的角度考虑比如 E 值等于 5 和 10, 总比 P 值等于 0.993 和 0.999 95 更直观但是当 E<0.01 时,P 值与 E 值趋于相同 E 值计算公式 [ 公式 (1-3.1)] 可以直接应用于 2 个蛋白质序列长度分别为 m 和 n 的比较, 但是对于某一序列长度为 m 的蛋白序列, 如何在那些长短不一的数据库序列中找到与之匹配良好的序列呢? 一种思路是把数据库中的所有蛋白序列与递交序列的关系都视为相同重要, 也就是说对于 E 值均较低的短或长序列, 它们是等同重要的 FASTA 程序便是采用这一策略另一种思路是把长序列视为比短序列更重要, 因为长序列往往包括更多的特异功能域 (domain) 如果对序列长度上进行相关优先处理, 则在计算数据库序列长度为 n 的 E 值时, 将乘以 N / n, 其中 N 为数据库中序列的总长度根据公式 (1-3.1),E 值的计算可简单地把整个数据库序列视为长度为 N 的单条序列 BLAST 程序采用了这一策略 FASTA 策略中 E 值的计算还需再乘上数据库的序列条数如果考虑到核酸数据库的序列长度变化更大, 则在 DNA 序列相似性搜索时,BLAST 的策略可能会是合理的选择一些数据库搜索程序 ( 例如 FASTA 或其它基于 Smith-Waterman 算法的程序 ) 在进行序列搜索时, 会对数据库中的每条序列进行联配并给出联配值, 这些值大部分与递交序列无关, 但它们被用于了 k 和 λ 参数的估计这一方法避免了因使用真实序列 (real sequence) 导致随机序列模型的偏向性, 但同时产生了使用相关序列估计参数的难题 BLAST 仅通过部分而不是全部无关序列计算最适联配值, 这赢得了搜索速度因此, 对于某一选定的替换矩阵和空位罚值, 必须进行 k 和 λ 参数的预先估计, 估计中使用真实序列, 而非通过随机序列模型产生的模拟序列根据统计理论, 上述统计方法只适用于不含有空位的局部联配 ( 非空位联配 ) 但是, 许多计算试验和分析结果充分证明, 上述统计方法同样适用于包括空位的联配结果对于非空位联配, 可用基于替换矩阵和比较序列的残基频率的办法, 估计统计参数 ; 对于空位联配, 参数的估计则必须根据大量无关序列的比较以上统计学方法对于短序列来说有些偏差这些统计方法的基础理论是一个渐近理论, 该理论假设局部联配可以适用于任何规模的联配但是, 一个高比值联配必须有一定的长度, 不能从接近二条序列末端的地方开始这种边际效应 (edge effect) 可以通过计算序列的有效长度 (effective length) 来修正 BLAST 程序中包含了这一修正过程对于长于 200 残基的序列可以不进行边际效应的修正生物信息学第一篇生物信息学基础局部联配的结果与所选用的替换矩阵紧密相关没有任何一个计分系统 ( 即替换矩阵 + 罚分办法 ) 可以适用于所有研究目标, 对于局部联配的计分基础理论的正确理解可以极大促进序列分析准确性 ( 相关内容详见本章第二节 )

第 1-3 章两条序列联配算法及序列搜索 81 如前所述,BLAST 算法中空位罚值应用 2 个参数, 一个与空位设置 ( gap opening) 有关, 另一个与空位扩展 (gap extension) 有关任一空位的出现均处以空位设置罚值, 而任一空位的扩大必须加入空位扩展罚值经过多年的试验, 一个合适的空位罚值已经被确定下来大多数联配程序均对特定的替换矩阵设定了空位罚值的默认值 ( default), 如果使用者希望使用不同的替换矩阵, 则原来的空位罚值设定不一定合适如何设定罚值并无明确的理论可遁, 较大的空位设置罚值配以很小的空位扩展罚值 ( 如 11 / 1) 被普遍证实是最佳的设定思路在上节 BLAST 搜索结果中, 有一个统计量 H 它用于估计 BLAST 搜索所用计分矩阵相对信息量或熵值 ( 具体见第 1-4 章具体介绍 ),H 值越大, 说明所用替换矩阵或计分系统的特异性越高, 区分相关与不相关序列的能力就越强 (Mount,2004) 习题 1. 目前计分矩阵主要有哪些? 比较它们的异同 2. 请利用动态规划 Needleman-Wunsch 算法对下列两条蛋白质序列进行全局联配, 获得最优联配结果 : P1 = AGWGAHEA P2 = PAWHEAEAG 计分系统 : 计分矩阵 BLOSUM50, 空位罚 8 分 BLOSUM50 ( 部分 ) A E G H P W A 5-1 0-2 -1-3 E 6-3 0-1 -3 G 8-2 -2-3 H 10-2 -3 P 10-4 W 15 3. 数据库搜索同源性或相似性较远序列时, 为什么用蛋白质序列搜索比 DNA 序列要好? 4. 请解释 BLAST 搜索结果中 score 和 E value 含义 5. BLASTN 和 BLASTX 两者搜索方式有何不同?