生物信息学 第七章分子进化与系统发育分析 (1)
生物学家 We have a dream Tree of Life: 重建所有生物的进化历史并以系统 树的形式加以描述
梦想走进现实 :How? 最理想的方法 : 化石! 零散 不完整 比较形态学和比较生理学 : 确定大致的进化框架 细节存很多的争议
第三种方案 : 分子进化 1964 年,Linus Pauling 提出分子进化理论 DNA & RNA: 4 种碱基 ; 蛋白质分子 :20 种氨基酸 发生在分子层面的进化过程 :DNA, RNA 和蛋白质分子 基本假设 : 核苷酸和氨基酸序列中含有生物进化历史的全部信息
分子进化的模式 DNA 突变的模式 : 替代, 插入, 缺失, 倒位 核苷酸替代 : 转换 (Transition) & 颠换 (Transversion) 基因复制 : 多基因家族的产生以及伪基因的产生 A. 单个基因复制 重组或者逆转录 B. 染色体片断复制 C. 基因组复制
DNA 突变的模式 替代 插入 缺失 倒位
核苷酸替代 : 转换 & 颠换 转换 : 嘌呤被嘌呤替代, 或者嘧啶被嘧啶替代 颠换 : 嘌呤被嘧啶替代, 或者嘧啶被嘌呤替代
基因复制 : 单个基因复制 重组 逆转录
基因复制 : 染色体片段复制 人 狒狒
基因复制 : 基因组复制 S. Cerevisiae ( 酿酒酵母 ) K. Waltii ( 克鲁雄酵母 ) 研究结果 : 克鲁雄酵母中的同源基因数量与酿酒酵母相比为 1:2
分子进化研究的目的 从物种的一些分子特性出发, 构建系统发育树, 进而了解物种之间的生物系统发生的关系 tree of life; 物种分类 大分子功能与结构的分析 : 同一家族的大分子, 具有相似的三级结构及生化功能, 通过序列同源性分析, 构建系统发育树, 进行相关分析 ; 功能预测 进化速率分析 : 例如,HIV 的高突变性 ; 哪些位点易发生突变?
Tree of Life: 16S rrna
Out of Africa 人类迁移的路线 53 个人的线粒体基因组 (16,587bp)
同源性分析 -> 功能相似性 Ortholog ( 直系同源序列 ): 两个基因通过物种形成的事件而产生, 或源于不同物种的最近的共同祖先的两个基因, 或者两个物种中的同一基因, 一般具有相同的功能 Paralog ( 旁系同源序列 ): 两个基因在同一物种中, 通过至少一次基因复制的事件而产生 Xenolog ( 异同源序列 ): 由某一个水平基因转移事件而得到的同源序列 Convergent evolution: 通过不同的进化途径获得相似的功能, 或者功能替代序列
直系同源序列 vs. 旁系同源序列 paralogs orthologs
异同源序列
基因的趋同进化 通过不同的进化途径获得保守 / 相似的功能
趋同进化 :Langur 食叶猴 RNASE: 纤维素分解 消化
HIV protease: 高突变性 Ka/Ks >> 1, 强的正选择压力, 具有很高的可突变性
密码子偏好及相应分析 密码子 (codon): 在随机或者无自然选择的情况下, 各个密码子出现频率将大致相等 密码子偏好 : 各个物种中, 编码同一氨基酸的不同同义密码子的频率非常不一致 可能的原因 : 密码子对应的同功 trna 丰度的不同 - Anticondon
标准密码子
大肠杆菌 RNA 聚合酶
大肠杆菌 RNA 聚合酶 (2) 密码子偏好非常明显 ; 例如 同为编码 Phe 的同义密码子 UUU 和 UUC, 二者出现的次数显著不等,UUU(15 次 ), UUC(44 次 ); 再如 : 编码 Arg 的四个密码子 CGU, CGC, CGA, CGG, 出现次数分别为 :89,46,1, 0. 提示 : 对应 CGG 的同功 trna 可能不存在!
trna & Anticodon 每一个密码子, 对应一个 trna trna 通过 Anticodon 来识别 codon, 联系 mrna 和氨基酸序列的合成 密码子的使用偏好 : 由密码子对应的 trna 的进化及丰度来决定
碱基出现的频率 假如 : 每个核苷酸位点上的替代是随机发生的, 则 A,T,C,G 出现的频率应该大致相等 实际情况 :DNA 受到自然选择的压力, 各个位点的碱基出现频率并不相等 需要解决的问题 : A. 每个位点上受到什么样的选择压力? B. 各个位点的碱基频率反映了什么样的规律? 表征 / 统计的方法 : 计算 G+C 的含量, 并进行比较
分子进化的理论 阳性选择, 适应性进化, 达尔文进化 :DNA 分子显著出现非同义替代, 改变编码蛋白质的氨基酸组成, 并产生新的功能 阴性选择, 净化选择 :DNA 分子的同义替代显著, 较少改变蛋白质的氨基酸组成, 其原来的功能高度保守 中性进化 : 同义替代与非同义替代比例相当, 突变不好不坏, 不改变或轻微改变蛋白质的功能
同义替代 vs. 非同义替代 GCGGTTTGGGAG GCGGTCTGCGAC 64 个密码子, 编码 20 个氨基酸 GTT GTC GTA GTG CGT CGC 组氨酸 H 脯氨酸 P 四倍简并二倍简并 TGG TGC 色氨酸 W 半胱氨酸 C 同义替代 非同义替代
编码区 vs. 非编码区 编码区 :DNA 上编码功能性的基因的部分 非编码区 : 或称基因组序列, 绝大部分无功能 选择压力 : 编码区 : 阳性选择 1%; 中性进化 80%; 阴性进化 19%; 非编码区 :~100% 的中性进化
编码区 : 密码子 对于同义的密码子, 第一位少部分可以允许不同, 例如, 编码 Ser 的六个密码子 :TCT, TCC, TCA, TCG, AGT, AGC 第二位必须相同 第三位绝大多数可以不同 -> 近似随机 ; 因此 : 第一位 : 阴性进化占大部分, 中性进化占小部分 第二位 : 阴性进化 第三位 : 阴性进化占小部分, 中性进化占大部分
编码区 & 密码子 : 推论 密码子第三位的碱基出现概率接近基因组序列的碱基频率 第二位的碱基出现频率与基因组序列的基建频率相差最大
基因组与 GC 含量的关系 细菌基因组的 GC 含量 : 25%~75%
密码子偏好的应用及计算 基本假设 : 在高表达的基因中, 密码子的选择, 更倾向于使用 优化 的同义密码子 推论 1: 给定一个物种的一些高表达的基因, 我们可以估算优化的同义密码子的分布 推论 2: 接着, 我们可以对给定的一个未知基因的序列进行密码子分布的分析, 预测该基因的表达量! 推论 3: 对于一个表达量很低的基因, 我们是否能够通过将少量的密码子改变成优化密码子, 从而显著提高基因的表达量?
RSCU 相对密码子使用频率 (relative synonymous codon usage, RSCU) 定义 : 观测到的某一同一密码子的使用次数, 除以 期望 的该密码子出现次数 编码第 i 个氨基酸的第 j 个密码子的 RSCU 值 RSCU ij 1 n i X n i ij j1 X ij 编码第 i 个氨基酸的第 j 个密码子的观测值 编码第 i 氨基酸的同义密码子的数目
密码子 :the relative adaptation 编码第 i 个氨基酸的第 j 个同义密码子的 相对适应性 : w ij RSCU RSCU ij X X ij imax imax 即该同义密码子的观察值, 除以编码该氨基酸的同义密码子的最大值
大肠杆菌 & 酵母
CAI: codon Adaptation Index CAI CAI obs CAI max 其中, CAI K L obs RSCU k k 1 K CAI L max RSCU k max k 1 另外, L CAI L w k k 1 L 为序列的长度
例 : 大肠杆菌的 rpsu rpsu 包含 70 个 codon, 部分序列如下 :
大肠杆菌和酵母 : 部分基因的 CAI
异源基因 : 在其他物种中的 CAI
氨基酸序列的进化演变 分子进化的分析 : 基于氨基酸序列的分析早于 DNA 序列 优势 : 氨基酸序列更为保守, 对年代跨度大的进化分析有帮助 ; 数学模型较 DNA 远为简单 p 距离 :p-distance 泊松校正,d 距离
p-distance 另两条蛋白质序列之间的氨基酸差异数为 n d, 所有序列的氨基酸数目相同为 n, 则 P 距离 p n d n 所有的插入 / 缺失都要删除! 不同物种的血红蛋白 α 链中不同氨基酸的数目及比例 长度 :140aa
PC: 泊松校正 序列差异的百分比 (p) 与分歧时间 t 的关系 :t 较短的时候, 回复突变较少, 两者大致成线性关系 ; 当 t 较大时, 回复突变增多, 二者成非线性关系 令 γ 为某一位点每年的氨基酸替代率, 并假设所有位点的 γ 都相同 : 基本假设 在时间 t 年之后, 每个位点替代的平均数为 :γt; 给定一个位点, 氨基酸替代数 k(k=0,1,2,3, ) 的可能性遵循泊松分布, 即 rt k e ( rt) P( k; t) k! rt 因此, 某一位点氨基酸不变的概率为 P(0; t) e
PC: 泊松校正 (2) 祖先序列未知 : 不知道当前的序列从何演化而来 解决方案 : 对两条已经有 t 年分化的序列, 一条序列无替代 rt 的概率为 : e rt 2 2rt, 两条序列则为 : q ( e ) e q=1-p 泊松校正距离 d=2rt 因此, q ( e rt 1 p e d ln(1 p) d=-ln(1-p), 即泊松距离 ) 2 d 2rt e d ln(1 p)
P- 距离 vs. 泊松距离
DNA 序列的进化演变 基因组上存在着多种多样的 DNA 区域, 例如蛋白质编码区, 非编码区, 内含子, 侧翼区, 重复片断以及插入序列等 本章考虑蛋白质与 RNA 的编码区的 DNA 序列的进化演变模型 进化模型 :Jukes-Cantor 法与 Kimura 两参数法
两条 DNA 序列的差异 对于两条长度为 n 的 DNA 序列, 不同的碱基对为 n d, 则两条序列的差异性可表示为 : 核苷酸的改变 : 转换 P 颠换 Q, 则 p=p+q 当 p 较小时, 如果核苷酸替代是随机发生的, Q=2P; 通常转换比颠换出现频率高 ; 转换 / 颠换比 : R P Q p nd n
核苷酸替代数的估计
Jukes-Cantor 法 假定任一位点的核苷酸替代的频率相等, 且每一位点的核苷酸每年以 α 的概率演变为其他三种核苷酸的一种 因此, 一个核苷酸演变为其他三种核苷酸之一的概率为 γ= 3α 假设, 在 t 年前分化出两条核酸序列 X 和 Y, q t 表示 X 和 Y 值之间相同核苷酸的比例值,p t =1-q t, 表示 X 和 Y 之间不同的核苷酸的比例值
Jukes-Cantor 法 (2) 对于 X 和 Y 之间相同 (q t ) 的核苷酸的一个位点, 在时间 t+1 时 ( 过了一年 ), 以 (1-γ) 2 的概率保持不变 ; 当 γ 较小时,γ 2 可以忽略, 则 q t+1 =1-2γ 对于 X 和 Y 之间不同 (1-q t ) 的位点, 假设在时间 t 时, X 序列上的位点位 i,y 序列上为 j: 如果 X 的 i 变成 j, 而 Y 上的 j 不变, 则二者将相同 ; 事件发生的概率为 α(1- γ)=γ(1-γ)/3; 反之的概率是相等的 因此事件的总概率为 :2γ(1-γ)/3,γ 2 忽略, 则近似为 : 2γ/3
Jukes-Cantor 法 (3) 因此, 差分方程为 : 令, 则 t t t t t t t t t t t t t q q q q q q q q q q q q q 3 8 3 2 3 8 3 2 3 2 3 2 2 ) (1 3) (2 / ) 2 (1 1 1 1 1 t t t q q q d d 1 ) e (1 4 3 1 1 q 0 t 3 8 3 2 t 3 8 q q d d t q 时, 且当初始条件 两条序列每一位点的替代期望值 d=2γt, 代入 p) 3 4 ln(1 4 3 d p 3 4 1 e e 1 p 3 4 ) e (1 4 3 1 p 1, 2 d ), e (1 4 3 1 d 3 4 d 3 4 d 3 4 t 3 8 则且 t q
Kimura 两参数法 对于实际数据, 转换替代速率通常高于颠换速率 ; 因此, 每年每个位点转换替代率为 α, 颠换替代率 2β 可计算 P,Q 值为 : 1 4( ) t 8t P (1 2e e ) 4 1 8t Q (1 e ) 2 1 1 d 2t ln(1 2P Q) ln(1 2Q) 2 4 P 和 Q 可以从两条比对的序列中观测并计算得到