Microsoft PowerPoint - chap7-1.ppt [兼容模式]

生物信息学第七章分子进化与系统发育分析 (1)

生物学家 We have a dream Tree of Life: 重建所有生物的进化历史并以系统树的形式加以描述

梦想走进现实 :How? 最理想的方法 : 化石! 零散不完整比较形态学和比较生理学 : 确定大致的进化框架细节存很多的争议

第三种方案 : 分子进化 1964 年,Linus Pauling 提出分子进化理论 DNA & RNA: 4 种碱基 ; 蛋白质分子 :20 种氨基酸发生在分子层面的进化过程 :DNA, RNA 和蛋白质分子基本假设 : 核苷酸和氨基酸序列中含有生物进化历史的全部信息

分子进化的模式 DNA 突变的模式 : 替代, 插入, 缺失, 倒位核苷酸替代 : 转换 (Transition) & 颠换 (Transversion) 基因复制 : 多基因家族的产生以及伪基因的产生 A. 单个基因复制重组或者逆转录 B. 染色体片断复制 C. 基因组复制

DNA 突变的模式替代插入缺失倒位

核苷酸替代 : 转换 & 颠换转换 : 嘌呤被嘌呤替代, 或者嘧啶被嘧啶替代颠换 : 嘌呤被嘧啶替代, 或者嘧啶被嘌呤替代

基因复制 : 单个基因复制重组逆转录

基因复制 : 染色体片段复制人狒狒

基因复制 : 基因组复制 S. Cerevisiae ( 酿酒酵母 ) K. Waltii ( 克鲁雄酵母 ) 研究结果 : 克鲁雄酵母中的同源基因数量与酿酒酵母相比为 1:2

分子进化研究的目的从物种的一些分子特性出发, 构建系统发育树, 进而了解物种之间的生物系统发生的关系 tree of life; 物种分类大分子功能与结构的分析 : 同一家族的大分子, 具有相似的三级结构及生化功能, 通过序列同源性分析, 构建系统发育树, 进行相关分析 ; 功能预测进化速率分析 : 例如,HIV 的高突变性 ; 哪些位点易发生突变?

Tree of Life: 16S rrna

Out of Africa 人类迁移的路线 53 个人的线粒体基因组 (16,587bp)

同源性分析 -> 功能相似性 Ortholog ( 直系同源序列 ): 两个基因通过物种形成的事件而产生, 或源于不同物种的最近的共同祖先的两个基因, 或者两个物种中的同一基因, 一般具有相同的功能 Paralog ( 旁系同源序列 ): 两个基因在同一物种中, 通过至少一次基因复制的事件而产生 Xenolog ( 异同源序列 ): 由某一个水平基因转移事件而得到的同源序列 Convergent evolution: 通过不同的进化途径获得相似的功能, 或者功能替代序列

直系同源序列 vs. 旁系同源序列 paralogs orthologs

异同源序列

基因的趋同进化通过不同的进化途径获得保守 / 相似的功能

趋同进化 :Langur 食叶猴 RNASE: 纤维素分解消化

HIV protease: 高突变性 Ka/Ks >> 1, 强的正选择压力, 具有很高的可突变性

密码子偏好及相应分析密码子 (codon): 在随机或者无自然选择的情况下, 各个密码子出现频率将大致相等密码子偏好 : 各个物种中, 编码同一氨基酸的不同同义密码子的频率非常不一致可能的原因 : 密码子对应的同功 trna 丰度的不同 - Anticondon

标准密码子

大肠杆菌 RNA 聚合酶

大肠杆菌 RNA 聚合酶 (2) 密码子偏好非常明显 ; 例如同为编码 Phe 的同义密码子 UUU 和 UUC, 二者出现的次数显著不等,UUU(15 次 ), UUC(44 次 ); 再如 : 编码 Arg 的四个密码子 CGU, CGC, CGA, CGG, 出现次数分别为 :89,46,1, 0. 提示 : 对应 CGG 的同功 trna 可能不存在!

trna & Anticodon 每一个密码子, 对应一个 trna trna 通过 Anticodon 来识别 codon, 联系 mrna 和氨基酸序列的合成密码子的使用偏好 : 由密码子对应的 trna 的进化及丰度来决定

碱基出现的频率假如 : 每个核苷酸位点上的替代是随机发生的, 则 A,T,C,G 出现的频率应该大致相等实际情况 :DNA 受到自然选择的压力, 各个位点的碱基出现频率并不相等需要解决的问题 : A. 每个位点上受到什么样的选择压力? B. 各个位点的碱基频率反映了什么样的规律? 表征 / 统计的方法 : 计算 G+C 的含量, 并进行比较

分子进化的理论阳性选择, 适应性进化, 达尔文进化 :DNA 分子显著出现非同义替代, 改变编码蛋白质的氨基酸组成, 并产生新的功能阴性选择, 净化选择 :DNA 分子的同义替代显著, 较少改变蛋白质的氨基酸组成, 其原来的功能高度保守中性进化 : 同义替代与非同义替代比例相当, 突变不好不坏, 不改变或轻微改变蛋白质的功能

同义替代 vs. 非同义替代 GCGGTTTGGGAG GCGGTCTGCGAC 64 个密码子, 编码 20 个氨基酸 GTT GTC GTA GTG CGT CGC 组氨酸 H 脯氨酸 P 四倍简并二倍简并 TGG TGC 色氨酸 W 半胱氨酸 C 同义替代非同义替代

编码区 vs. 非编码区编码区 :DNA 上编码功能性的基因的部分非编码区 : 或称基因组序列, 绝大部分无功能选择压力 : 编码区 : 阳性选择 1%; 中性进化 80%; 阴性进化 19%; 非编码区 :~100% 的中性进化

编码区 : 密码子对于同义的密码子, 第一位少部分可以允许不同, 例如, 编码 Ser 的六个密码子 :TCT, TCC, TCA, TCG, AGT, AGC 第二位必须相同第三位绝大多数可以不同 -> 近似随机 ; 因此 : 第一位 : 阴性进化占大部分, 中性进化占小部分第二位 : 阴性进化第三位 : 阴性进化占小部分, 中性进化占大部分

编码区 & 密码子 : 推论密码子第三位的碱基出现概率接近基因组序列的碱基频率第二位的碱基出现频率与基因组序列的基建频率相差最大

基因组与 GC 含量的关系细菌基因组的 GC 含量 : 25%~75%

密码子偏好的应用及计算基本假设 : 在高表达的基因中, 密码子的选择, 更倾向于使用优化的同义密码子推论 1: 给定一个物种的一些高表达的基因, 我们可以估算优化的同义密码子的分布推论 2: 接着, 我们可以对给定的一个未知基因的序列进行密码子分布的分析, 预测该基因的表达量! 推论 3: 对于一个表达量很低的基因, 我们是否能够通过将少量的密码子改变成优化密码子, 从而显著提高基因的表达量?

RSCU 相对密码子使用频率 (relative synonymous codon usage, RSCU) 定义 : 观测到的某一同一密码子的使用次数, 除以期望的该密码子出现次数编码第 i 个氨基酸的第 j 个密码子的 RSCU 值 RSCU ij 1 n i X n i ij j1 X ij 编码第 i 个氨基酸的第 j 个密码子的观测值编码第 i 氨基酸的同义密码子的数目

密码子 :the relative adaptation 编码第 i 个氨基酸的第 j 个同义密码子的相对适应性 : w ij RSCU RSCU ij X X ij imax imax 即该同义密码子的观察值, 除以编码该氨基酸的同义密码子的最大值

大肠杆菌 & 酵母

CAI: codon Adaptation Index CAI CAI obs CAI max 其中, CAI K L obs RSCU k k 1 K CAI L max RSCU k max k 1 另外, L CAI L w k k 1 L 为序列的长度

例 : 大肠杆菌的 rpsu rpsu 包含 70 个 codon, 部分序列如下 :

大肠杆菌和酵母 : 部分基因的 CAI

异源基因 : 在其他物种中的 CAI

氨基酸序列的进化演变分子进化的分析 : 基于氨基酸序列的分析早于 DNA 序列优势 : 氨基酸序列更为保守, 对年代跨度大的进化分析有帮助 ; 数学模型较 DNA 远为简单 p 距离 :p-distance 泊松校正,d 距离

p-distance 另两条蛋白质序列之间的氨基酸差异数为 n d, 所有序列的氨基酸数目相同为 n, 则 P 距离 p n d n 所有的插入 / 缺失都要删除! 不同物种的血红蛋白 α 链中不同氨基酸的数目及比例长度 :140aa

PC: 泊松校正序列差异的百分比 (p) 与分歧时间 t 的关系 :t 较短的时候, 回复突变较少, 两者大致成线性关系 ; 当 t 较大时, 回复突变增多, 二者成非线性关系令 γ 为某一位点每年的氨基酸替代率, 并假设所有位点的 γ 都相同 : 基本假设在时间 t 年之后, 每个位点替代的平均数为 :γt; 给定一个位点, 氨基酸替代数 k(k=0,1,2,3, ) 的可能性遵循泊松分布, 即 rt k e ( rt) P( k; t) k! rt 因此, 某一位点氨基酸不变的概率为 P(0; t) e

PC: 泊松校正 (2) 祖先序列未知 : 不知道当前的序列从何演化而来解决方案 : 对两条已经有 t 年分化的序列, 一条序列无替代 rt 的概率为 : e rt 2 2rt, 两条序列则为 : q ( e ) e q=1-p 泊松校正距离 d=2rt 因此, q ( e rt 1 p e d ln(1 p) d=-ln(1-p), 即泊松距离 ) 2 d 2rt e d ln(1 p)

P- 距离 vs. 泊松距离

DNA 序列的进化演变基因组上存在着多种多样的 DNA 区域, 例如蛋白质编码区, 非编码区, 内含子, 侧翼区, 重复片断以及插入序列等本章考虑蛋白质与 RNA 的编码区的 DNA 序列的进化演变模型进化模型 :Jukes-Cantor 法与 Kimura 两参数法

两条 DNA 序列的差异对于两条长度为 n 的 DNA 序列, 不同的碱基对为 n d, 则两条序列的差异性可表示为 : 核苷酸的改变 : 转换 P 颠换 Q, 则 p=p+q 当 p 较小时, 如果核苷酸替代是随机发生的, Q=2P; 通常转换比颠换出现频率高 ; 转换 / 颠换比 : R P Q p nd n

核苷酸替代数的估计

Jukes-Cantor 法假定任一位点的核苷酸替代的频率相等, 且每一位点的核苷酸每年以 α 的概率演变为其他三种核苷酸的一种因此, 一个核苷酸演变为其他三种核苷酸之一的概率为 γ= 3α 假设, 在 t 年前分化出两条核酸序列 X 和 Y, q t 表示 X 和 Y 值之间相同核苷酸的比例值,p t =1-q t, 表示 X 和 Y 之间不同的核苷酸的比例值

Jukes-Cantor 法 (2) 对于 X 和 Y 之间相同 (q t ) 的核苷酸的一个位点, 在时间 t+1 时 ( 过了一年 ), 以 (1-γ) 2 的概率保持不变 ; 当 γ 较小时,γ 2 可以忽略, 则 q t+1 =1-2γ 对于 X 和 Y 之间不同 (1-q t ) 的位点, 假设在时间 t 时, X 序列上的位点位 i,y 序列上为 j: 如果 X 的 i 变成 j, 而 Y 上的 j 不变, 则二者将相同 ; 事件发生的概率为 α(1- γ)=γ(1-γ)/3; 反之的概率是相等的因此事件的总概率为 :2γ(1-γ)/3,γ 2 忽略, 则近似为 : 2γ/3

Jukes-Cantor 法 (3) 因此, 差分方程为 : 令, 则 t t t t t t t t t t t t t q q q q q q q q q q q q q 3 8 3 2 3 8 3 2 3 2 3 2 2 ) (1 3) (2 / ) 2 (1 1 1 1 1 t t t q q q d d 1 ) e (1 4 3 1 1 q 0 t 3 8 3 2 t 3 8 q q d d t q 时, 且当初始条件两条序列每一位点的替代期望值 d=2γt, 代入 p) 3 4 ln(1 4 3 d p 3 4 1 e e 1 p 3 4 ) e (1 4 3 1 p 1, 2 d ), e (1 4 3 1 d 3 4 d 3 4 d 3 4 t 3 8 则且 t q

Kimura 两参数法对于实际数据, 转换替代速率通常高于颠换速率 ; 因此, 每年每个位点转换替代率为 α, 颠换替代率 2β 可计算 P,Q 值为 : 1 4( ) t 8t P (1 2e e ) 4 1 8t Q (1 e ) 2 1 1 d 2t ln(1 2P Q) ln(1 2Q) 2 4 P 和 Q 可以从两条比对的序列中观测并计算得到