Microsoft PowerPoint - chap7-2.ppt [兼容模式]

Similar documents
專 用 或 主 要 用 於 第 8525 至 8528 節 所 屬 器 具 之 零 件 用 於 衣 服 靴 鞋 帳 蓬 手 提 包 旅 行 用 品 或 其 他 已 製 作 品 之 卑 金 屬 搭 鈕 帶 搭 鈕 之 框 架 帶 扣 帶 扣 搭 鈕 眼 環 眼 及 其

.. (,, ),(): ( (,,, (, (,,, (), ( ): (, ), ( ): (,,, (,,, (,,, ),( ): (,,, (, (,,, (,, (, ),(): ~ (, ~ (,, ~ (, ~ (,,, ), ( ), ( ): ( (,, ~ (,, ), ~ (

!##$!% "&! %( $#!##)!& $!##*!##*! "


中華民國青溪協會第四屆第三次理監事聯席會議資料

《米开朗琪罗传》

. (A) (B) (C) A (D) (E). (A)(B)(C)(D)(E) A


素 4 在上述学 者 观 点 的 基 础 上本 文 认 为 员 工 需 要 一 理论与假设 同时具备创新意 识 创 新 能 力 创 新 动 机 和 创 新 机 会 才 能产生创新行为 创新 意 识 是 指 员 工 能 通 过 对 组 织 环 境 一 组织的创新战略与员工的创新行为 的解读认识到创新

%, 5%, 100, : f = 200 g ; t= 10 g ; d = 3000 g ( ) ; k= 1000 g 1),, ( ) 2), 2% ; 40%, 60% 1500 g 3) 2), : 100 ( )



Microsoft Word - 第一篇第三章_3.doc

2

總目186-運輸署

Microsoft Word 专业主干课程和主要专业课程的教学大纲.doc

标题

A Community Guide to Environmental Health

2

Microsoft PowerPoint - chap7-1.ppt [兼容模式]


WX16d22q

<BFC6D1A7B7F0D1A7D0D2B8A3C8CBC9FA2E696E6464>

高中國文科期末考            年班號姓名:

2009年挑战乔戈里

如何用 MEGA 构建进化树 MEGA 是一个关于序列分析以及比较统计的工具包, 其中包括有距离建树法和 MP 建树法 ; 可自动或手动进行序列比对, 推断进化树, 估算分子进化率, 进行进化假设测验, 还能联机的 Web 数据库检索 下载后可直接使用, 主要包括几个方面的功能软件 :i)dna 和

北京金英杰医学考试中心

2011-论文选集-2.cdr

! "#$! " # $%%&#! ()*+, - %& - %.,/ - /!! ! " ! #0 $ % &0 123.! 4(5 $%%& %3 &$!!!!!!!!!!!!!!! % % - /&%.&.33!!! &! 3%% - 3 % -

水 产 学 报 卷 : ; ; ; 立 式 型 曲 面 网 板 起 源 于 上 世 纪 年 代 的 日 本, 由 于 其 结 构 类 似 于 飞 机 的 机 翼, 同 时 有 板 面 折 角 和 后 退 角, 因 此 网 板 扩 张 性 能 高 稳 定 性 好, 现 已 在 日 本 韩 国 美 国

<4D F736F F D20B6C2A6E2AC7EA6E7AFBBA277A6CBACB4B9EFA9F3A568B0A3AA6FAFD7AABAAEC4A5CEB1B4B0512BABCAADB12E646F63>

Ps22Pdf

!"# $%& %!"# $%& %!"#$%& %! ( )***%% ) $)! +**+),,* -)+.* )( ) +, +*.*)+..**! )$,*)+$))$!"!#

( CIP ) /. 2 ( ). :, 2003 ( ) ISBN R CIP ( 2003 ) ( 2 ) ( ) 850 mm 1168mm 1 /

第 9 卷 江 南 大 学 学 报 人 文 社 会 科 学 版 Z 第 2 期 掌握 是指在 表 层 知 识 教 学 过 程 中 学 生 对 表 层 知 识 的 掌 想 方法有所悟 有所体会 5 数学思想 方法教学是循环往 握 学生掌握 了 一 定 量 的 数 学 表 层 知 识 是 学 生 能 够

一、

2007 /,. :, ISBN D : : : : 2 : : http: / / www. wendu. com : , 832 : : : /

_題目卷

目 录 生 活 方 式 与 优 生 注 意 营 养, 孕 育 健 康 的 宝 宝 31 合 理 摄 取 微 量 元 素 32 高 糖 食 物 要 注 意 32 吸 烟 与 优 生 优 育 33 饮 酒 与 优 生 优 育 34 对 职 业 也 要 引 起 重 视 34 白 领 女 性 孕 前 须 知

为 了 进 一 步 研 究 这 种 新 射 线 的 性 质, 搞 清 楚 这 个 不 速 之 客 的 真 实 身 份, 伦 琴 在 玻 璃 管 与 屏 幕 之 间 放 了 一 本 比 较 厚 的 书, 结 果 照 样 可 以 看 到 荧 光 随 后, 他 又 把 一 块 薄 木 板 放 在 了 书

Microsoft Word htm

Ps22Pdf


幻灯片 1

军队建筑工程造价的灰色预测控制

: () (),, ; 30, 70, ( 10, 1, 10, ) A. B. C. D. [ ] 2. A. B. C. D. [ ] 3. A. B. C. D. [ ] 4. A.1775 B.1787 C.1674 D.1636 [ ]

生物真题+模拟卷(14).FIT)

2 A

( ) A B C D ( ) A B C D A B C D A B C D A 8750 B C 6250 D 5000 A B C D A B C D

第8組 王玉妏、黃怡君、殷秀菁

肝 臟 跟 胰 臟 是 攣 生 兄 弟 嗎 胰 臟 位 置 與 基 本 功 能 胰 臟 藏 身 隱 密, 若 僅 簡 單 進 行 醫 學 理 學 檢 查, 像 是 觸 診, 很 難 觸 摸 到 它

2002年山东分公司成立酒会

( CIP ) /,. 2 ( ) :, ( ) ISBN :. R CIP ( 2003 ) ( 2 ) ( ) 850 mm 1168mm 1 /

Ps22Pdf

Ðļ¡Ñ×

中国药师 年第 卷第 期 C P m V N 左金丸源自元代 丹溪心法 的火方 由黄连和 型在线脱气机 S L A型自动进样器 CTO A型 吴茱萸两味药按照 的比例组成 近年来的现 柱温箱 日本 S m 公司 BPD型电子天平 代药理学研究表明 左金丸具有调节中枢 抑杀幽门 德国赛多利斯集团 BR


6~7 題 為 題 組 鐮 刀 型 貧 血 是 由 一 對 對 偶 基 因 發 生 突 變, 而 產 生 變 異 型 血 紅 素 所 造 成 的 一 群 症 狀. 正 常 人 血 紅 素 以 HbA 表 示, 變 異 型 血 紅 素 則 以 Hbs 表 示.Hbs 分 子 仍 可 攜 帶 氧, 但

Ph m V N 中国药师 年第 卷第 期 Ch 学基础首先是开放性药物可直接经口 鼻给予 其次是应 连整个产品设计紧凑携带使用方便此外减速网也被认为 答性它富含的感受器和药物受体能对体内外刺激作出应答 是可用于降低药物微粒速度从而减少其惯性嵌顿的一种结 反射从而对调节气道的张力有重要作用 第三是吸

二, 国 内 著 名 财 经 记 者 其 中 财 经 资 讯 的 主 要 需 求 者 选 择 中 国 经 营 报 的 忠 实 读 者, 于 年 7 月 1 4 日 ( 总 期 第 1514 期 ) 随 报 刊 登 出 问 卷, 回 收 问 卷 1103 份, 其 中 有 效 问 卷 10

山东2014第四季新教材《会计基础》冲刺卷第二套

安全生产管理知识

期 李 海 青 等 : 生 物 安 全 性 白 藜 芦 醇 合 成 酶 表 达 载 体 的 构 建 及 水 稻 遗 传 转 化 子 植 物 中 作 为 植 物 处 于 恶 劣 环 境 下 或 遭 到 病 原 体 侵 害 时, 植 物 自 身 分 泌 的 一 种 可 抵 御 病 菌 感 染 的 抗 菌

標準 BIG 中文字型碼表 A 0 9 B C D E F 一 乙 丁 七 乃 九 了 二 人 儿 入 八 几 刀 刁 力 匕 十 卜 又 三 下 丈 上 丫 丸 凡 久 么 也 乞 于 亡 兀 刃 勺 千 叉 口 土 士 夕 大 女 子 孑 孓 寸 小 尢 尸 山 川 工 己 已 巳 巾 干 廾

目 录 第 一 章 实 验 室 安 全 管 理 概 论... 1 第 二 章 消 防 安 全... 2 第 三 章 电 气 安 全... 5 第 四 章 仪 器 设 备 安 全 第 五 章 环 境 安 全 第 六 章 化 学 品 放 射 性 物 品 安 全 第 七

楞嚴經(第十六講)楞嚴法門三大主旨電子書.pdf

贵 州 红 星 发 展 股 份 有 限 公 司 2015 年 年 度 股 东 大 会 会 议 议 程 一 现 场 会 议 议 程 时 间 :2016 年 4 月 29 日 ( 星 期 五 )14:00 地 点 : 山 东 省 青 岛 市 市 北 区 济 阳 路 8 号 青 岛 红 星 化 工 集 团

经 无 数 次 的 提 取 和 提 纯, 最 终 得 到 一 小 匙 东 西 这 种 东 西 在 显 微 镜 下 呈 现 出 针 状 晶 体 的 形 状, 在 水 中 溶 解 后 得 到 一 种 带 乳 光 的 汁 液 当 他 将 少 许 溶 液 涂 抹 健 康 烟 叶 上 几 天 后, 这 烟 叶

2

(黃).indd

山东2014第四季新教材《会计基础》冲刺卷第三套

主 題 四 : 都 卜 勒 效 應 一 都 卜 勒 效 應 1. 現 象 : 當 波 源 與 觀 察 者 連 線 間 有 相 對 運 動 時, 聽 者 所 接 收 到 的 頻 率 ( 視 頻 ) 將 與 波 源 之 原 頻 率 不 同, 此 現 象 稱 為 都 卜 勒 效 應 例 如 站 於 路 旁


解 答 ( A ) 摧 心 剖 肝 : 形 容 極 度 哀 傷 ( B ) 甑 塵 釜 魚 : 比 喻 生 活 困 苦 清 寒 ( C ) 戴 笠 乘 車 : 朋 友 相 交 始 終 如 一 不 因 貴 賤 而 有 所 改 變 (D) 懲 忿 窒 欲 : 遏 止 忿 怒, 窒 塞 情 慾 5. 史

總目100-海事處

第二章 环境


6 ),, A B C X 4,,,,,,,, (CIP) /,. :, ( / ) ISBN R96-44 CIP (2004) : / : :

Microsoft Word - 2-2排列與組合.doc

zt

Microsoft Word - 第5-7章

Microsoft Word - 中国养生茶新产品推荐手册-9.6版!.doc

关于试行《高等学校从事有害健康工种人员营养保健等级和标准的暂行规定》的通知

ZHFX1302.mps

*33*!!! "!! #$! %#! "& "! #! %! # ( ) * # +, # -, # +., $ /# ( ) 0 $ +# ( ) 0 $.# ( ) 0 $ # $! % "" " % 1 % & ( * ) * % " " %.! % 2!!"+# ( "&! " ( "#

Microsoft PowerPoint - 04 Models of Amino Acid and Codon Substitution.ppt

1

( CIP) /. 2. :, 2004 (. ) ISBN G CIP ( 2004 ) : : : : : : 2 1 : : : 787mm 1092mm 16 : 7. 5 : 180 :

试卷

2. 下 列 理 解 和 分 析, 不 符 合 原 文 意 思 的 一 项 是 ( ) A. 水 手 在 伦 敦 讲 东 印 度 群 岛 的 所 见 所 闻, 匠 人 在 火 炉 边 讲 自 己 的 人 生 经 历, 他 们 讲 的 故 事 各 有 特 点, 但 同 属 于 传 统 故 事 模 式

就 构 成 了 盗 窃 罪 与 破 坏 交 通 设 施 罪 的 想 象 竞 合, 按 照 其 中 处 罚 较 重 的 犯 罪 处 罚 5. 答 案 :B 本 题 主 要 考 察 如 何 区 分 收 买 被 拐 卖 的 妇 女 儿 童 罪 与 拐 卖 妇 女 儿 童 罪 的 共 犯 问 题 ( 对 向

逢甲大學實習工場


Microsoft PowerPoint - chap4-1.ppt [兼容模式]

考 查 知 识 点 肝 气 疏 泄 调 畅 气 机 的 作 用, 主 要 表 现 在 以 下 几 个 方 面 :(1) 促 进 血 液 与 津 液 的 运 行 输 布 ;(2) 促 进 脾 胃 的 运 化 功 能 和 胆 汁 分 泌 排 泄 ;(3) 调 畅 情 志 ;(4) 促 进 男 子 排 精

精 品 库 我 们 的 都 是 精 品 _www.jingpinwenku.com 7. 根 据 中 华 人 民 共 和 国 会 计 法 的 规 定, 对 登 记 会 计 账 簿 不 符 合 规 定 的 单 位 县 级 以 上 人 民 政 府 财 政 部 门 责 令 限 期 改 正, 并 可 以 处

Microsoft Word - aids guideline.doc

17. (3) 保 母 對 自 己 的 專 業 倫 理 包 括 那 些 項 目?A. 經 常 進 修 吸 收 新 知 ;B. 積 極 參 與 保 母 專 業 組 織 ; C. 努 力 通 過 高 普 考 考 試 ;D. 配 合 督 導 制 度 提 升 自 我 素 質 1 ABC 2 ACD 3 AB

貳 文 獻 探 討 由 於 我 們 對 天 文 知 識 了 解 不 多, 所 以 藉 由 文 獻 探 討, 讓 我 們 有 更 多 的 基 礎 將 針 對 這 四 個 方 向 : 如 何 激 發 對 天 文 興 趣 與 探 索 教 師 如 何 將 天 文 課 程 落 實 到 幼 托 機 構 幼 兒

Ps22Pdf

Transcription:

生物信息学 第七章分子进化与系统发育分析 (2)

同义与非同义的核苷酸替代 同义替代 : 编码区的 DNA 序列, 核苷酸的改变不改变编码的氨基酸的内容 非同义替代 : 核苷酸改变, 从而改变编码氨基酸的内容 计算方法 : A. 进化通径法 B. Kimura 两参数法 C. 采用密码子替代模型的最大似然法

Ka/Ks: 计算及含义 Ka: 每个非同义位点的非同义替代数目 Ks: 每个同义位点的同义替代数目 一般计算公式 : 考虑序列上所有可能的同义位点 (S) 和非同义位点 (N), 通过双序列比对发现存在的同义位点 (S d ) 和非同义位点 (N d ), 存在 : N d Ka / Ks N S d S

Ka/Ks: 计算及含义 Ka/Ks ~ 1: 中性进化 ka/ks << 1: 阴性选择, 净化选择 ka/ks >> 1: 阳性选择, 适应性进化 多数基因为中性进化, 约 1% 的基因受到阳性选择 -> 决定物种形成 新功能的产生 PAML, MEGA 等工具 : 计算 Ka/Ks 及统计显著性

进化通径法 :Nei-Gojobori 首先需要考虑 : 潜在的同义 (S) 和非同义位点数 (N) 基本假设 : 所有核苷酸的替代率相等 用 f i 表示某一个密码子第 i 位的核苷酸上发生同义替代的比例 ;(i=1,2,3) 所有密码子潜在的同义和非同义替代的位点 3 数定义如下 : s f i,n=3-s i 1

潜在的同义和非同义位点数的估计 例如对于 Phe, 密码子 TTT, 第三位 T 变成 C 时为同义替代, 变成 A/G 为非同义替代 因此 : s=0+0+1/3 n=3-1/3=8/3 终止密码子忽略不计 ; 如 Cys 的 TGT, s=0.5

整个序列的同义与非同义估计 S C j 1 S j 和 N=3C-S; Sj 为第 j 位密码子的 s 值,C 为所有密码子的总数 S+N=3C: 所比较的核苷酸的总数

S d 与 N d 的计算 : 进化通径 当一对密码子仅存在一个差异时, 可以立即判断是同义还是非同义, 进化通径只有一种可能 ; 例如对于 GTT(Val) 和 GTA(Val),s d =1,n d =0; 而对于 ATT(I) 和 ATG(M),s d =0,n d =1 一对密码子存在两个差异时 : 两种进化通径 ( 简约法, 即最少需要 ) 例如: 比较 TTT(Phe) 和 GTA(Val): (1) TTT(Phe)<->GTT(Val)<->GTA(Val) (2) TTT(Phe)<->TTA(Leu)<->GTA(Val) s d =1/2=0.5,n d =3/2=1.5 同样, 终止密码子不予考虑

S d 与 N d 的计算 : 进化通径 (2) 一对密码子存在三个差异时 : 六种进化通径 例如 : 比较 TTG(Leu) 和 AGA(Arg): (1) TTG(Leu)<->ATG(Met)<->AGG(Arg)<->AGA(Arg) (2) TTG(Leu)<->ATG(Met)<->ATA(Ile)<->AGA(Arg) (3) TTG(Leu)<->TGG(Trp)<->AGG(Arg)<->AGA(Arg) (4) TTG(Leu)<->TGG(Trp)<->TGA(Ter)<->AGA(Arg) (5) TTG(Leu)<->TTA(Leu)<->ATA(Ile)<->AGA(Arg) (6) TTG(Leu)<->TTA(Leu)<->TGA(Ter)<->AGA(Arg) 通径 4,6 忽略, 通径 (1),(2),(3),(5) 同义替代数目 1,0,1,1; 非同义替代 2,3,2,2, 因此 s d =3/4,n d =9/4

Ka/Ks 的计算 统计显著性的检验 :Fisher s Exact Test!

Nei-Gojobori 的改进版本 Nei-Gojobori 的原始版本假设四种核苷酸之间的替代是随机的 实际情况中 : 转换变化率应该比颠换变化率高, 并且第三位上发生转换变化常常是同义的 因此这种情况下, 估算的 S 将比 Nei- Gojobori 所估计的数值大 Ka / Ks N N S S d d S 增大, 则 Ka/Ks 值将增大

Nei-Gojobori 的改进版本 (2) 转换 / 颠换比 :R=α/(2β) 因此 : R 2 1 2R 无转换 / 颠换偏倚时,R=0.5 对于 TTT(Phe), 假设 R=0.8 A. Nei-Gojobori:s=0+0+1/3=1/3 B. Nei-Gojobori 升级版 :s=0+0+(0.8)/(1+0.8)=0.44 R 的估计 :R=P/Q, 通过对比较的两条 DNA 序列进行估计得到

系统发育树的构建 系统发育树 : 分子进化树 / 分子进化分析 通过进化树的构建, 分析分子之间的起源关系, 预测分子的功能 建树方法 : 最大简约法 (Maximum Parsimony) 距离法 (Distance-based methods) 最大似然性法 (Maximum Likelihood) 贝叶斯方法 (Bayesian method)

系统发育树 : 术语 根节点 分支 / 世系 内部节点 / 分歧点, 该分支可能的祖先结点 叶节点 A B C D E 代表最终分类, 可以是物种, 群体, 或者蛋白质 DNA RNA 分子等

系统发育树 : 三种类型 分支图进化树时间度量树 Taxon B 6 Taxon B Taxon B Taxon C 1 Taxon C Taxon C Taxon A 1 Taxon A Taxon A Taxon D Taxon D Taxon D 无意义 遗传变化 时间 以上三种类型的系统发育树表示相同的分支状况, 相同的进化关系

树只代表分支的拓扑结构 A BC D F G D C E F G E A B

无根树, 有根树, 外围支 archaea archaea archaea eukaryote eukaryote eukaryote 无根树 通过外围支来确定树根 eukaryote bacteria outgroup archaea archaea archaea 外围支 有根树 根 eukaryote eukaryote eukaryote eukaryote

无根树和有根树 : 潜在的数目 #Taxa 无根树有根树 3 1 3 4 3 15 5 15 105 6 105 945 7 945 10,395 30 ~3.58X10 36 ~2.04X10 38 Taxa 增多, 计算量急剧增加, 因此, 目前算法都为优化算法, 不能保证最优解

系统发育树重建分析步骤 多序列比对 ( 自动比对, 手工校正 ) 选择建树方法以及替代模型 建立进化树 进化树评估

系统发育树重建的基本方法 最大简约法 (maximum parsimony, MP) 距离法 (distance) 最大似然法 (maximum likelihood, ML) 贝叶斯方法 (Bayesian method)

最大简约法 (MP) 理论基础为奥卡姆剃刀 (Ockham) 原则 : 计算所需替代数最小的那个拓扑结构, 作为最优树 在分析的序列位点上没有回复突变或平行突变, 且被检验的序列位点数很大的时候, 最大简约法能够推导获得一个很好的进化树 优点 : 不需要在处理核苷酸或者氨基酸替代的时候引入假设 ( 替代模型 ) 缺点 : 分析序列上存在较多的回复突变或平行突变, 而被检验的序列位点数又比较少的时候, 可能会给出一个不合理的或者错误的进化树推导结果

信息位点 (Sites are informative) 信息位点, 必须在至少 2 个 taxa 中具有相同的序列性状 信息位点是指那些至少存在 2 个不同碱基 / 氨基酸且每个不同碱基 / 氨基酸至少出现两次的位点

上例 Position 5, 7, 9 为信息位点 基于 position 5 的三个 MP 树 : Tree 1 长度 1,Tree 2 & 3 长度 2 Tree 1 更为简约 : 总长 :4 Tree 2 长 5;Tree 3 长 6 计算结果 :MP tree 的最优结果为 tree 1

距离法 又称距离矩阵法, 首先通过各个物种之间的比较, 根据一定的假设 ( 进化距离模型 ) 推导得出分类群之间的进化距离, 构建一个进化距离矩阵 进化树的构建则是基于这个矩阵中的进化距离关系

简单的距离矩阵

通过距离矩阵建树的方法 由进化距离构建进化树的方法有很多, 常见有 : Fitch-Margoliash Method (FM 法 ): 对短支长非常有效 Neighbor-Joining Method (NJ 法 / 邻接法 ): 求最短支长, 最通用的距离方法 Unweighted Pair Group Method (UPGMA 法 )

Fitch-Margoliash 方法 (FM 法 )

D 和 E 最接近! 分成三组 :D, E, 以及 ABC

DE 距离 =d+e (1) D 到 ABC 间的平均距离 =d+m (2) E 到 ABC 间的平均距离 =e+m (3) (2)-(3)+(1) d=4,e=6

C 最接近 DE! 分成三组 :C, DE, 以及 AB

c+g+(e+d)/2=19 (1) c+f+(a+b)/2=40 (2) (e+d)/2+(a+b)/2+f+g=41 (2) (1)+(2)-(3) 得 :c=9

c+g+(e+d)/2=19 (e+d)/2=5,c=9, 则 g=5

由 :(a+b)/2+f+g+(d+e)/2=41 得 :f=20 由 :a+f+c=39 得 :a=10, 则 b=12

NJ/ 邻接法 与 FM 方法非常类似 保证总的支长最短 总支长 :a+b+c+d+e=314/4=78.5

找到距离最近的两个点 任意两个节点选为相邻序列的总支长计算公式 : 计算 S AB, S BC, S CD, S DE 等数值 该例中, S AB 最小

计算 A, B 的分支长度 把 A B 看成一个新的复合序列, 构建一个新的距离表, 重复以上过程

UPGMA 法 d=e=10/2=5

c=19/2=9.5 g=c-d=9.5-5=4.5

A B (CDE) A - 22 39.5 B - - 41.5 (CDE) - - - a=b=22/2=11

(AB) (CDE) (AB) - 40.5 (CDE) - - f1+a=f2+c=40.5/2=20.25 f1=9.25, f2=11.75

基于似然性 (likelihood) 的推断 硬币两个面, 正面 (H), 背面 (T) 六次投掷后 :HHHHTT 正面出现的概率 p, 背面出现的概率 1-p 当 p=0.67 时, 概率函数达到最大值 因此, 正面出现的概率可能是 0.67 模式出现的概率函数 f(p)= p 4 (1-p) 2

最大似然法 (ML) 考虑一个进化模型 M, 例如 Jukes-Cantor 已知根节点上每个位点的先验分布 所有的位点在进化中是独立且等同的 (independently and identically, i.i.d.) p(x y t) 即在分支 t 上 x 被替代成 y 的概率 在 Jukes-Cantor 模型中, 替代速率 3α= γ

因为 : 如何估算 αt? 所以 : 给定三条序列 S1: TGG S2: AGG S3: AGC

最大似然法 (ML) 寻找树 H 包含 k 个叶节点, 从而最大化条件概率 L=Pr[Data H, M] L 即为在模型 M 下的似然性 (likelihood) 由于位点进化独立且等同,L 等于比对结果中第 i 列的似然性 L i 的乘积 其中 L i =Pr[Data (i) H, M]

似然性的计算 假设第 i 列的位点, 三条序列的字符为 T, A, A, 对于其中一个可能的树 H: 根节点 R 有四种可能 : A, G, C, T 内部节点 I 也有四种可能 : A, G, C, T 对于每一对特定状态, 例如 : R=A, I=G, 进化概率为 p[r=a] p(a A x) p(a G y) p(g T z) p(g A w) 考虑所有的概率, 则似然性 L i 为

例如, 给定三条序列 S1: TGG S2: AGG S3: AGC 需要考虑三种拓扑结构 对于每一个树 ( 例如最左边的树 ), 基于 Jukes-Cantor 模型计算似然性 Pr[Data H, M] = L 1 L 2 L 3

最大似然法 (ML) 对于每个树, 我们需要确定 4 个分支的长度 最大化似然性 Pr[ Data H, M], 该函数包含 16 x 16 x 16 项, 每一项是 5 个概率的乘积 最大似然法非常耗费时间 NP-hard 问题 : 太多树需要考虑

贝叶斯方法 (Bayesian Method) 考虑我们有一个比对 A (data), 包含 k 条序列 S 1, S 2, S k 假设我们知道所有树的概率分布, 即先验概率分布 (prior probability distribution), 需要独立于数据本身, 例如 :

贝叶斯方法 (Bayesian Method) 对于数据 A, 利用贝叶斯理论对给定树 T 计算概率 Pr[T Data] 是根据给定数据所观测到该树的概率, 称为树的后验概率 (posterior probability)

贝叶斯方法 (Bayesian Method) 如何确定先验概率分布? Markov Chain Monte Carlo (MCMC) 数据采样, 建立先验的概率分布 如果先验概率是均匀分布, 则贝叶斯方法等同于最大似然性方法 计算时间比最大似然性方法更久

建树方法总结 快 慢 Neighbor-Joining UPGMA Parsimony Method Maximum Likelihood Bayesian Method 不够准确 准确

构建进化树的一般原则

构建进化树的一般原则 (2) 可靠的待分析数据 准确的多序列比对 选择合适的建树方法 : 序列相似程度高,NJ, MP 首选 序列相似程度较低,ML, 贝叶斯首选 序列相似程度太低, 无意义 一般采用两种及以上方法构建进化树, 无显著区别可接受

选择外围支 (Outgroup) 选择一个或多个已知与分析序列关系较远的序列作为外围支 外围支可以辅助定位树根 外围支序列必须与剩余序列关系较近, 但外围支序列与其他序列间的差异必须比其他序列之间的差异更显著

自展法 进化树的可靠性分析 : 自展法 (Bootstrap Method) 从排列的多序列中随机有放回的抽取某一列, 构成相同长度的新的排列序列 重复上面的过程, 得到多组新的序列 对这些新的序列进行建树, 再观察这些树与原始树是否有差异, 以此评价建树的可靠性

原始排列 Alpha AACAAC Beta AACCCC Gamma ACCAAC Delta CCACCA Epsilon CCAAAC Bootstrap1 Alpha ACAAAC Beta ACCCCC Gamma ACAAAC Delta CACCCA Epsilon CAAAAC Bootstrap2 Alpha AAAACC Beta AACCCC Gamma CCAACC Delta CCCCAA Epsilon CCAACC Bootstrap3 Alpha ACAAAC Beta ACCCCC Gamma CCAAAC Delta CACCCA Epsilon CAAAAC

分子钟与线性树 物种分化时间的推断 : 最理想应该是化石证据 由于化石证据的不足, 可以采用分子数据推测物种的分化时间 给定一个进化树, 已知 : 分支长度 其中一个分歧点的分化时间 推测所有分歧点的分化时 间 : 突变的速率恒定!

实际数据中 同义替代与非同义替代的速率不同 不同的基因 / 蛋白质, 其进化的速率不同 然而, 对于特定的基因, 具有一定的 恒定的进化速率

基因同义替代与非同义替代的速率

速率恒定的证据 : 血色素

分子钟假设 序列之间的遗传差异的数量是自分化以来的时间的函数 分子变化的速率相当稳定, 可以用来预测分化的时间

分子钟 : 进化时间的估计 遗传距离 d 的计算 : 氨基酸序列 :p- 距离,d- 距离 DNA 序列 :Jukes-Cantor 距离,Kimura 距离 物种分歧点 : 使用考古数据确定共有祖先, 确定分化时间 T 计算分子的分化 / 进化的速率 :r=d/2t 对新的序列, 计算分化时间 : T new =d new /2r

物种分化时间 : 化石证据 灵长目 - 啮齿动物 : ~80 Myr ago 哺乳动物 - 鸟类 : ~310 Myr ago 哺乳动物 - 两栖类 : ~350 Myr ago 四肢动物 - 硬骨鱼 : ~430 Myr ago 脊椎动物 - 果蝇 ( 昆虫 ): ~830 Myr ago Nature Genetics 31, 205-209 (2002)