Microsoft PowerPoint - chap7-1.ppt [兼容模式]

Similar documents
Microsoft PowerPoint - chap4-1.ppt [兼容模式]



材料! 方法! # 基因的扩增及其序列分析

.., + +, +, +, +, +, +,! # # % ( % ( / 0!% ( %! %! % # (!) %!%! # (!!# % ) # (!! # )! % +,! ) ) &.. 1. # % 1 ) 2 % 2 1 #% %! ( & # +! %, %. #( # ( 1 (

# % & ) ) & + %,!# & + #. / / & ) 0 / 1! 2

<3331D2A9D1A7A3A8CAA6A3A92E786C73>

未命名-1

ZW.PDF

<4D F736F F F696E74202D203720B7D6D7D3C9FACEEFD1A720B5DACBC4D5C2206D524E41B5C4B7ADD2EB20C3DCC2EBD7D3BACD74524E412E >


<4D F736F F F696E74202D203720B7D6D7D3C9FACEEFD1A720B5DACBC4D5C2206D524E41B5C4B7ADD2EB20C3DCC2EBD7D3BACD74524E41>

% %! # % & ( ) % # + # # % # # & & % ( #,. %


2010年全国执业兽医资格考试大纲


医学院 基础医学 系 组织胚胎学 课程教案(样例)

中国注册营养师资格认证(上海试点)考试大纲(讨论稿)2015

chap5.DOC

%! # # % % & # ( ) ( +, & +, +, & +, & +, +, &!

untitled

2


# ( + + # + # 6 +,! + # +! +, + # ( + ) ( + ( + ) + 7! + # + /8 + ) ( +! + #. + ( +, +! + # + # + + ( ! ( + ) ( + ) +, + ( + 9% +! +, + ( +

分子生物学实验专题手册.ai


tbjx0121ZW.PDF

现代天文学7.ppt

Microsoft Word - 兽医全科类大纲.doc

國立中山大學學位論文典藏.PDF

商 周 三 代 年 代 學 的 研 究 經 過 近 五 年 的 努 力, 完 成 夏 商 周 年 表 本 大 事 概 覽 中 夏 商 周 三 代 的 大 事 紀 年, 即 採 用 夏 商 周 斷 代 工 程 的 考 論 成 果 對 於 無 法 考 證 年 份 的 史 事 或 發 生 在 史 前 時

第 三 条 实 验 室 技 术 安 全 工 作 贯 彻 以 人 为 本 安 全 第 一 预 防 为 主 综 合 治 理 的 方 针 各 单 位 及 教 职 工 学 生 应 树 立 安 全 意 识, 履 行 安 全 义 务 承 担 安 全 责 任 第 四 条 实 验 室 技 术 安 全 工 作 坚 持

500 C ~ C 2

2015年全国硕士研究生入学考试

中国商人必胜宝典--各地商人性格特征剖析

<4D F736F F D204238A67EABD7B2C4A447BEC7B4C1BCCCBEF0B0EAA4A4B0CFB0ECA4E8AED7A5D3BDD0AED >

88 89

doc

Microsoft PowerPoint - 04 Models of Amino Acid and Codon Substitution.ppt

14052_公開用.pdf

#!! +!,! # &!. / !!, 7!!, & #! % 7! % )

& ( )! +!, # %! ( & &.! / /.

# 7 % % % < % +!,! %!!

PowerPoint Presentation

Microsoft Word - 2B802內文.doc

東區校園中法治教育種子師資教學研習營

Microsoft Word - 1HF12序.doc

Microsoft Word - 讀報看科普─人體篇_橫_.doc

鍟嗗搧瑙傚療鈥㈤挗鏉

席 远 杨 一 人 了, 正 当 她 开 枪 时 却 发 现 子 弹 没 了 该 死, 只 能 赤 手 空 拳 了 洛 水 云 与 席 远 杨 交 起 手 来, 洛 水 云 出 手 招 招 致 命 想 那 席 远 杨 也 不 是 泛 泛 之 辈, 很 快 掌 握 了 洛 水 云 出 招 路 数 看

閱 讀 素 材 V.S 分 組 方 式 的 差 異 化 教 學 工 具 表 班 級 :( ) 閱 讀 素 材 V.S 分 組 方 式 獨 立 閱 讀 夥 伴 閱 讀 ( 同 質 性 ) 夥 伴 閱 讀 ( 異 質 性 ) 友 善 陪 伴 虛 心 受 教 國 語 日 報 新 聞 生 活 文 藝 兒 童

untitled

Microsoft PowerPoint - chap7-2.ppt [兼容模式]

标题

doc

(Microsoft Word - 3\271\375\246\321\257R.doc)

大 台 北 與 桃 竹 苗 地 區 北 得 拉 曼 巨 木 步 道 新 竹 縣 尖 石 鄉 鎮 西 堡 巨 木 群 步 道 新 竹 縣 尖 石 鄉 鳥 嘴 山 登 山 步 道 苗 栗 縣 泰 安 鄉 加 里 山 登 山 步 道 苗 栗 縣 南 庄 鄉

考 试 科 目 代 码 考 试 科 目 名 称 724 教 育 心 理 学 728 建 筑 理 论 综 合 729 中 外 美 术 史 及 理 论 730 美 术 史 论 732 城 乡 规 划 基 本 理 论 与 相 关 知 识 733 细 胞 生 物 学 734 教 育 学 综 合 801 理

第十章 基因的作用

98年度即測即評學科測試與即測即評即發證技術士技能檢定簡章

Microsoft Word 箕æ−¥ï¼‹å®ı稿;

! + +, ) % %.!&!, /! 0! 0 # ( ( # (,, # ( % 1 2 ) (, ( 4! 0 & 2 /, # # ( &

实验室诊断专辑

01

¥Íª«²Ä9¦¸²Õ¨÷-«ü¦Ò«ÊŁ±.prn, page Normalize ( <4D F736F F D20A5CDAAABB2C439A6B8B2D5A8F72DABFCA6D2ABCAADB12E646F63> )


(精校版)陕西省语文卷文档版(含答案)-2011年普通高等学校招生统一考试.doc

%% &% %% %% %% % () (! #! %!!!!!!!%! # %& ( % & ) +, # (.. /,) %& 0



序 1995 年 我 走 进 了 朝 阳 区 将 台 乡 五 保 老 人 院, 如 今 17 年 后, 十 分 欣 喜 有 机 会 为 这 本 流 金 岁 月 小 集 作 序 在 多 年 陪 伴 孤 单 老 人 的 过 程 中, 我 深 深 地 体 会 到 每 位 老 人 的 生 命 里 其 实 都


工 造 价 15 邗 江 南 路 建 设 工 一 标 市 政 公 用 6000 中 机 环 建 集 团 有 限 公 胡 美 娟 16 邗 江 南 路 建 设 工 二 标 市 政 公 用 品 尊 国 际 花 园 1# 2# 3# 4# 7# 9# 10# 11# 楼 地 库 C 区 工

第一篇 建置区划


untitled


31 121

ǎà

78 云 芝 79 五 加 皮 80 五 味 子 81 五 倍 子 82 化 橘 红 83 升 麻 84 天 山 雪 莲 85 天 仙 子 86 天 仙 藤 87 天 冬 88 天 花 粉 89 天 竺 黄 90 天 南 星 91 天 麻 92 天 然 冰 片 ( 右 旋 龙 脑 ) 93 天 葵

43081.indb

一 天 吃 两 顿, 从 不 例 外 我 上 班 就 是 找 一 个 网 吧 上 网 上 网 的 内 容 很 杂, 看 新 闻, 逛 论 坛, 或 者 打 打 小 游 戏 如 果 没 钱 上 网, 我 会 独 自 一 个 人 到 一 个 偏 僻 的 地 方, 静 静 地 坐 着 发 呆 这 也 是

国标经穴扫描 各种中医刺激疗法与结缔组织的关系 筋膜的发育生物学 从间充质到筋膜




经 无 数 次 的 提 取 和 提 纯, 最 终 得 到 一 小 匙 东 西 这 种 东 西 在 显 微 镜 下 呈 现 出 针 状 晶 体 的 形 状, 在 水 中 溶 解 后 得 到 一 种 带 乳 光 的 汁 液 当 他 将 少 许 溶 液 涂 抹 健 康 烟 叶 上 几 天 后, 这 烟 叶

关于征求对《国家大学科技园评价指标体系(征求意见稿)》

RNA 序列分析 (1) 张高川生物信息学系 (Department of Bioinformatics) 基础医学与生物科学学院 (School of Biology and Basic Medical Science) 苏州大学医学部 (Medical College of Soochow Un

材料 方法 载体构建 转基因植株的获得

中国科学院水生生物研究所硕士生入学考试专业课考试大纲

《 生物化学》教学大纲

<CEDEB1EACCE2>

一 行 业 信 用 质 量 分 析 信 息 技 术 行 业 细 分 子 行 业 较 多, 部 分 子 行 业 受 到 宏 观 经 济 的 影 响 呈 现 较 明 显 的 周 期 性, 如 电 脑 与 外 围 设 备 办 公 电 子 设 备 等 传 统 智 能 硬 件 行 业, 但 以 技 术 进 步


生物真题+模拟卷(14).FIT)

2

海上大师:中国现代科学奠基者萍踪

!# $#!#!%%& $# &% %!# (# )#! "

Transcription:

生物信息学 第七章分子进化与系统发育分析 (1)

生物学家 We have a dream Tree of Life: 重建所有生物的进化历史并以系统 树的形式加以描述

梦想走进现实 :How? 最理想的方法 : 化石! 零散 不完整 比较形态学和比较生理学 : 确定大致的进化框架 细节存很多的争议

第三种方案 : 分子进化 1964 年,Linus Pauling 提出分子进化理论 DNA & RNA: 4 种碱基 ; 蛋白质分子 :20 种氨基酸 发生在分子层面的进化过程 :DNA, RNA 和蛋白质分子 基本假设 : 核苷酸和氨基酸序列中含有生物进化历史的全部信息

分子进化的模式 DNA 突变的模式 : 替代, 插入, 缺失, 倒位 核苷酸替代 : 转换 (Transition) & 颠换 (Transversion) 基因复制 : 多基因家族的产生以及伪基因的产生 A. 单个基因复制 重组或者逆转录 B. 染色体片断复制 C. 基因组复制

DNA 突变的模式 替代 插入 缺失 倒位

核苷酸替代 : 转换 & 颠换 转换 : 嘌呤被嘌呤替代, 或者嘧啶被嘧啶替代 颠换 : 嘌呤被嘧啶替代, 或者嘧啶被嘌呤替代

基因复制 : 单个基因复制 重组 逆转录

基因复制 : 染色体片段复制 人 狒狒

基因复制 : 基因组复制 S. Cerevisiae ( 酿酒酵母 ) K. Waltii ( 克鲁雄酵母 ) 研究结果 : 克鲁雄酵母中的同源基因数量与酿酒酵母相比为 1:2

分子进化研究的目的 从物种的一些分子特性出发, 构建系统发育树, 进而了解物种之间的生物系统发生的关系 tree of life; 物种分类 大分子功能与结构的分析 : 同一家族的大分子, 具有相似的三级结构及生化功能, 通过序列同源性分析, 构建系统发育树, 进行相关分析 ; 功能预测 进化速率分析 : 例如,HIV 的高突变性 ; 哪些位点易发生突变?

Tree of Life: 16S rrna

Out of Africa 人类迁移的路线 53 个人的线粒体基因组 (16,587bp)

同源性分析 -> 功能相似性 Ortholog ( 直系同源序列 ): 两个基因通过物种形成的事件而产生, 或源于不同物种的最近的共同祖先的两个基因, 或者两个物种中的同一基因, 一般具有相同的功能 Paralog ( 旁系同源序列 ): 两个基因在同一物种中, 通过至少一次基因复制的事件而产生 Xenolog ( 异同源序列 ): 由某一个水平基因转移事件而得到的同源序列 Convergent evolution: 通过不同的进化途径获得相似的功能, 或者功能替代序列

直系同源序列 vs. 旁系同源序列 paralogs orthologs

异同源序列

基因的趋同进化 通过不同的进化途径获得保守 / 相似的功能

趋同进化 :Langur 食叶猴 RNASE: 纤维素分解 消化

HIV protease: 高突变性 Ka/Ks >> 1, 强的正选择压力, 具有很高的可突变性

密码子偏好及相应分析 密码子 (codon): 在随机或者无自然选择的情况下, 各个密码子出现频率将大致相等 密码子偏好 : 各个物种中, 编码同一氨基酸的不同同义密码子的频率非常不一致 可能的原因 : 密码子对应的同功 trna 丰度的不同 - Anticondon

标准密码子

大肠杆菌 RNA 聚合酶

大肠杆菌 RNA 聚合酶 (2) 密码子偏好非常明显 ; 例如 同为编码 Phe 的同义密码子 UUU 和 UUC, 二者出现的次数显著不等,UUU(15 次 ), UUC(44 次 ); 再如 : 编码 Arg 的四个密码子 CGU, CGC, CGA, CGG, 出现次数分别为 :89,46,1, 0. 提示 : 对应 CGG 的同功 trna 可能不存在!

trna & Anticodon 每一个密码子, 对应一个 trna trna 通过 Anticodon 来识别 codon, 联系 mrna 和氨基酸序列的合成 密码子的使用偏好 : 由密码子对应的 trna 的进化及丰度来决定

碱基出现的频率 假如 : 每个核苷酸位点上的替代是随机发生的, 则 A,T,C,G 出现的频率应该大致相等 实际情况 :DNA 受到自然选择的压力, 各个位点的碱基出现频率并不相等 需要解决的问题 : A. 每个位点上受到什么样的选择压力? B. 各个位点的碱基频率反映了什么样的规律? 表征 / 统计的方法 : 计算 G+C 的含量, 并进行比较

分子进化的理论 阳性选择, 适应性进化, 达尔文进化 :DNA 分子显著出现非同义替代, 改变编码蛋白质的氨基酸组成, 并产生新的功能 阴性选择, 净化选择 :DNA 分子的同义替代显著, 较少改变蛋白质的氨基酸组成, 其原来的功能高度保守 中性进化 : 同义替代与非同义替代比例相当, 突变不好不坏, 不改变或轻微改变蛋白质的功能

同义替代 vs. 非同义替代 GCGGTTTGGGAG GCGGTCTGCGAC 64 个密码子, 编码 20 个氨基酸 GTT GTC GTA GTG CGT CGC 组氨酸 H 脯氨酸 P 四倍简并二倍简并 TGG TGC 色氨酸 W 半胱氨酸 C 同义替代 非同义替代

编码区 vs. 非编码区 编码区 :DNA 上编码功能性的基因的部分 非编码区 : 或称基因组序列, 绝大部分无功能 选择压力 : 编码区 : 阳性选择 1%; 中性进化 80%; 阴性进化 19%; 非编码区 :~100% 的中性进化

编码区 : 密码子 对于同义的密码子, 第一位少部分可以允许不同, 例如, 编码 Ser 的六个密码子 :TCT, TCC, TCA, TCG, AGT, AGC 第二位必须相同 第三位绝大多数可以不同 -> 近似随机 ; 因此 : 第一位 : 阴性进化占大部分, 中性进化占小部分 第二位 : 阴性进化 第三位 : 阴性进化占小部分, 中性进化占大部分

编码区 & 密码子 : 推论 密码子第三位的碱基出现概率接近基因组序列的碱基频率 第二位的碱基出现频率与基因组序列的基建频率相差最大

基因组与 GC 含量的关系 细菌基因组的 GC 含量 : 25%~75%

密码子偏好的应用及计算 基本假设 : 在高表达的基因中, 密码子的选择, 更倾向于使用 优化 的同义密码子 推论 1: 给定一个物种的一些高表达的基因, 我们可以估算优化的同义密码子的分布 推论 2: 接着, 我们可以对给定的一个未知基因的序列进行密码子分布的分析, 预测该基因的表达量! 推论 3: 对于一个表达量很低的基因, 我们是否能够通过将少量的密码子改变成优化密码子, 从而显著提高基因的表达量?

RSCU 相对密码子使用频率 (relative synonymous codon usage, RSCU) 定义 : 观测到的某一同一密码子的使用次数, 除以 期望 的该密码子出现次数 编码第 i 个氨基酸的第 j 个密码子的 RSCU 值 RSCU ij 1 n i X n i ij j1 X ij 编码第 i 个氨基酸的第 j 个密码子的观测值 编码第 i 氨基酸的同义密码子的数目

密码子 :the relative adaptation 编码第 i 个氨基酸的第 j 个同义密码子的 相对适应性 : w ij RSCU RSCU ij X X ij imax imax 即该同义密码子的观察值, 除以编码该氨基酸的同义密码子的最大值

大肠杆菌 & 酵母

CAI: codon Adaptation Index CAI CAI obs CAI max 其中, CAI K L obs RSCU k k 1 K CAI L max RSCU k max k 1 另外, L CAI L w k k 1 L 为序列的长度

例 : 大肠杆菌的 rpsu rpsu 包含 70 个 codon, 部分序列如下 :

大肠杆菌和酵母 : 部分基因的 CAI

异源基因 : 在其他物种中的 CAI

氨基酸序列的进化演变 分子进化的分析 : 基于氨基酸序列的分析早于 DNA 序列 优势 : 氨基酸序列更为保守, 对年代跨度大的进化分析有帮助 ; 数学模型较 DNA 远为简单 p 距离 :p-distance 泊松校正,d 距离

p-distance 另两条蛋白质序列之间的氨基酸差异数为 n d, 所有序列的氨基酸数目相同为 n, 则 P 距离 p n d n 所有的插入 / 缺失都要删除! 不同物种的血红蛋白 α 链中不同氨基酸的数目及比例 长度 :140aa

PC: 泊松校正 序列差异的百分比 (p) 与分歧时间 t 的关系 :t 较短的时候, 回复突变较少, 两者大致成线性关系 ; 当 t 较大时, 回复突变增多, 二者成非线性关系 令 γ 为某一位点每年的氨基酸替代率, 并假设所有位点的 γ 都相同 : 基本假设 在时间 t 年之后, 每个位点替代的平均数为 :γt; 给定一个位点, 氨基酸替代数 k(k=0,1,2,3, ) 的可能性遵循泊松分布, 即 rt k e ( rt) P( k; t) k! rt 因此, 某一位点氨基酸不变的概率为 P(0; t) e

PC: 泊松校正 (2) 祖先序列未知 : 不知道当前的序列从何演化而来 解决方案 : 对两条已经有 t 年分化的序列, 一条序列无替代 rt 的概率为 : e rt 2 2rt, 两条序列则为 : q ( e ) e q=1-p 泊松校正距离 d=2rt 因此, q ( e rt 1 p e d ln(1 p) d=-ln(1-p), 即泊松距离 ) 2 d 2rt e d ln(1 p)

P- 距离 vs. 泊松距离

DNA 序列的进化演变 基因组上存在着多种多样的 DNA 区域, 例如蛋白质编码区, 非编码区, 内含子, 侧翼区, 重复片断以及插入序列等 本章考虑蛋白质与 RNA 的编码区的 DNA 序列的进化演变模型 进化模型 :Jukes-Cantor 法与 Kimura 两参数法

两条 DNA 序列的差异 对于两条长度为 n 的 DNA 序列, 不同的碱基对为 n d, 则两条序列的差异性可表示为 : 核苷酸的改变 : 转换 P 颠换 Q, 则 p=p+q 当 p 较小时, 如果核苷酸替代是随机发生的, Q=2P; 通常转换比颠换出现频率高 ; 转换 / 颠换比 : R P Q p nd n

核苷酸替代数的估计

Jukes-Cantor 法 假定任一位点的核苷酸替代的频率相等, 且每一位点的核苷酸每年以 α 的概率演变为其他三种核苷酸的一种 因此, 一个核苷酸演变为其他三种核苷酸之一的概率为 γ= 3α 假设, 在 t 年前分化出两条核酸序列 X 和 Y, q t 表示 X 和 Y 值之间相同核苷酸的比例值,p t =1-q t, 表示 X 和 Y 之间不同的核苷酸的比例值

Jukes-Cantor 法 (2) 对于 X 和 Y 之间相同 (q t ) 的核苷酸的一个位点, 在时间 t+1 时 ( 过了一年 ), 以 (1-γ) 2 的概率保持不变 ; 当 γ 较小时,γ 2 可以忽略, 则 q t+1 =1-2γ 对于 X 和 Y 之间不同 (1-q t ) 的位点, 假设在时间 t 时, X 序列上的位点位 i,y 序列上为 j: 如果 X 的 i 变成 j, 而 Y 上的 j 不变, 则二者将相同 ; 事件发生的概率为 α(1- γ)=γ(1-γ)/3; 反之的概率是相等的 因此事件的总概率为 :2γ(1-γ)/3,γ 2 忽略, 则近似为 : 2γ/3

Jukes-Cantor 法 (3) 因此, 差分方程为 : 令, 则 t t t t t t t t t t t t t q q q q q q q q q q q q q 3 8 3 2 3 8 3 2 3 2 3 2 2 ) (1 3) (2 / ) 2 (1 1 1 1 1 t t t q q q d d 1 ) e (1 4 3 1 1 q 0 t 3 8 3 2 t 3 8 q q d d t q 时, 且当初始条件 两条序列每一位点的替代期望值 d=2γt, 代入 p) 3 4 ln(1 4 3 d p 3 4 1 e e 1 p 3 4 ) e (1 4 3 1 p 1, 2 d ), e (1 4 3 1 d 3 4 d 3 4 d 3 4 t 3 8 则且 t q

Kimura 两参数法 对于实际数据, 转换替代速率通常高于颠换速率 ; 因此, 每年每个位点转换替代率为 α, 颠换替代率 2β 可计算 P,Q 值为 : 1 4( ) t 8t P (1 2e e ) 4 1 8t Q (1 e ) 2 1 1 d 2t ln(1 2P Q) ln(1 2Q) 2 4 P 和 Q 可以从两条比对的序列中观测并计算得到