生物信息学 第十四章结构生物信息学
GLUT1 2014,12 次跨膜,N45T & E329Q 突变体
2015 年 GLUT3
GLUTs 作用机制
蛋白质的结构与功能 蛋白质的结构 主要由一级序列所决定 蛋白质的功能 主要由三级结构所决定 球蛋白 (Globular proteins): 疏水的内核 & 亲水的表面 膜蛋白 (Membrane proteins): 特定的疏水表面 亚稳态 (marginally stable): 折叠之后的蛋白质 无序性 (Intrinsically disordered): 许多蛋白质必须与其他蛋白质结合后才能够获得稳定的结构 预测蛋白质的结构和功能非常的困难
蛋白质结构的四个基本层面
一级和二级结构 一级结构 氨基酸的线性序列 氨基酸残基之间连接的共价键 二级结构 氨基酸残基局部空间内的排列 短程的 非共价的相互作用 周期性的结构模式 :α-helix, β-sheet, loops, coils
α-helix 蛋白质中最多的二级结构 平均长度 :10 个氨基酸残基 (10 A 0 ) 长度范围 :5-40aa 每一圈 :3.6 个 aa 通过氢键 (~per 4aa) 稳定结构 通常在内核的表面, 疏水残基向内, 亲水残基向外
α-helix 通过氢键稳定结构 C = black O = red N = blue
R- 侧基分布在 α-helix 的外侧
α-helices: 氨基酸偏好 Ala, Glu, Leu, Met: 出现频率高 Pro, Gly Tyr, Ser: 出现频率低
β-strands & Sheets 一般不单独出现, 成对或多个出现 链通过氢键连接, 稳定结构 相互作用的部分通过短的 / 长的 loop 连接 平行或反平行的 β-sheet
反平行的 β-sheets
平行的 β-sheets
混合的 β-sheets
Loops 连接 α-helix 和 β-sheet 长度和三级结构不定 在蛋白质结构的表面 受点突变的影响小 柔性好, 构象变化余地大 带电荷 极性的氨基酸比例高 倾向成为活性位点
Coils 无序性 (Intrinsically disordered ): 介导蛋白质 - 蛋白质之间的相互作用
三级和四级结构 三级结构 肽链折叠成三维的空间结构 二级结构在空间上的排布 长程的 共价与非共价的相互作用 四级结构 多个肽链在空间上的排布
超二级结构 Structural Motifs: 超二级结构或二级结构的组合 Domains: Motifs 的组合
一些常见的结构性模体 Helix-turn-helix: e.g., DNA 结合模体 Helix-loop-helix: e.g., 钙离子结合模体 β-hairpin: 2 adjacent antiparallel strands connected by short loop Greek key: 4 adjacent antiparallel strands βαβ: 2 parallel strands connected by helix
H-T-H H-L-H
β-hairpin
Greek key
Beta-alpha-beta
Domains:Motifs 的组合
一个或多个 domains
六种蛋白质的结构类型 α Domains: α 螺旋束通过 loops 连接 β Domains: 主要是反平行 β 片, 两对 β 片形成 sandwich 结构 α β Domains: α 螺旋连接的平行的 β 片 α β Domains: α 螺旋和 β 片各自形成单独的结构 Multidomain (α β : 包含多种 domains Membrane & cell-surface proteins
α-domain structures: 4-helix bundles
Up-and-down sheets and barrel
Greek key motifs
α β Domains TIM barrel Rossman fold
蛋白质结构数据库 结构分类以及可视化 蛋白质结构的数据库 :PDB, MMDB, MSD 蛋白质结构的分类 :SCOP, CATH, DALI/FSSP 蛋白质结构的可视化 :Cn3D, Rasmol/Raswin
蛋白质结构的数据库 PDB (Protein Data Bank): 蛋白质结构数据库 http://www.rcsb.org/pdb/home/home.do MMDB (Molecular Modeling Database): 分子模拟数据库 http://www.ncbi.nlm.nih.gov/sites/entrez?d b=structure MSD (Molecular Structure Database): 大分子的相互作用和结合位点 http://www.ebi.ac.uk/msd
PDB (RCSB)
蛋白质结构的数据格式 X Y Z
MMDB
MSD
蛋白质结构的分类 SCOP (Structural Classification of Proteins): folds, superfamilies, and families http://scop.mrc-lmb.cam.ac.uk/scop/ CATH (Classification by Class, Architecture, Topology & Homology) http://www.cathdb.info/ DALI/FSSP: 蛋白质三级结构的比较 DALI server http://ekhidna.biocenter.helsinki.fi/dali_server/index.html DALI Database (fold classification) http://ekhidna.biocenter.helsinki.fi/dali/start
蛋白质结构的可视化 RasWin Cn3D
蛋白质二级结构预测 Chou-Fasman predictions: Empirical Garnier, Osguthorpe and Robson (GOR): HMM David T. Jones: PSSM Frishman, Argos: Nearest neighbor methods Sujun Hua: 支持向量机
Chou-Fasman 预测三种主要的二级结构 :α-helix, β-sheet, Coils 训练数据 :15 个已知构象的蛋白质结构, 共 2473 个氨基酸残基 定义 : 蛋白质构象参数 (protein conformational parameters): 氨基酸残基在二级结构中的重要性 P α,p β,p c
氨基酸在各种二级结构中的频率 Inner Helix: Included in Helix
P α, P β, P c 的计算 P fi f 20 j
P α & P β -helix -sheet
经验规则与预测性能 规则一 : 对于给定一个 >6aa 的片段, P α 均值 > 1.03, 并且 P α 的均值 > P β 的均值, 则判定为 α-helix 规则二 : 对于给定一个 >6aa 的片段, P β 的均值 > 1.05, 并且 P β 的均值 > P α 的均值, 则判定为 β-sheet 预测性能 : 准确性 ~50-60%; 对于 β-sheet 性能较差
Garnier, Osguthorpe and Robson (GOR): HMM 准确性 ~65%
David T. Jones: PSSM PSIPRED: PSSM + Neural Network 准确性 76.5%~ 78.3%
Frishman, Argos: Nearest neighbor methods 准确性 ~72%
Sujun Hua: Support vector machine 准确性 ~76.2%
蛋白质三级结构预测 结构基因组学 蛋白质折叠的动力学 蛋白质三级结构的预测 : 具有最小自由能的 构象 同源建模 (Homology modeling) 穿针引线 (Threading) 从头预测 (Ab initio Prediction)
结构基因组学 人的基因组中包含 >22,00 个基因 细胞内 : 通常 >3,000 种蛋白质 序列与结构 > 74,000,000 条蛋白质序列 - UniProt > 120,000 个蛋白质结构 -PDB 目标 : 通过实验或者计算的手段解析所有蛋白质在自然条件下的三级结构
X 射线晶体学方法
核磁共振
Cryo-EM: 蛋白质复合物 冷冻电镜
蛋白质折叠的动力学 蛋白质的折叠 : 细胞内 : 自发的 ; 酶的介导 ; 伴侣蛋白的介导 体外 : 许多蛋白质不能自发折叠 动态 : 蛋白质的结构在自然条件下并不是固定的 蛋白质的功能常常依赖其构象的改变 自然条件下与变性之后的能量差非常小 (5-15 kcal/mol) 大约等于 1-2 个氢键的能量 折叠过程中, 熵与焓都发生改变
Protein Folding Code 蛋白质结构预测 / 蛋白质折叠 给定一个蛋白质的氨基酸序列, 预测其三级结构 反向折叠 " 给定一个蛋白质的结构, 找出所有符合这个结构的氨基酸序列
同源建模 搜索已知三级结构的同源蛋白质序列 ( 模板 ) PSI-BLAST multiple sequence alignment (MSA) 选取与给定序列相似性最高的结构作为模板 将氨基酸残基替换到结构模板中对应的位置上, 降低自由能 准确性好 序列相似性高 模型可靠性高 >30% sequence identity 常用工具 :MODELLER,Swiss-model
同源建模
Threading - Fold Recognition 大积木 实验发现 : 蛋白质折叠的类型有限 (~1,000) 问题 : 能否根据不同的模版, 预测给定蛋白质的折叠类型, 并进一步拼装成三级结构? 计算要求 : 能量函数 模版库 (template library) 计算方法 将给定序列与每一个模板的序列匹配, 打分 将模板连接起来, 氨基酸残基替代 优化模型 : 能量函数 计算性能 : 不定 序列相似性高 模型可靠性高
Threading Target Sequence ALKKGF HFDTSE Structure Templates 1. 将给定序列与模板库做序列比较 (fold library) 2. 评分准则 : 给定序列是否与模板的结构吻合 (1D- 3D profile) 3. 根据打分结果对模板适用性给予排序
Ab Initio Prediction 能量函数 键能 (bond energy) 键的转角能 (bond angle energy) 二面角能 (dihedral angle energy) 范德华力 (van der Waals energy) 静电力 (electrostatic energy) 根据能量函数计算结构的最小自由能 : Molecular Dynamics or Monte Carlo methods) 计算量大
ROSETTA David Baker, U. Washington, Seattle 小积木 : 短的肽段 (3-9 residues) 库能够充分反映各种肽段在局部范围内的三级结构 肽段库的构建 :PDB 针对给定蛋白质, 寻找各种肽段组合, 并以能量函数予以优化
Foldit
结构基因组学
结构基因组学 左 : 预测 ; 右 : 实验