Microsoft PowerPoint - bioinfo_hebau32.ppt

Similar documents
i

(1) 脂 肪 族 氨 基 酸 (2) 芳 香 族 氨 基 酸 : 苯 丙 氨 酸 色 氨 酸 酪 氨 酸 (3) 杂 环 氨 基 酸 : 脯 氨 酸 组 氨 酸 3 按 侧 基 R 基 与 水 的 关 系 分 : (1) 非 极 性 氨 基 酸 : 有 甘 氨 酸 丙 氨 酸 缬 氨 酸 亮 氨

多肽知识手册.doc

untitled


tbjx0121ZW.PDF

第四章 蛋白质的营养

PowerPoint Presentation


2 1. (a Unit of Inheritace) RNA DNA 2. (Nature of gene) heredity heredity & variation variation


PowerPoint Presentation

一步一步教你使用NCBI

权 利 要 求 书 1/2 页 1. 一 种 RAMOSA2 多 肽 或 其 编 码 基 因 或 RAMOSA2 多 肽 的 调 节 剂 的 用 途, 用 于 调 节 植 物 株 高 穗 表 型 或 支 梗 长 度 ; 所 述 RAMOSA2 多 肽 选 自 : (a)seq ID NO :2 所

Microsoft PowerPoint - bioinfo_hu.ppt


untitled

Microsoft PowerPoint - bioinfo_mao3.ppt

常用生物医学数据库与分析软件介绍

绪论

Microsoft Word 陈伟婵-二校

4 電 子 白 板 個 1 與 投 影 機 電 腦 互 動 軟 體 搭 配 使 用, 增 加 教 學 互 動 性 5 實 物 投 影 機 部 1 即 時 呈 現 影 像, 供 教 學 運 用 6 音 響 設 備 組 1 與 主 機 結 合, 需 有 多 組 多 音 源 輸 出 入 切 換 之 擴 大

101¦~«ü©w¦Ò¸Õ¸ÑªR-¥Íª«¦Ò¬ì

蛋白质结构数据库 第一个蛋白质结构数据库 (Protein Data Bank, 简称 PDB) 创建于 1971 年 与蛋白质序列数据库分别诞生于美国和欧洲不同,PDB 的建立是欧美两国合作者共同努力的结果 1971 年, 英国剑桥晶体学数据中心 (Crystallographic Data Ce

貳 課 程 教 學 計 畫 一 教 學 目 標 本 課 程 旨 在 幫 助 學 生 瞭 解 我 國 目 前 面 臨 的 環 境 問 題 環 境 保 護 的 重 要 性 流 行 病 學 的 原 理 與 方 法 衛 生 行 政 及 醫 療 體 系 之 架 構 及 運 作 主 要 內 容 包 含 公 共

幻灯片 1

103 张亚光等 植物 Kunitz 蛋白酶抑制剂的生物信息学 长发育 [14,15] 通过转基因技术将大豆 Kunitz 蛋白酶 1R8O 洋紫荆 Bauhinia variegata P83595 和白 抑制剂基因导入烟草 使该基因过量表达 获得的 花羊蹄甲 Bauhinia bauhinioi

最新文物管理执法全书(十七).doc

生命科学_一_.doc

中 文 摘 要 一 个 蛋 白 质 去 折 叠 可 视 化 系 统 的 设 计 与 实 现 中 文 摘 要 蛋 白 质 的 生 物 功 能 由 其 三 维 结 构 所 决 定, 而 蛋 白 质 通 过 特 定 的 折 叠 机 制 行 成 稳 定 的 空 间 结 构 当 前 生 物 科 学 领 域 一

Microsoft PowerPoint - chap14.ppt [兼容模式]

说 明 系 统 解 剖 学 是 医 学 专 业 的 一 门 重 要 基 础 课 程, 学 习 这 门 课 程 的 目 的 在 于 使 医 学 生 通 过 学 习, 认 识 并 掌 握 正 常 人 体 器 官 的 位 置 形 态 和 结 构, 为 学 习 其 它 医 学 课 程 打 下 基 础 本 大

育儿知识100问(二)

<4D F736F F F696E74202D20A960A6CCA5CDA7DEAB4FB0B7A4B6B2D02DC2B2B3F82E BACDBAE65BCD2A6A15D>

Microsoft PowerPoint - bioinfoTaishan.ppt

untitled

3 ( ) (flakes) () (coixenolide, C 38 H 70 O 4 ) (5,6) (4) (7) (4,3) (Erhlin) 4 5 ( ) (4 ) ( ) ( ) 4 5 ( ) (8) (nitrogen-free extract, NFE) (

t, SN/ T GB/T ( 13 ( 57% ) [ 2] ),, 44%, 1. 3,, FAO/ WHO 1973, [ 3 ],,, [ ],,, : [ 4-5 ] [ 6

标题

材料! 方法! # 基因的扩增及其序列分析

untitled

Microsoft Word - 006新時代通識教育中生命科學概論的課程與教學.doc

( 343 nm DNA 483 nm) (5) ( ) 2. (Mitochondria) (mitochondrial genome) RNA (mrna) (matrix) (6) ( ) (signal sequence) (N-terminus) +H 3 N Met-Leu-Ser-Le


:(1) ;(2) ;(3) ;(4) ;(5) ;(6) ( )( 1984) 1 1 : :..... : ( 1994) ( ) ( ) ( ) : : :

目 录 第 一 章 总 论 项 目 背 景 项 目 概 况 问 题 与 建 议... 7 第 二 章 市 场 预 测 产 品 市 场 供 应 预 测 产 品 市 场 需 求 预 测 产 品 目

生物信息学 王晶晶蔡赫编著 北 京

Microsoft Word 記錄附件

untitled

PowerPoint Presentation

untitled


幻灯片 1

調査亦顯示 社區內患心理疾 反社會人格障礙 賭癮成性 強迫 症和喪親傷慟 病的人較精神錯亂的為多 故建議 台灣曾作同類調査 結果亦顯 港府在各綜合醫院設精神科 並加 示患重性憂鬱症的人數較歐美為少 強普通科醫生的精神科基本臨牀訓 這可能是基於華人受傳統中國文 練 為市民提供更佳的心理健康服 化薫陶

2

Microsoft PowerPoint _0810 MWB_YMU

u l l u u l l

e-science 论坛 PERSPECTIVE 编者按 : 生物信息学是二十世纪 80 年代末随着基因组测序数据迅猛增加及计算机技术快速发展而逐渐形成的一门交叉学科 根据美国 NIH 和 DOE 在 1990 年给出的生物信息学的定义, 它是生物学与计算机科学以及应用数学等学科相互交叉而形成的一门

! " # +(!"# $%& (!"!#$%& (&%!)*) +,)) )!#$%&+!$%-./! $*0! +,)) 1*23!% %*2$*23 1!%%*$*2,2#%!,) )4542*$ *0!2$*1*#,$*&2!! 1!%%*$*2 $#!"!)!" "

Microsoft Word - 16 区又君-核红.doc

Microsoft Word 尤宏争_new_.doc

Microsoft Word - 封面06-20第2期.doc

CBI intro for undergrad.ppt

新建 Microsoft PowerPoint 演示文稿.ppt

2. 下 列 理 解 和 分 析, 不 符 合 原 文 意 思 的 一 项 是 ( ) A. 水 手 在 伦 敦 讲 东 印 度 群 岛 的 所 见 所 闻, 匠 人 在 火 炉 边 讲 自 己 的 人 生 经 历, 他 们 讲 的 故 事 各 有 特 点, 但 同 属 于 传 统 故 事 模 式

Biotechnology 1. (K. Ereky, (, 1988

生物に対する内分泌かく乱作用に関する調査研究の動向と対応の方向性

<4D F736F F D20A1B6BBB7BEB3B1A3BBA4D6F7B9DCB2BFC3C5CDF8D5BEBDA8C9E8D3EBCEACBBA4BCBCCAF5B5BCD4F2A3A8B7A2B2BCB8E5A3A9A1B B315D312E646F63>

Microsoft PowerPoint - 第4ç«€_庑勊æ¯flè¾…_第2酨勃.pptx

31.17 世 纪 未, 英 国 一 刊 物 针 对 某 政 治 事 件 评 论 时 说 : 君 主 主 权 原 先 是 上 帝 赐 予 的, 现 在 则 被 认 为 是 人 民 授 予 的 此 评 论 主 要 针 对 的 是 A. 光 荣 革 命 推 翻 了 君 主 统 治 制 度 B. 责 任

<4D F736F F D204238A67EABD7B2C4A447BEC7B4C1BCCCBEF0B0EAA4A4B0CFB0ECA4E8AED7A5D3BDD0AED >

中国商人必胜宝典--各地商人性格特征剖析

國立中山大學學位論文典藏.PDF

商 周 三 代 年 代 學 的 研 究 經 過 近 五 年 的 努 力, 完 成 夏 商 周 年 表 本 大 事 概 覽 中 夏 商 周 三 代 的 大 事 紀 年, 即 採 用 夏 商 周 斷 代 工 程 的 考 論 成 果 對 於 無 法 考 證 年 份 的 史 事 或 發 生 在 史 前 時

第 三 条 实 验 室 技 术 安 全 工 作 贯 彻 以 人 为 本 安 全 第 一 预 防 为 主 综 合 治 理 的 方 针 各 单 位 及 教 职 工 学 生 应 树 立 安 全 意 识, 履 行 安 全 义 务 承 担 安 全 责 任 第 四 条 实 验 室 技 术 安 全 工 作 坚 持

2015年全国硕士研究生入学考试

500 C ~ C 2

5. 受 HIV 感 染 的 孩 童 比 較 容 易 生 病, 他 們 可 能 會 因 為 嚴 重 的 腹 瀉 導 致 一 些 伺 機 性 的 病 原 體 感 染 受 HIV 感 染 的 孩 童 比 一 般 孩 童 更 容 易 罹 患 一 些 兒 童 的 疾 病, 而 且 通 常 比 一 般 孩 童

時間

7 北京大学学报 医学版 # +94* 4 ' % 论著!! "# $ #% %"&!%'!! $ "( )& * $ +,-.)/ ) 01 " * ). " 2")3 )01 ( /" 433% /1 " 0 "51 " -.)/$ 6',)") 4.))%) 0

Microsoft Word 杨旭昆_二校 勿动版

《中国科学》A、E、G与F小开本版式设计

世界历史之谜(一)

10 生物有机化合物

Microsoft PowerPoint - 東坑芋頭解說

untitled

李東垣 元氣陰火論

Microsoft Word 刘佳-二校

Print

USPTO Academic research Corporate needs Global/International Inventors Libraries News Media/Publication Patent Attorney or Agent USPTO e (ebusiness Ce

Microsoft Word - 1-3陳詠琳-近代..

(Drug Delivery) ( ) Medical Pharmaceutical & Pharmaceutical Industry Industry Technology Technology & Development & Ce

untitled

Microsoft Word 共14學門規劃彙集.docx

东 奥 解 析 (1) 小 规 模 纳 税 人 销 售 货 物, 应 按 照 3% 的 征 收 率 计 算 应 纳 税 额, 不 得 抵 扣 进 项 税 额 ;(2) 计 税 依 据 含 增 值 税 的, 应 价 税 分 离 计 算 应 纳 税 额 知 识 点 小 规 模 纳 税 人 应 纳 税 额

获奖类别及等级 : 完成单位 : 主要完成人员 : 主要内容及重要影响 : 22

untitled

Microsoft Word 杨芳-二校出4173

OOAD PowerDesigner OOAD Applying PowerDesigner CASE Tool in OOAD PowerDesigner CASE Tool PowerDesigner PowerDesigner CASE To

Transcription:

第三章生物信息数据库 1 模式生物 2 数据库

第二节数据库

一 引言 生物分子数据高速增长 分子生物学及相关领域研究人员迅速获得最新实验数据 建立生物分子数据库

生物信息数据库应满足 5 个方面的主要需求 (1) 时间性 (2) 注释 (3) 支撑数据 (4) 数据质量 (5) 集成性

生物信息数据库几个明显的特征 : (1) 数据库的更新速度不断加快 数据量呈指数增长趋势 (2) 数据库使用频率增长更快 (3) 数据库的复杂程度不断增加 (4) 数据库网络化 (5) 面向应用 (6) 先进的软硬件配置

一个数据库记录 (entry) 一般由两部分组成 : 1. 原始序列数据 (sequence data) 2. 描述这些数据生物学信息的注释 (annotation) 注释中包含的信息与相应的序列数据同样重要和有应用价值 数据的完整性和注释工作量 : 1. 序列数据广, 序列注释不够完整 2. 库数据面窄, 序列注释全面 数据库的动态更新 : 1. 不断增加 2. 不断修正

分子生物信息数据库种类繁多 归纳起来, 大体可以分为 4 个大类, 即基因组数据库 核酸和蛋白质一级结构数据库 生物大分子 ( 主要是蛋白质 ) 三维空间结构数据库, 以及由上述 3 类数据库和文献资料为基础构建的二次数据库 基因组数据库来自基因组作图, 序列数据库来自序列测定, 结构数据库来自 X 射线衍射和核磁共振等结构测定 这些数据库是分子生物学的基本数据资源, 通常称为基本数据库 初始数据库, 也称一次数据库

根据生命科学不同研究领域的实际需要, 对基因组图谱 核酸和蛋白质序列 蛋白质结构以及文献等数据进行分析 整理 归纳 注释, 构建具有特殊生物学意义和专门用途的二次数据库 一般说来, 一次数据库的数据量大, 更新速度快, 用户面广, 通常需要高性能的计算机服务器 大容量的磁盘空间和专门的数据库管理系统支撑 ; 二次数据库的容量则小得多, 更新速度也不像一次数据库那样快, 也可以不用大型商业数据库软件支持, 这类针对不同问题开发的二次数据库的最大特点是使用方便, 特别适用于计算机使用经验不太丰富的生物学家 序列数据库是分子生物信息数据库中最基本的数据库, 包括核酸和蛋白质两类, 以核苷酸碱基顺序或氨基酸残基顺序为基本内容, 并附有注释信息

生物信息数据库 一级数据库 数据库中的数据直接来源于实验获得的原始数据, 只经过简单的归类整理和注释 二级数据库 对原始生物分子数据进行整理 分类的结果分类的结果, 是在一级数据库 实验数据和理论分析的基础上针对特定的应用目标而建立的

生物信息生物信息生物信息生物信息学数据库学数据库学数据库学数据库工具工具工具工具生物信息数据库生物信息数据库生物信息数据库生物信息数据库生物信息数据库生物信息数据库生物信息数据库生物信息数据库染色体染色体染色体染色体核酸核酸核酸核酸蛋白质蛋白质蛋白质蛋白质基因组图谱基因组图谱基因组图谱基因组图谱 DNA 序列序列序列序列蛋白质序列蛋白质序列蛋白质序列蛋白质序列蛋白质结构蛋白质结构蛋白质结构蛋白质结构基因组基因组基因组基因组数据库数据库数据库数据库核酸序列核酸序列核酸序列核酸序列数据库数据库数据库数据库蛋白质序列蛋白质序列蛋白质序列蛋白质序列数据库数据库数据库数据库蛋白质结构蛋白质结构蛋白质结构蛋白质结构数据库数据库数据库数据库二级数据库二级数据库二级数据库二级数据库复合数据库复合数据库复合数据库复合数据库基因组作图基因组作图基因组作图基因组作图序列测定序列测定序列测定序列测定结构测定结构测定结构测定结构测定

国际著名的生物信息中心 NCBI National Center for Biotechnology Information (US) EBI European Bioinformatics Institute (EU) HGMP Human Genome Mapping Project Resource Centre (UK) ExPASy Expert of Protein Analysis System (Switzerland ) CMBI Centre of Molecular and Biomolecule (The Netherlands) ANGIS National Genome Information Service (Australia) NIG National Institute of Genetics (Japan) BIC National Bioinformatics Centre (Singapore)

一级数据库简介

1 核酸序列数据库

国际上权威的核酸序列数据库 (1) 欧洲分子生物学实验室的 EMBL http://www.embl-heidelberg.de (2) 美国生物技术信息中心的 GenBank http://www.ncbi.nlm.nih.gov/web/genbank/i ndex.html (3) 日本遗传研究所的 DDBJ http://www.ddbj.nig.ac.jp/ GenBank DDBJ EMBL

核酸序列数据的增长趋势 ( 纵轴代表总的核酸序列长度, 单位 : 百万 bp)

三个数据库中的数据基本一致, 仅在数据格式上有所差别, 对于特定的查询, 三个数据库的响应结果一样 这三个数据库是综合性的 DNA 和 RNA 序列数据库, 每条记录代表一个单独 连续 附有注释的 DNA 或 RNA 片段

美国的核酸数据库 GenBank Banson,D.A. et al. (1998) Nucleic Acids Res. 26, 1-7 从 1979 年开始建设,1982 年正式运行 ;

欧洲分子生物学实验室的 EMBL 数据库也于 1982 年开始服务

日本于 1984 年开始建立国家级的核酸数据库 DDBJ, 并于 1987 年正式服务

从那个时候以来,DNA 序列的数据已经从 80 年代初期的百把条序列, 几十万碱基上升至现在的 110 亿碱基! 这就是说, 在短短的约 18 年间, 数据量增长了近十万倍

EMBL 数据库序列记录随时间增长 27,248,475 568

EMBL 数据库序列总长随时间增长 3.4 10 10 5.8 10 5

EMBL2003 年 8 月数据状况 (Release 76) Division Entries Nucleotides es 表达序列标签 (ESTs) 18,001,332 9,172,848,447 真菌 (Fungi) 81,533 124,814,006 基因组检测序列 (GSSs) 5,951,552 3,541,699,334 高通量 cdna(htc) 148,033 198,301,795 高通量基因组 (HTG) 69,070 11,827,270,957 人 (Human) 253,122 3,999,942,455 无脊椎动物 (Invertebrates) 126,656 618,391,776 其它哺乳动物 (Other Mammals) 51,211 117,048,169 鼠 (Mus musculus) 79,168 1,331,593,999 细胞器 (Organelles) 217,902 180,804,604 专利 (Patents) 1,326,009 717,107,725 噬菌体 (Bacteriophage) 2,321 9,413,526 植物 (Plants) 214,323 700,212,325 原核生物 (Prokaryotes) 200,833 690,274,487 啮齿动物 (Rodents) 25,459 64,607,453 序列标签位点 (STSs) 239,292 114,379,671 合成 (Synthetic) 9,196 16,869,561 未分类 (Unclassified) 1,860 2,167,222 病毒 (Viruses) 196,817 175,615,411 其它脊椎动物 (Other Vertebrates) 52,583 282,545,232 总计 27,248,475 33,885,908,155

2 基因组数据库 来源于人类基因组计划及各种模式生物基因组计划 1977 年, 最早获得的生物基因组全序列是噬菌体 (53kb) 1995 年, 第一个自由生物体流感嗜血菌 (H. inf) 被完全测序

部分生物基因组计划网址 老鼠 (Mouse) http://www.informatics.jax.org/mgd.html 小鼠 (Rat) http://ratmap.gen.gu.se 狗 (Dog) http://mendel.berkeley.edu/dog.html 牛 (Cow) http://locus.jouy.inra.fr/cgi-bin/bovmap/intro2.pl 猪 (Pig) http://www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html 羊 (Sheep) http://dirk.invermay.cri.nz 鸡 (Chicken) http://www.ri.bbsrc.ac.uk/chickmap/chickbase/manager.html 斑马鱼 (Zebra fish) http://zfish.uoregon.edu 线虫 (C. elegans) http://www.ddbj.nig.ac.jp/htmls/celegans/html/ce_index.html 果蝇 (Drosophila) http://morgan.harvard.edu 蚊子 (Mosquito) http://klab.agsci.colostate.edu 拟南芥 (Arabidopsis) http://genome-www.stanford.edu/arabidopsis 棉花 (Cotton) http://algodon.tamu.edu 玉米 (Maize) http://www.agron.missouri.edu 水稻 (Rice) http://www.staff.or.jp 大豆 (Soya) http://mendel.agron.iastate.edu:8000/main.html 树 (Trees) http://s27w007.pswfs.gov

GDB( 美国 美国 加拿大 ) 1990 年,John Hopkins 大学建立, 后由加拿大儿童医院生物信息中心管理. 数据内容 : 基因单位 PCR 位点 细胞遗传标记细胞遗传标记 EST contig 重复片段重复片段 基因组图谱与其它分子生物信息网络资源 (EMBL GenBank ) 的链接

AceDB 线虫基因组数据库 既是一个数据库, 又是一个数据库管理系统 提供很好的图形界面, 用户能够从大到整个基因组小到序列的各个层次观察和分析基因组数据 http://www.acedb.org 数据内容 : 限制性图谱, 基因结构信息, 质粒图谱, 序列数据, 参考文献

3 蛋白质序列数据库 SWISS-PROT PROT( 欧洲 ) PIR( 美国 )

SWISS-PROT 1. 瑞士日内瓦大学医学生物化学系和欧洲生物信息学研究所 (EBI) 合作维护 (1986 年 ); 2. 在 EMBL 和 GenBank 数据库上均建立了镜像站点 ; 3. 数据库包括了从 EMBL 翻译而来的蛋白质序列, 这些序列经过检验和注释 ; 4. 数据记录包括两部分 : 序列注释 ( 结构域 功能位点功能位点 跨膜区域跨膜区域 二硫键位置二硫键位置 翻译后的修饰 突变体等 ) 5. 数据存在滞后性 TrEMBL 数据库的建立 SWISS-PROT 的网址 : http://cn.expasy.org/sprot TrEMBL 的网址 : http://www.ebi.ac.uk/trembl/index.html

SWISS-PROT (http://www.expasy.ch/sprot/sprot-top.html) 是目前国际上比较权威的蛋白质序列数据库, 其中的蛋白质序列是经过注释的 SWISS-PROT 中的数据来源于不同源地 : (1) 从核酸数据库经过翻译推导而来 ; (2) 从蛋白质数据库 PIR 挑选出合适的数据 ; (3) 从科学文献中摘录 ; (4) 研究人员直接提交的蛋白质序列数据 SWISS-PROT 有三个明显的特点 :

(1) 注释 在 SWISS-PROT 中, 数据分为核心数据和注释两大类 核心数据包括 : 序列数据 参考文献 分类信息 ( 蛋白质生物来源的描述 ) 注释包括 : (A) 蛋白质的功能描述 ; (B) 翻译后修饰 ; (C) 域和功能位点, 如钙结合区域 ATP 结合位点等 ; (D) 蛋白质的二级结构 ; (E) 蛋白质的四级结构, 如同构二聚体 异构三聚体等 ; (F) 与其它蛋白质的相似性 ; (G) 由于缺乏该蛋白质而引起的疾病 ; (H) 序列的矛盾 变化等

(2) 最小冗余 尽量将相关的数据归并, 降低数据库的冗余程度 如果不同来源的原始数据有矛盾, 则在相应序列特征表中加以注释 (3) 与其它数据库的连接 对于每一个登录项, 有许多指向其它数据库相关数据的指针, 这便于用户迅速得到相关的信息 现有的交叉索引有 : 到 EMBL 核酸序列数据库的索引, 到 PROSITE 模式数据库的索引, 到生物大分子结构数据库 PDB 的索引等

提交序列数据 (a) 编辑电子表格 (b) 利用 Authorin 程序 (c)www 服务器 使用 SWISS-PROT (a)cd CD-ROM 形式 (b)ftp 服务器 (c)gopher 服务器 (d)www 服务器 (SRS SRS) 与序列相关的操作 (a) 序列查询 (b) 搜索同源蛋白质序列

TrEMBL (http://www.ebi.ac.uk/trembl/index.html) 是与 SWISS-PROT 相关的一个数据库 包含从 EMBL 核酸数据库中根据编码序列 (CDS) 翻译而得到的蛋白质序列, 并且这些序列尚未集成到 SWISS-PROT 数据库中 TrEMBL 有两个部分 : (1)SP-TrEMBL(SWISS-PROT TrEMBL) 包含最终将要集成到 SWISS-PROT 的数据, 所有的 SP-TrEMBL 序列都已被赋予 SWISS-PROT 的登录号 (2)REM-TrEMBL(REMaining TrEMBL) 包括所有不准备放入 SWISS-PROT 的数据, 因此这部分数据都没有登录号

PIR PIR(protein information resource) 1. 由美国 NCBI 翻译自 GenBank 的 DNA 序列 (1984 年 ); 2. 在 EMBL 和 GenBank 数据库上均建立了镜像站点 ; 3. 数据依据注释的质量分为 4 类 网址 : http://www-nbrf.georgetown.edu/ 分类名称 (Name) PIR1 PIR2 PIR3 PIR4 PIR 数据库的分类情况 (Release 51.03) 说明 记录数 (Comment) (Number of entries) 已分类 已注释已注释 (Classified and annotated) 13572 已注释 (Annotated) 69368 未核实 (Unverified) 7508 未翻译 (Unencoded or untranslated) 196

1 PIR(Protein Protein Information Resource) 目的 : 帮助研究者鉴别和解释蛋白质序列信息, 研究分子进化 功能基因组功能基因组 它是一个全面的 经过注释的经过注释的 非冗余的蛋白质序列数据库 所有序列数据都经过整理, 超过 99% 的序列已按蛋白质家族分类, 一半以上还按蛋白质超家族进行了分类

除了蛋白质序列数据之外,PIR 还包含以下信息 : (1) 蛋白质名称 蛋白质的分类蛋白质的分类 蛋白质的来源蛋白质的来源 ; (2) 关于原始数据的参考文献 ; (3) 蛋白质功能和蛋白质的一般特征, 包括基因表达 翻译后处理翻译后处理 活化等 ; (4) 序列中相关的位点 功能区域功能区域

PIR 提供三种类型的检索服务 : 一是基于文本的交互式查询, 用户通过关键字进行数据查询 二是标准的序列相似性搜索, 包括 BLAST FastA 等 三是结合序列相似性 注释信息和蛋白质家族信息的高级搜索, 包括按注释分类的相似性搜索 结构域搜索等

三个子数据库

4 蛋白质结构数据库

PDB PDB(protein data bank) 1. 目前最主要的蛋白质分子结构数据库 ; 2. 1970 年代建立, 美国 Brookhaven 国家实验室维护管理 ; 3. 1988 年, 由美国 RCSB(research collaboratory for structural biology) 管理 ; 4. 以文本格式存放数据, 包括原子坐标 物种来源物种来源 测定方法 提交者信息提交者信息 一级结构一级结构 二级结构等 ; 5. PDBsum 数据库 :PDB 注释信息综合数据库, 具有检索 分析 可视化的功能可视化的功能 PDB 的网址 :http://www.rcsb.org/pdb( 美国 ) PDBsum 的网址 :http://www.biochem.ucl.ac.uk/bsm/pdbsum

PDB(Protein Data Bank) PDB 中含有通过实验 (X 射线晶体衍射, 核磁共振 NMR) 测定的生物大分子的三维结构 蛋白质 核酸 糖类 其它复合物

一种是隐式序列信息 (implicit sequence) PDB 的隐式序列即为立体化学数据, 包括每个原子的名称和原子的三维坐标 一种是显式序列信息 (explicit sequence) 在 PDB 文件中, 以关键字 SEQRES 作为显式序列标记, 以该关键字打头的每一行都是关于序列的信息

PDB 文件示意 HEADER HYDROLASE 19-FEB-97 1ADZ TITLE THE SOLUTION STRUCTURE OF THE SECOND KUNITZ DOMAIN OF TITLE 2 TISSUE FACTOR PATHWAY INHIBITOR, NMR, 30 STRUCTURES COMPND MOL_ID: 1; COMPND 2 MOLECULE: TISSUE FACTOR PATHWAY INHIBITOR; COMPND 8 BIOLOGICAL_UNIT: MONOMER SOURCE MOL_ID: 1; SOURCE 7 EXPRESSION_SYSTEM_PLASMID: PFLAG KEYWDS HYDROLASE, INHIBITOR, COAGULATION EXPDTA NMR, 30 STRUCTURES AUTHOR M.J.M.BURGERING,L.P.M.ORBONS REVDAT 1 25-FEB-98 1ADZ 0 JRNL AUTH M.J.BURGERING,L.P.ORBONS,A.VAN DER DOELEN, REMARK 1 REFERENCE 1 REMARK 1 AUTH M.T.STUBBS II REMARK 1 TITL STRUCTURAL ASPECTS OF FACTOR XA INHIBITION REMARK 999 SEQUENCE REMARK 999 1ADZ SWS P10646 1-111 NOT IN ATOMS LIST REMARK 999 1ADZ SWS P10646 183-304 NOT IN ATOMS LIST REMARK 999 THE FIRST NINE RESIDUES ARE NOT PART OF THE TFPI DOMAIN II REMARK 999 SEQUENCE BUT ARE FROM THE PFLAG PEPTIDE CLONING VECTOR. DBREF 1ADZ 1 71 SWS P10646 TFPI_HUMAN 112 182 SEQADV 1ADZ ASP 1 SWS P10646 ILE 112 ENGINEERED SEQADV 1ADZ TYR 2 SWS P10646 ILE 113 ENGINEERED SEQRES 1 71 ASP TYR LYS ASP ASP ASP ASP LYS LEU LYS PRO ASP PHE SEQRES 2 71 CYS PHE LEU GLU GLU ASP PRO GLY ILE CYS ARG GLY TYR SEQRES 3 71 ILE THR ARG TYR PHE TYR ASN ASN GLN THR LYS GLN CYS SEQRES 4 71 GLU ARG PHE LYS TYR GLY GLY CYS LEU GLY ASN MET ASN SEQRES 5 71 ASN PHE GLU THR LEU GLU GLU CYS LYS ASN ILE CYS GLU SEQRES 6 71 ASP GLY PRO ASN GLY PHE HELIX 1 1 ASP 12 PHE 15 5 4 HELIX 2 2 ASN 34 THR 36 5 3 HELIX 3 3 LEU 57 ILE 63 1 7 SHEET 1 A 2 ARG 29 ASN 33 0 SHEET 2 A 2 GLN 38 PHE 42-1 N PHE 42 O ARG 29 CRYST1 1.000 1.000 1.000 90.00 90.00 90.00 P 1 1 ORIGX1 1.000000 0.000000 0.000000 0.00000 ORIGX2 0.000000 1.000000 0.000000 0.00000 ORIGX3 0.000000 0.000000 1.000000 0.00000 SCALE1 1.000000 0.000000 0.000000 0.00000 SCALE2 0.000000 1.000000 0.000000 0.00000 SCALE3 0.000000 0.000000 1.000000 0.00000 图 4.5 PDB 文件

显示分子结构 (RasMol, ChemView )

5 蛋白质结构分类数据库 SCOP (Structural Classification of Proteins) CATH( Class, Architecture, Topology, Homology)

SCOP(Structural Structural Classification of Protein) 英国医学研究委员会分子生物学实验室和蛋白质工程中心开发的基于 web 的蛋白质结构数据库分类 检索和分析系统 ; SCOP 的网址 :http://scop.mrc-lmb.cam.ac.uk/scop/ CATH(class, architecture, topology, homology) 英国伦敦大学开发维护 ; CATH 的网址 :http://www.biochem.ucl.ac.uk/bsm/cath

SCOP 数据库 ( http://scop.mrc-lmb.cam.ac.uk/scop/) 的目标是提供关于已知结构的蛋白质之间结构和进化关系的详细描述, 包括蛋白质结构数据库 PDB 中的所有条目 SCOP 数据库除了提供蛋白质结构和进化关系信息外, 对于每一个蛋白质还包括下述信息 : 到 PDB 的连接, 序列, 参考文献, 结构的图像等 可以按结构和进化关系对蛋白质分类, 分类结果是一个具有层次结构的树, 其主要的层次是家族 超家族和折叠 : (1) 家族 : 具有明显的进化关系 (2) 超家族 : 具有远源进化关系, 具有共同的进化源 (3) 折叠类 : 主要结构相似

http://scop scop.mrc-lmb.cam.ac..cam.ac.uk/scop/

http://scop scop.mrc-lmb.cam.ac..cam.ac.uk/scop/

http://scop scop.mrc-lmb.cam.ac..cam.ac.uk/scop/

http://www.biochem biochem.ucl.ac..ac.uk/bsm/cath_new/index.html

http://www.biochem biochem.ucl.ac..ac.uk/bsm/cath_new/index.html