生 物 信 息 学 中 的 生 物 学 1. 研 究 对 象 生 物 信 息 学 的 工 作 绝 大 部 分 是 围 绕 中 心 法 则 进 行 的, 所 以 我 们 的 研 究 对 象 可 以 是 生 物 大 分 子 DNA/RNA/PROTEIN 本 身, 或 者 是 它 们 内 部 相 互 转 换 的 一 些 过 程 如 复 制 / 转 录 / 反 转 录 / 翻 译 乃 至 于 这 些 过 程 的 调 控 等 等 一 句 话, 我 们 研 究 的 是 一 些 简 单 对 象 以 及 这 些 简 单 对 象 相 关 的 复 杂 过 程 进 行 研 究 之 前, 我 们 首 先 必 须 要 了 解 这 些 生 物 大 分 子 以 及 这 些 过 程 对 于 我 们 生 物 信 息 学 的 研 究 人 员 来 说, 我 们 可 以 把 所 有 的 大 分 子 乃 至 于 过 程 都 看 作 一 个 对 象 例 如 对 于 DNA, 其 本 质 应 该 是 脱 氧 核 糖 核 苷 酸 的 有 序 集 合, 那 么 我 们 是 不 是 可 以 构 建 出 一 个 DNA 类 呢? 类 似 的 我 们 也 可 以 构 建 出 RNA 类,Protein 类 思 考 题 有 时 候 为 了 统 计 分 析, 我 们 必 须 构 建 随 机 序 列 如 随 机 DNA 序 列, 请 用 面 向 对 象 的 思 想, 用 C++ 编 写 程 序, 构 建 随 机 DNA 序 列 注 意 :(1) 不 要 将 所 有 的 代 码 都 写 在 一 个 文 件 里 面, 最 好 将 main 和 class character { }; class characterset { } class sequence { int length; string sequence; char type; sequence sequence(int length, char type, string sequence); int getlength(sequence seq); void setlength(sequence seq); } class dna extended sequence { dna dna(); dna dna(int size, str sequence); dna dna::replicate(); rna dna::transcribe(); } 其 他 模 块 分 开 在 不 同 文 件 里 面 ;(2) 编 写 程 序 时 添 加 comments 然 后 撰 写 简 单 文 档, 可 以 包 括 程 序 目 的 用 法 实 例 等 等, 这 部 分 也 可 以 写 在 程 序 的 头 部
2. 生 物 学 数 据 库 我 们 的 研 究 对 象 是 生 物 大 分 子 或 者 是 相 应 的 一 些 过 程, 那 么 我 们 可 以 从 哪 里 获 得 这 些 相 关 的 数 据 呢? 最 直 接 的 是, 从 我 们 周 围 的 分 子 生 物 学 实 验 室 得 到 这 些 数 据, 但 是 这 显 然 不 是 一 个 方 便 快 捷 的 方 式 感 谢 网 络 的 发 展, 生 物 学 家 和 计 算 机 学 家 共 同 合 作, 将 他 们 的 数 据 放 在 网 络 上, 慷 慨 的 提 供 查 询 和 下 载, 大 大 的 方 便 了 他 人 的 工 作, 这 就 是 生 物 学 网 络 数 据 库 数 据 库 的 分 类 是 一 个 问 题, 我 们 可 以 按 照 存 储 对 象 进 行 分 类, 也 可 以 按 照 其 数 据 / 知 识 来 源 将 数 据 库 分 成 一 级 数 据 库 二 级 数 据 库, 但 我 们 更 加 习 惯 于 采 用 前 者 进 行 分 类, 可 以 把 数 据 分 为 基 因 组 数 据 库 ( 如 UCSC) 核 酸 序 列 数 据 库 ( 如 Genbank) 蛋 白 数 据 库 ( 如 SwissProt) 结 构 数 据 库 ( 如 PDB) microarray 数 据 库 ( 如 GEO) 蛋 白 相 互 作 用 数 据 库 ( 如 BioGrid) 功 能 注 释 数 据 库 (GO) 等 等 (1) Genbank 数 据 库 http://www.ncbi.nlm.nih.gov Genbank 是 由 美 国 NCBI 维 护 的 一 个 核 酸 序 列 数 据 库, 隶 属 于 NIH, 与 日 本 的 DDBJ 和 欧 洲 的 EMBL 并 称 为 三 大 核 酸 数 据 库, 其 中 包 含 了 所 有 公 共 的 DNA RNA 序 列 以 及 其 annotation 信 息 其 注 释 信 息 主 要 包 括 从 序 列 本 身 的 信 息 ( 如 长 度 物 种 来 源 序 列 类 型 提 交 日 期 版 本 等 ) 所 涉 及 的 参 考
文 献 序 列 的 特 征 信 息 ( 各 种 feature 如 CDS Domain 等 ) 序 列 等 NCBI 还 为 用 户 提 供 了 查 询 浏 览 和 下 载 的 Entrez 服 务 其 提 供 下 载 的 格 式 多 种 多 样, 主 要 有 Genbank/FASTA/XML 等 (2) Swissprot 数 据 库 http://www.expasy.ch/sprot/ Swissprot 数 据 库 中 的 所 有 蛋 白 序 列 条 目 和 注 释 信 息 都 具 有 准 确 的 说 明, 有 些 是 通 过 计 算 机 完 成 的 工 作, 同 时 还 包 括 了 研 究 人 员 的 干 预 每 个 entry 的 注 释 包 括 结 构 域 (domain) 功 能 位 点 (functional site) 跨 膜 区 与 (transmembrane) 二 硫 键 位 置 翻 译 后 修 饰 突 变 等 (3) OMIM 数 据 库 http://www.ncbi.nlm.nih.gov OMIM 数 据 库 收 集 的 是 常 见 简 单 和 复 杂 疾 病 与 相 关 的 基 因 突 变 数 据 库, OMIM 是 Online Mendelian Inheritance in Man 的 缩 写, 顾 名 思 义 是 人 类 一 些 遗 传 性 状 的 相 关 数 据, 包 含 了 几 乎 所 有 已 知 孟 德 尔 遗 传 病 以 及 超 过 12000 个 相 关 基 因 的 数 据, 主 要 研 究 的 是 形 状 与 基 因 型 之 间 的 联 系
(4) PDB 数 据 库 http://www.rcsb.org/pdb/home PDB 数 据 库 中 包 含 了 目 前 通 过 实 验 方 法 (X-ray 或 者 NMR) 确 定 的 蛋 白 / 核 酸 以 及 一 些 复 合 物 的 结 构 信 息 RCSB PDB 还 提 供 了 一 系 列 的 工 具 和 资 源, 用 户 可 以 通 过 web 进 行 一 些 简 单 或 者 复 杂 的 基 于 序 列 结 构 功 能 注 释 的 搜 索 这 些 分 子 可 以 通 过 某 些 特 定 的 如 PyMol/Cn3D/RasMol 等 可 视 化 工 具 查 看 和 辅 助 分 析 其 结 构 信 息 另 一 个 常 用 的 结 构 相 关 的 数 据 库 是 NCBI 的 MMDB,MMDB 在 pdb 的 基 础 上, 加 入 了 化 学 键 信 息 3D 结 构 域 和 二 级 结 构 的 注 释 信 息, 以 及 其 他 包 括 如 CDD(Conserved Domain Database) Taxonomy Pubmed 等 其 他 数 据 库
的 链 接, 还 提 供 了 结 构 比 对 搜 索 工 具 VAST ( Vector Alignment Search Tool) (5) GEO 数 据 库 http://www.ncbi.nlm.nih.gov GEO 数 据 库 是 由 NCBI 发 起 的 基 因 表 达 数 据 仓 库 的 重 要 在 线 资 源, 用 于 检 索 从 任 何 物 种 或 人 造 的 来 源 检 索 基 因 表 达 数 据, 数 据 分 别 来 自 microarray 高 密 度 寡 核 苷 酸 array(had) 杂 交 膜 (filter) 和 SAGE 的 许 多 类 型 的 基 因 表 达 数 据 作 为 一 个 公 共 的 数 据 集 合, 部 分 数 据 还 进 行 了 详 细 的 数 据 定 义 和 描 述 (6) Gene Ontology: 基 因 功 能 分 类 http://www.geneontology.org 基 因 语 义 学 (Gene Ontology) 对 许 多 同 学 来 说, 也 许 是 非 常 陌 生 的 概 念 但 是 其 存 在 对 于 我 们 对 生 物 数 据 的 整 合 具 有 非 常 关 键 的 作 用, 其 通 过 从 积 累 的 大 量 文 献 中 发 现 和 提 取 综 合 文 献 中 包 含 的 基 因 功 能 注 释 信 息 GO 着 力 于 通 过 建 立 一 套 具 有 动 态 形 式 的 控 制 字 符 集 (controlled vocabulary), 来 解 释 真 核 基 因 以 及 蛋 白 在 细 胞 内 所 负 责 的 功 能, 并 可 以 自 动 更 新 一 个 ontology 会
被 一 个 控 制 字 集 描 述 并 给 予 一 定 的 名 称, 通 过 制 定 ontology 并 运 用 统 计 学 方 法 和 自 然 语 言 处 理 技 术 文 本 挖 掘 工 具, 可 以 实 现 知 识 管 理 的 专 家 系 统 控 制 目 前, GO 数 据 库 分 为 三 个 独 立 的 ontology : 生 物 过 程 ( biological process ) 分 子 功 能 ( molecular function ) 以 及 细 胞 组 分 ( cellular component ) 而 这 3 个 ontology 以 及 其 下 级 的 多 个 层 次 通 过 DAGs (Directed Acyclic Graphs) 将 每 个 ontology 串 联 起 来, 形 成 树 状 结 构 (hierarchical tree), 也 就 是 is a 和 part of 两 种 关 系 (7) KEGG: 代 谢 通 路 数 据 库 http://www.genome.jp/kegg/
(8) Biomart: 生 物 知 识 超 市 http://www.biomart.org Biomart 是 由 安 大 略 癌 症 研 究 所 和 EBI 共 同 开 发 的 面 向 查 询 的 数 据 管 理 系 统 该 系 统 可 用 于 任 意 形 式 的 数 据, 尤 其 适 合 于 为 具 有 复 杂 描 述 数 据 的 类 似 于 数 据 挖 掘 的 查 询 BioMart 内 建 有 针 对 处 理 大 量 数 据 的 最 佳 化 查 询 功 能, 以 便 处 理 基 因 组 序 列 或 是 微 阵 列 实 验 数 据 等 对 于 分 布 于 网 络 的 多 个 数 据 集 的 交 叉 查 询,BioMart 使 之 成 为 可 能, 从 而 避 免 了 将 这 些 数 据 全 都 下 载 到 本 地 然 后 再 进 行 整 合 查 询 的 麻 烦 可 以 通 过 网 络 图 表 或 者 使 用 Perl JAVA 等 语 言 写 的 程 序 来 访 问 BioMart 的 数 据 目 前,BioMart 支 持 关 系 型 数 据 平 台 MySQL,Oracle 以 及 PostgreSQL 思 考 题 (1) 从 Genbank 数 据 库 中 下 载 人 leptin 基 因 或 者 你 感 兴 趣 的 其 他 基 因 文 件, 保 存 为 genbank 格 式 请 用 C++ 编 写 程 序, 从 中 提 取 基 因 的 结 构 信 息 ( 外 显 子 exon 内 含 子 intron 及 其 起 始 终 止 位 置 以 及 内 含 子 起 始 终 止 位 置 的 二 联 核 苷 酸 ), 并 将 结 果 以 TAB-delimited 的 格 式 保 存 在 输 出 文 件 中 (2) 从 PDB 数 据 库 中 下 载 你 感 兴 趣 的 蛋 白 或 者 复 合 物 的 结 构 文 件, 编 写 程 序 从 中 提 取 所 有 C-alpha 的 坐 标, 并 计 算 所 有 Alpha 碳 原 子 之 间 的 距 离, 并 输 出 为 一 个 下 三 角 矩 阵, 保 存 在 输 出 文 件 中 并 用 PyMol 软 件 打 开 该 pdb 文 件, 输 出 图 形 并 保 存, 你 可 以 选 择 用 不 同 的 模 式 展 示 该 结 构
(3) 阅 读 GO 数 据 库 的 帮 助 信 息 ( http://www.geneontology.org/ GO.database.shtml?all), 并 用 mysql 客 户 端 连 接, 列 出 其 已 有 的 数 据 表 (table) 和 每 个 表 的 结 构 和 表 长 (4) 编 码 牛 (Bos taurus) 肌 球 蛋 白 (Myosin) 轻 链 (Light chain, 相 对 于 重 链 heavy chain 而 言 ) 的 基 因 (MYLK_Bovin) 在 1 号 染 色 体 上 选 择 BioMart 的 ensemble! 镜 像, 尝 试 回 答 下 列 问 题 : 牛 1 号 染 色 体 上 还 编 码 哪 些 基 因? 列 出 这 些 基 因 对 应 的 Ensembl GeneIDs 和 Entrez GeneIDs, 这 些 基 因 是 否 包 含 Interpro 预 测 的 Domain? 记 录 下 这 些 查 询 对 应 的 perl 脚 本 (5) 打 开 KEGG 代 谢 通 路 页 面 (http://www.genome.jp/kegg/ pathway.html), 查 找 分 别 引 起 I 型 和 II 型 糖 尿 病 (type 1/2 diabetes mellitus) 的 代 谢 图 (metabolic map) 请 问 有 哪 些 蛋 白 分 别 存 在 于 两 种 通 路 当 中? (6) 下 面 三 个 术 语 分 别 属 于 哪 种 Gene Ontology (molecular function, biological process, cellular component)? a) Regulation of glycolysis b) Peroxisomal membrane c) DNA binding
3. 分 子 生 物 学 技 术 所 有 的 分 子 生 物 学 技 术, 都 是 为 了 获 取 生 物 学 数 据 这 个 目 的 服 务 的 如 测 序, 其 目 的 是 为 了 得 到 DNA/RNA/ 蛋 白 质 的 序 列, 但 是 不 同 实 验 技 术 得 到 的 原 始 数 据 可 能 有 所 不 同, 其 对 应 的 分 析 方 法 也 会 有 所 差 别 ; 如 酵 母 双 杂 交 技 术 (Yeast Two Hybrid, Y2H), 其 实 验 目 的 是 为 了 确 定 细 胞 中 的 蛋 白 相 互 作 用 ; 如 microarray 技 术, 其 目 的 是 为 了 同 时 定 量 测 定 一 个 细 胞 中 成 千 上 万 个 基 因 在 瞬 间 的 表 达 值 经 典 测 序 方 法 对 于 我 们 来 说, 了 解 这 些 技 术 的 目 的, 也 是 为 了 我 们 的 分 析 服 务, 例 如, 对 于 microarray 而 言, 有 多 家 公 司 有 这 方 面 的 技 术, 但 因 为 从 实 验 设 计 到 目 的 都 有 所 差 别, 因 此 其 对 应 的 分 析 方 法 和 侧 重 点 也 会 有 所 区 别, 这 是 我 们 以 后 工 作 中 特 别 需 要 注 意 的 地 方 另 外, 有 些 实 验 得 到 的 数 据 本 身 就 是 非 常 直 观 的, 但 是 有 些 数 据 本 身 可 能 只 是 一 种 表 象, 我 们 分 析 的 目 的 是 为 了 发 现 Underlying mechanism 或 者 pattern, 这 就 衍 生 出 一 门 学 科, 叫 做 数 据 挖 掘 (data mining)
4. 生 物 学 数 据 的 批 量 获 取 某 些 数 据 库 还 提 供 了 数 据 库 的 接 口 或 者 接 口 程 序, 可 以 极 大 的 方 便 我 们 的 开 发 工 作 另 一 个 方 式 则 是 通 过 ftp 获 取 然 而 有 时 候 如 果 不 存 在 这 些 接 口 的 前 提 下, 我 们 就 只 能 采 用 web 的 方 式 获 取 数 据, 如 果 采 用 人 工 的 方 式 毫 无 疑 问 是 一 件 耗 时 耗 力 的 工 作, 所 以 编 写 程 序 进 行 批 量 获 取 数 据 就 成 为 一 个 非 常 重 要 的 工 作 方 式 这 时 候 不 论 你 是 采 用 哪 一 种 语 言, 正 则 表 达 式 ( regular expression) 都 是 非 常 重 要 的 工 具 所 谓 正 则 表 达 式, 就 是 从 貌 似 复 杂 纷 繁 的 文 本 中 提 取 我 们 所 需 要 的 讯 息 的 方 法 和 手 段 5. 总 结 到 目 前 为 止, 我 们 已 经 对 生 物 学 有 了 一 个 大 致 的 了 解 和 掌 握, 包 括 从 分 子 生 物 学 技 术 到 生 物 大 分 子 的 类 型 以 及 实 验 数 据 有 了 一 个 粗 略 的 了 解 对 于 我 们 生 物 信 息 学 专 业 的 人 员 来 说, 这 已 经 足 够 了 我 们 需 要 明 白 的 就 是 这 些 数 据 背 后 的 生 物 学 意 义, 以 及 能 够 用 这 些 知 识 解 读 以 后 我 们 用 数 学 和 计 算 机 分 析 得 到 的 结 果 总 之, 对 我 们 而 言, 所 有 的 数 据 都 是 对 象 (object) 的 实 例 (instance) 的 集 合 (set), 所 以, 生 物 信 息 学 是 一 门 面 向 对 象 (object-oriented) 的 科 学 研 究, 也 就 是 所 谓 的 数 据 驱 动 (data-driven) 的 研 究