计算生物学前沿 精品培训班 - 转录组深度分析 高通量测序原理及在转录组 全长分析中的应用 倪挺 复旦大学生命科学学院 2016 年 10 月 24 日
提纲 1. RNA-seq 背景介绍 2. 二代 三代测序原理简介 3. RNA-seq 实验方法简介 4. 从头到尾理解转录组 转录起始位点 反义 RNA 调控及 3 末端形成
RNA-seq 背景介绍
基因和环境共同作用决定表型 基因型 DNA sequencing RNA-seq 中心法则 : 基因表达产生蛋白质 影响基因表达 表观遗传 : DNA 甲基化 组蛋白修饰等 环境 ChIP-seq 表型
中心法则是现代分子生物学最重要的基本规律 DNA 逆转录 RNA 转录 复制 复制 转录调控是基因表达最重要的调控手段之一 翻译 Protein
编码基因的表达涉及众多过程 intron exon Pre-mRNA Transcription Mature mrna Pre-mRNA processing: Capping Splicing Polyadenylation Export AAAn (Human: n=200-250; Yeast: n=~70) 基因表达过程任何一个环节的调控失衡均可导致疾病 Localization AAAn Degradation Translation From Bin Tian
下一代测序 ( 二代 / 三代测序 深度测序 ) 技术为研究基因型和表型的关系提供了有力手段 DNA 逆转录 RNA 转录 复制 基因组重测序 个人基因组计划 靶向测序 ( 如癌症基因组测序 ) 外显子组测序 转录组测序 mirna 深度测序 RNA 测序 (RNA-seq) 翻译 复制 基因表达调控 染色质免疫共沉淀测序 (ChIP-seq) 交联免疫沉淀测序 (CLIP-seq) 染色体构象捕获测序 (3C) Protein 蛋白质翻译 核糖体图谱 (Ribosome profiling)
下一代测序技术作为研究手段的优点 单基因研究 全基因组研究 低通量 高通量
第二 / 三代测序技术平台 平台原理扩增方法测序长度 (bp) 通量 (Gbp) 费用 ($) 时间 454 FLX 焦磷酸测序乳滴 PCR 250-500 0.1-0.3 8,500 7.5hr Illumina HiSeq2000 合成测序法桥式 PCR 50-150 200 20,000 7 d SOLiD 连接介导测序法乳滴 PCR 50 300 20,000 7 d Ion Torren/Proton 质子测序乳滴 PCR 综合性能与 Illumina Hiseq 系列相当 HeliScope 单分子测序无扩增 30 7.5 18,000 14 d PacBio SMRT 实时单分子测序无扩增读长最长, 但错误率高 (10%), 通量有限 Oxford Nanopore 纳米孔无扩增成本低, 仪器体积小, 但稳定性有待时间验证 Illumina 454 FLX HiSeq2000 SOLiD HeliScope PacBio SMRT Oxford Nanopore Cite Holt A. et al., Genome Res. 2008 and others
二代 三代测序原理简介
HiSeq2000 Illumina 边合成边测序原理
Illumina 边合成边测序原理
Illumina 边合成边测序原理
Illumina 边合成边测序原理
Real-Time DNA Sequencing from Single Polymerase Molecules Eid et al. Science 2009 Pacific Biosciences Nanophotonic structure: the zero-mode waveguide (ZMW) Single Molecule Real-Time (SMRT) DNA sequencing technology Reduce the volume of observation by more than three orders of magnitude relative to confocal fluorescence microscopy PacBio RS system PacBio Sequel System
Real-time detection of single-molecule DNA polymerase activity 通过将 DNA 成环后多轮测序降低错误率 单轮错误率达 10-15%, 但由于错误随机, 故几轮后准确率可显著提高
SMRT 三代测序的优点 长读长 (Long reads) Average > 10 kb 高准确率 (High Consensus Accuracy) > 99.999% if coverage is 40 From Jonas Korlach
三代测序 RNA 文库的构建
RNA-seq 是研究全基因组表达调控的重要手段 Mortazavi et al. Nature Methods, 2008
RNA-seq 的优点 单碱基的分辨率 有更宽的定量范围 可发现新的转录本 Wang et al. Nature Reviews Genetics, 2009
RNA-seq 实验方法简介
目的不同决定了 RNA-seq 文库构建流程不同 检测稳态 PolyA+ RNA ( 最常规的目的 ) Oligo(dT) 富集 :polya+ RNA 可结合在 oligo(dt) 磁珠上 检测 PolyA+ 及 PolyA- RNA rrna 去除 : 基于探针杂交的去除 检测 Antisense RNA 链特异性 RNA-seq: 文库构建中保留链信息 检测长非编码 RNA(long non-coding RNA, lncrna) rrna 去除结合链特异性 RNA-seq: 加大测序深度
总 RNA 的纯化处理是检测 polya+ polya- 的关键 常用的流程是 2 轮的 polya+ RNA 筛选 RNA-seq 基本流程 根据需要可替换成 rrna 去除 Mortazavi et al. Nature Methods, 2008
常规 RNA-seq 结果??
RNA-seq 结果 : 知道链信息的话 X V 启动子 RNA 分子
dutp 介导的链特异性 RNA-seq protocol 传统 RNA-seq 链特异性 RNA-seq Parkhomchuk et al. NAR, 2009
DeLi-Seq: Directional Ligation and Sequencing 定向连接介导的 RNA 测序方法 AAAA Fragmentation to 200~300nt RT with random primer NNNNNN I-SceI site Second strand synthesis end-repair, A-tailing A A NNNNNN I-SceI digestion 36mer to be sequenced T A Linker A I-SceI site A ATAA Directional ligation, PCR and Illumina sequencing ATAA TATT Linker B Rich media & heat shock 2 biological replicates/condition One Solexa channel for each sample 32.4 Million raw reads (36mer) obtained Ni et al. PLoS ONE, 2010
DeLi-seq 能够可靠地检测到裂殖酵母的反义转录体 antisense Known intron
DeLi-seq 能够可靠地检测到裂殖酵母的反义 RNA ncrna ncrna with antisense
RNA-seq 中基因表达量评估的基本概念 RPKM: reads per kb per million uniquely mapped reads Sample A: 1 million Uniquely Mappable Reads 6 reads 6 reads Gene1 (1kb) Gene2 (2kb) RPKM: 6 RPKM: 3 Sample B: 2 million Uniquely Mappable Reads 6 reads Gene1 (1kb) RPKM: 3
LncRNA 的阶段特异性表达 根据每个 lncrna 的 RPKM 值进行表达量的深入分析 每行表示一个 lncrna 基因 每列表示不同阶段的细胞
RNA-seq 结果 在所有细胞系或组织中,lncRNA 的表达量与编码基因相比, 总体要低 10 倍左右 Djebali et al. Nature, 2012
如何测定 PolyA+ 和 PolyA- lncrna? rrna 占 90% 以上 PolyA- PolyA+ AAAn PolyA+ AAAn PolyA- rrna 去除 : 基于探针杂交的去除 Oligo(dT) 富集 :polya+ RNA 可结合在 oligo(dt) 磁珠上
为何区分 polya+ 和 polya- RNA 是重要的 Yin et al. Molecular Cell, 2012
从头到尾理解转录组 转录起始位点 转录过程反义 RNA 调控及选择性 polya 加尾
建立了转录从头到尾的研究体系 针对转录三个环节 转录起始过程调控转录终止 CAP AAAAAAAA 建立三种测序新技术 转录起始位点的双端测序 (PEAT) 定向连接介导的 RNA 测序 (DeLi-seq) 多聚腺苷酸精确定位测序 (PA-seq) 学术成绩 1 学术成绩 2 学术成绩 3 发现三种转录起始模式并 建立其与启动子元件及表观 遗传标记的关联 Ni et al., Nature Methods, 2010 Ni et al., Nature Protocols, 2010 Rach,... Ni et al., PLoS Genetics, 2011 发现反义 RNA 及 内含子保留的基因 调控作用 Ni et al., PLoS ONE, 2010 Jiang, Ni et al., Nature, 2013 Ni et al., NAR, 2016 发现一组具有组织特 异性调控作用的 选择性 Poly(A) 新位点 Ni et al., BMC Genomics, 2013 Majerciak#, Ni# et al. PLoS Pathogens, 2013 Hafez, Ni et al., Bioinformatics, 2013
采用 PEAT 方法确定转录起始位点 a Cap AAAA h Illumina/Solexa Paired-End sequencing BAP/TAP treatment b p AAAA 5 linker ligation c MmeI AAAA d MmeI RT with random primer AAAA MmeI g 转录起始位点 TSS A 3 seq B PCR and Circularization e 滚环扩增 RCA Mme I digestion f TSS PE linkers ligation 3 seq MmeI MmeI Bridge ligation: specificity RCA: linear amplification; reduced biases Paired reads: improve mapping distant TSS Ni et al. Nature Methods, 2010
PEAT 方法发现三种转录起始模式与启动子元件关联 集中模式 混合模式 分散模式 Strong location preference Weak location preference 集中模式 : 强位置偏好性核心启动子元件富集于此分散模式 : 弱位置偏好性核心启动子元件富集于此核心启动子中特定的元件及其位置决定了转录起始的模式 Ni et al., Nature Methods, 2010
Working model: transcriptional initiation in fly Narrow Peak Broad Peak Weak Peak Rach et al. PLoS Genetics, 2011
DeLi-Seq: Directional Ligation and Sequencing 定向连接介导的链特异性 RNA-seq 方法 AAAA Fragmentation to 200~300nt RT with random primer NNNNNN I-SceI site Second strand synthesis end-repair, A-tailing A NNNNNN I-SceI site A I-SceI digestion A ATAA Directional ligation, PCR and Illumina sequencing 36mer to be sequenced T A Linker A ATAA TATT Linker B Ni et al. PLoS ONE, 2010
表达标签数 3000 7000 意外发现内含子保留在休眠 T 细胞中显著富集 休眠 T 细胞 活化 T 细胞 anti-cd3 anti-cd28 Poly(A) selection AAAAAAA AAAAAAA AAAAAAA Strand-specific RNA-seq Illumina PE sequencing Gene: HNRNPL Ni et al. NAR, 2016
PSMD7 基因的内含子保留通过在核内降解下调基因表达量 Ni et al. NAR, 2016
内含子保留介导的免疫 T 细胞快速应答新机制 休眠 T 细胞 : 剪接效率低, 内含子保留的转录体在核内被降解, 表达水平低 ; 活化 T 细胞 : 剪接效率增高, 内含子保留的转录体被剪接, 使得稳态 mrna 水平迅速升高, 达到快速应答的目的 Ni et al. NAR, 2016
PA-seq 方法测定选择性 polya 加尾位点 p p AAAAAAAAAAAAAAAAAAAA-3 3 -NVTTTdUTTTTTTTTTTTTTTTT- RT and 2 nd strand synthesis Beads binding AAAAAAAAAAAAAAAAAAAA-3 TTTdUTTTTTTTTTTTTTTTT- MyOne beads Remove 5 -p USER digestion Biotin/Streptavidin AAAAAAAAAAAAAAAAAAAA-3 TTTp-5 一个基因含有 3 个选择性 polya 加尾位点 End repair AAA-3 TTTp-5 A-tailing and add Y-linker 3 -A AAAA-3 TTTp-5 Final PCR Illumina paired-end sequencing Ni et al. BMC Genomices, 2013
选择性 PolyA 加尾对基因表达影响的重要性 Giammartino et al. Molecular Cell, 2011
Ni et al. BMC Genomics, 2013 心睾丸骨骼肌脾脑肺肝前列腺肾胰脏 PA-seq 发现组织特异性选择性 polya 加尾 SOD1: 超氧化物歧化酶 1 在心脏和肾脏中更倾向表达缩短的 3'UTR 心脏和肾脏产生大量的自由基 可能一 : 变短的 3'UTR 可能有助于提高 mrna 的半衰期, 从而增加蛋白的翻译, 帮助去除自由基 可能二 : 变短的 3'UTR 能够避免 mirna 的结合, 而 mirna 通常会抑制蛋白的翻 译, 所以变短的 3'UTR 能够翻译出更多 的蛋白用于去除组织中的自由基
More genes use distal pa sites and tend to have decreased expression level in aging cells Mouse fibroblast Rat VSMC Young Aged
Genes used longer 3 UTR during cellular senescence/aging enriched in common pathways Mouse fibroblast Rat VSMC Young Aged
复杂的转录组, 奇妙的调控 Xiang-Dong Fu, National Science Review, 2014
Acknowledgements US Collaborators Jun Zhu lab Wenjing Yang Yubo Zhang Yoshi Wakabayashi Current lab members: 魏刚, 韩苗, 谌婷, 聂宏波, 廉亚茹, 陈蒙, 李雪萍, 陈炜, 曹玄烨, 余肇隆, 钮亦驰, 刘羽 Weiqun Peng Keji Zhao lab Kairong Cui Gang Wei