第七章基因组研究技术 1
基因组的序列研究 基因组的表达研究 基因组的改造研究 2
基因组的序列研究 遗传图谱的构建 物理图谱的构建 基因组测序 3
第一节基因组的表达研究 转录水平的研究 蛋白质水平的研究 4
一 转录水平的研究 依赖于 PCR 的基因表达差异分析 mrna 差异显示分析 基因表达系统分析 (SAGE) 基因芯片技术 转录组测序技术 5
mrna 表达的比较研究 : mrna 差异显示分析 G, A and C: anchored primers 1, 2 and 3: three arbitrary primers Four RNA samples (one normal and three cancerous) 6
1. 基因芯片技术 基因芯片 (DNA Chip or Microarray) 是将许多特定的 DNA 寡核苷酸或 DNA 片段 ( 称为探针 ) 固定在芯片的每个预先设置的区域内, 即可制成 DNA 芯片 将待测样本标记后同芯片进行杂交分析, 利用碱基互补配对原理进行杂交, 通过检测杂交信号并进行计算机分析, 从而检测对应片段是否存在 存在量的多少 7
8
Microarrays & Spot Color 9
80 年代末期科学家提出杂交法测序的思想, 也就是寡核苷酸芯片的基本原理 1991 年世界第一块原位合成寡核苷酸芯片在美国 Affymetrix 诞生 1995 年世界第一块 cdna 芯片在斯坦福大学实验室诞生 (Science. 1995,270: 467-470) 基因芯片能同时定量或定性地检测成千上万的基因信息 ---- 高通量 基因芯片技术具有微型化 自动化和网络化等特点, 是典型的多学科高技术交叉的结晶 10
基因芯片的制备方法 Oligonucleotide Array cdna Array The space occupied by each specific oligonucleotide is termed a feature and may house at least 1 million identical molecules cdna array 11
原位合成的寡核苷酸芯片 在固相介质表面特定区域合成已知序列的寡核苷酸的一类技术的总称 采用光导化学合成和照相平板印刷技术合成寡核苷酸芯片 Affymetrix 公司已在 1.28 1.28cm 的固相表面合成出包含 300 000 种 20 至 25mer 寡核苷酸探针的芯片 see movie 12
直接点样芯片 (cdna 芯片 ) 已知 cdna 序列或基因组片段通过 PCR 扩增 纯化及定量分析后, 由点样机器人将靶序列直接点到预先经过化学修饰的基片上 ; 然后将未结合的靶基因从基片上洗掉, 就得到基因芯片 13
Building the chip Arrayed Library (96 or 384-well plates of bacterial glycerol stocks) PCR amplification Directly from colonies with SP6-T7 primers in 96-well plates Consolidate into 384-well plates Spot as microarray on glass slides 14
Pins collect cdna from wells Print-tip group 1 cdna clones Spotted in duplicate Glass Slide 384 well plate Contains cdna probes Array of bound cdna probes 4x4 blocks = 16 print-tip groups Print-tip group 7 15
原位合成法与直接点样法的比较 原位合成法 直接从 DNA 数据库得到信息进行寡核苷酸合成 芯片个体之间差异小 直接点样法 预先制备 cdna 样品并进行合成 差异大 密度高, 400000/1.6cm 2 64 500/6.5cm 2 合成寡核苷酸长度有限, 特异性差 成本高 靶基因检测特异性高 成本低 16
基因芯片分析的流程 Scanner output consists of two images, one for each of red and green channels. Shown here is the image with two channels overlaid. 17
Clustering Nature, 406, 747-752, 2000. 18
肝癌相关基因的研究正常肝 m RNA 肝癌组织 m RNA 绿色荧光标记 反转录成 c DNA 红色荧光标记 混合探针 点有人类基因 c DNA 片段的芯片 杂交 扫描分析 在正常肝细胞中高表达 在肝癌细胞中中度高表达 在肝癌细胞中高表达 在正常肝细胞中中度高表达 在两种细胞中等量表达 19
正常植株 病源菌感染植株 反转录成 c DNA 拟南cy-3dUTP cy-5dutp 芥对混合探针病将拟南芥 2375个基因的 cdna及 148个源重复样品经 PC R扩增后点于芯片上菌防御反应杂交 结果分析 以 m RNA丰度变化超过 2.5倍作为标准 168个基因的转录水平上调, 39个下调 20
2. 转录组测序研究 转录组 (transcriptome) 广义上指某一生理条件下, 细胞内所有转录产物的集合, 包括 mrna rrna trna 及 ncrna; 狭义上指所有 mrna 的集合 转录组测序的研究对象为特定细胞在某一功能状态下所能转录出来的所有 RNA 的总和, 主要包括 mrna 和非编码 RNA 21
Duckweed transcriptome sequencing Duckweeds are the world s smallest, but fastest growing aquatic flowering plants, can be used for basic research, environmental monitoring and waste water remediation Under nutrient starvation, duckweed increase starch percentage up to 75% (Dry weight, DW) Samples collected at 0 h, 2 h and 24 h after starvation were used for transcriptome sequencing 22
Expression patterns of some carbon metabolism related transcripts 23
二 蛋白质水平的研究 双向电泳 / 质谱鉴定 定量蛋白质组学 itraq 24
第二节基因组的改造研究 传统的基因组改造 ( 转基因 ) 技术 25
现代的基因组编辑技术 Genome editing 在基因组水平上对 DNA 进行精确修饰的遗传操作 通过人工核酸酶在靶序列处引入双链断裂的 (double strand break, DSB) 缺口, 继而通过细胞内两种 DNA 修复机制完成修复 : NHEJ 途径 (non-homologous end joining, NHEJ) 会使基因组 DNA 缺口处有碱基的插入或者缺失, 造成移码突变, 导致基因的敲除 ; HR 途径 (homologous recombination, HR) 在提供外源 DNA 模板的条件下会使基因组 DNA 得到精确的基因修复或靶向基因的添加 26
人工核酸酶 27
基因组编辑三大技术 ZFN( 锌指核酸酶 ) TALEN( 转录激活样效应因子核酸酶 ) CRISPR/Cas9( 成簇规律间隔短回文重复技术 ) 28
ZFN (zinc finger nuclease) 锌指蛋白 ( zinc finger protein,zfp) FokⅠ 核酸内切酶组成 每个 ZFP 大约含 30 个氨基酸残基, 折叠形成 α- β-β 的二级结构 α 螺旋上的 - 1 ~ + 6 位的 7 个氨基酸残基决定 ZFP 与 DNA 序列的结合特异性, 其中 -1 +3 +6 位残基可直接同靶序列的三联碱基相互作用 29
TALEN transcription activator-like effector nuclease TALE 每个重复单元含 34 aa, 其中第 12,13 位 aa 高度可变, 并与 A,G,C,T 有恒定的对应关系, 即 NI 识别 A,NG 识别 T,HD 识别 C,NN 识别 G TALEN 30
CRISPR-Cas (clustered regularly interspaced short palindromic repeat) 广泛存在于细菌和古细菌基因组中的一种适应性免疫系统, 该系统可以介导外源 DNA 的降解, 从而抵御病毒等外来入侵者 大约 90% 的古细菌和 40% 的细菌基因组或质粒中至少存在 1 个 CRISPR/Cas 基因座 31
CRISPR/Cas 系统分为 Type I, II, III 3 种不同类型, 研究最多应用最广的是 II 型系统 FEMS Microbiol Rev. 2015 May;39(3):428-41 32
细菌和古菌的获得 ( 适应 ) 性免疫
(Protospacer adjacent motif)
( 酿脓链球菌 II 型系统 ) (23-50bp) (17-84bp) 35
CRISPR-Cas9 介导的基因组编辑技术的基本设计原理 crrna / tracrrna 重组的 sgrna
37
CRISPR-Cas9 基因组编辑技术的基本元件 染色体上的靶序列和 PAM 序列 靶序列长度为 20nt,3 端必须含有 PAM 序列 ( 不同的 Cas9 蛋白识别不同的 PAM 序列,SpCas9 识别 5 -NGG) sgrna 针对靶序列进行人工设计, 在体内或体外表达产生 大多数研究将 sgrna 设计为 100 nt 左右, 包含位于 5 端 20nt 的与靶序列互补区 crrna 以及位于 3 端 70~80nt 的 tracrrna Cas9 蛋白 体内表达产生, 真核细胞的核定位信号, 密码子优化 NHEJ 和 HDR 系统 DSB 激活的生物体内重组系统 38
靶位点和 PAM 序列
Genome-wide inactivation of porcine endogenous retroviruses (PERVs) Science, 11 October 2015 猪是理想的异种器官移植供体 猪的内源性病毒 (porcine endogenous retroviruses, PERVs) 风险 猪的基因组中 60 多个病毒基因 40
45/50 exhibited <16% targeting efficiency; 5/50 clones exhibited >93% targeting efficiency The PERV infectivity of the engineered PK15 cells had been reduced by up to 1000 fold 41
Crispr-cas9 系统的脱靶效应 Cas9 能够 容忍 grna 与靶序列之间的错配, 因此可能会导致脱靶效应, 从而在非靶位点产生不需要的突变 Cas9 蛋白质的浓度也是决定打靶特异性的重要因素, 浓度越高, 特异性越低 Cas9 基因的表达时间与特异性相关, 表达时间增加, 特异性降低 42
提高打靶特异性方法 双切口策略 与限制酶融合策略 靶序列截短或加 GG