PowerPoint 演示文稿

Similar documents
PowerPoint 演示文稿

Microsoft PowerPoint - #chap11-2.ppt [兼容模式]

<4D F736F F D20A8CFA952A6A12DAED1ADB1B8EAAEC62E646F63>

PowerPoint 演示文稿

Microsoft Word - ??山

Microsoft Word - 助理人員教育訓練-會計室.docx

威 福 髮 藝 店 桃 園 市 蘆 竹 區 中 山 里 福 祿 一 街 48 號 地 下 一 樓 50,000 獨 資 李 依 純 105/04/06 府 經 登 字 第 號 宏 品 餐 飲 桃 園 市 桃 園 區 信 光 里 民

团 学 要 闻 我 校 召 开 共 青 团 五 届 九 次 全 委 ( 扩 大 ) 会 议 3 月 17 日, 我 校 共 青 团 五 届 九 次 全 委 ( 扩 大 ) 会 议 在 行 政 办 公 楼 五 楼 会 议 室 举 行, 校 团 委 委 员 各 院 ( 系 ) 团 委 书 记 校 学 生

: : ( ) 2 : 3 ; ; ; ;

閱 讀 素 材 V.S 分 組 方 式 的 差 異 化 教 學 工 具 表 班 級 :( ) 閱 讀 素 材 V.S 分 組 方 式 獨 立 閱 讀 夥 伴 閱 讀 ( 同 質 性 ) 夥 伴 閱 讀 ( 異 質 性 ) 友 善 陪 伴 虛 心 受 教 國 語 日 報 新 聞 生 活 文 藝 兒 童

Microsoft Word - 1HF12序.doc

Microsoft Word - 讀報看科普─人體篇_橫_.doc

Microsoft Word - 2B802內文.doc

鍟嗗搧瑙傚療鈥㈤挗鏉

東區校園中法治教育種子師資教學研習營

Lecx5.ppt

考 試 日 期 :2016/04/24 教 室 名 稱 :602 電 腦 教 室 考 試 時 間 :09: 二 技 企 管 一 胡 宗 兒 中 文 輸 入 四 技 企 四 甲 林 姿 瑄 中 文 輸 入 二 技 企 管 一

2. 禁 止 母 乳 代 用 品 之 促 銷 活 動, 以 及 不 得 以 贊 助 試 用 或 免 費 等 方 式, 取 得 奶 瓶 及 安 撫 奶 嘴 認 證 說 明 以 贊 助 試 用 或 免 費 等 方 式, 取 得 奶 瓶 及 安 撫 奶 嘴, 並 在 婦 產 科 門 診 兒 科 門 診 產

市 立 永 平 高 中 無 填 報 無 填 報 (02) 市 立 樹 林 高 中 已 填 報 已 填 報 (02) 市 立 明 德 高 中 已 填 報 (02) 市 立 秀 峰 高 中 已 填 報

编 者 手 记 :2016 年 6 月 7 日, 六 个 人 六 段 长 情 的 告 白, 有 着 说 得 出 的 故 事 说 不 出 的 情 怀 华 大 序 说, 说 出 华 大 最 强 音, 用 我 们 的 声 音 来 为 华 大 测 序, 这 是 华 大 人 自 己 的 TED 秀 在 第 一


汇集全球21位医生的经验和智慧,总结出最实用的专业建议,这些都是最值得你牢记的健康提醒

1 行 业 发 展 不 平 衡 我 国 房 地 产 中 介 服 务 业 起 步 较 晚, 专 业 分 工 程 度 和 国 外 发 达 国 家 相 比 还 有 很 大 差 距 房 地 产 中 介 服 务 行 业 的 发 展 水 平 与 房 地 产 开 发 行 业 的 市 场 化 水 平 密 切 相 关

cover

出國報告.docx.docx

未命名-1

WES 检测报告 Pan


:TGF-β bfgf 23 KEY WORDS:transforminggrowthfactor-β ;basicfibroblastgrowthfactor; bonemarrow mesenchymalstemcels;eukaryoticexpressionvector; liposomet

校园之星

<4D F736F F F696E74202D20A5FEB279ACECA7DEADB2A DA5CDA4C6ACECA7DEA4A7BDC4C0BB>

Microsoft Word doc

untitled

常用生物医学数据库与分析软件介绍

气溶胶光学厚度 的测量原理 Ê

目 录 一 BMKCloud 简介... 1 二 长链非编码 RNA 分析平台 基本分析 测序数据导入 综合选项 基因功能注释 差异表达分析 参数确认 任务查看 运行结

<4D F736F F F696E74202D20B2E2D0F2B6C1B6CEBBD8CCFBBACDD7AAC2BCB5F7BFD82E >


目录

Microsoft Word - 21??¡N??`?C?~??-1.doc, page Normalize ( Microsoft Word - 21ºÝ¤È¸`§C¦~¯Å-1.doc )

untitled

untitled

附件1

1012


基因组测序及生物信息分析

.., + +, +, +, +, +, +,! # # % ( % ( / 0!% ( %! %! % # (!) %!%! # (!!# % ) # (!! # )! % +,! ) ) &.. 1. # % 1 ) 2 % 2 1 #% %! ( & # +! %, %. #( # ( 1 (

# % & ) ) & + %,!# & + #. / / & ) 0 / 1! 2

溝通協調與激勵領導

2009 P001-P003.cdr

短期融资券信用评级报告

Microsoft Word 共14學門規劃彙集.docx

五 參 與 政 治 活 動 之 限 制 綜 觀 中 立 法, 其 重 點 在 於 適 度 規 範 公 務 人 員 參 與 政 治 活 動, 可 分 為 消 極 性 的 行 為 規 範 及 積 極 性 參 與 政 治 活 動 的 限 制 規 範 兩 種 前 者 除 依 法 行 政 公 平 對 待 等

8 訴 告 確 提 供 內 容 幾 乎 全 部 錯 誤 許 懂 信 毫 根 據 話 真 正 控 結 校 提 供 提 供 錯 誤 現 象 偶 告 訴 根 源 乎 整 結 構 權 配 權 宰 即 支 配 迫 告 訴 告 訴 錯 誤 控 章 講 解 開 控 啞 謎 通 往 解 放 集 解 放 門 把 鑰

Chapter 24 DC Battery Sizing

Transcription:

转录组学 01/15, 2017 ventson@zju.edu.cn

前言 基因组学 转录组学 from en.wikipedia 中心法则 : 遗传信息传递 蛋白质组学 2

技术发展 Experiment-based Northern blot RT-PCR Hybridization-based Microarray Sequencing-based SAGE CAGE MPSS Advanced seq NGS 3GS Single cell 转录组学研究技术革新 3

应用 差异表达 可变剪切 共表达 转录调控 4

RNA 测序 (RNA-sequencing) from GATC Biotech 1. 试验设计 2. 测序流程 3. 数据分析 4. 验证实验 5

试验设计 问题导向型 数据导向型 生物学重复 (3-5 个 ) 样本提取 ( 分类和保存 ) 测序深度 ( 简单基因表达分析需 5M 以上 reads, 小 RNA 至少 30M) 数据异质性 ( 平台 个体差异 ) 确定分析流程 分析工具选用 文库构建 ( 链特异性非特异性 ) 测序策略 ( 单端和双末端 ) 测序平台 ( 读长 通量和准确率等 ) 6

测序流程 mrna:poly A 富集 ncrna:rrna 移除 Griffith, M. (2015) PLoS computational biology 7

数据分析流程 系统配置 差异表达 聚类分析 数据获取 表达定量 功能富集 质量控制 比对组装 共表达网络 RNA-seq 数据分析常规流程 8

系统配置 9

数据获取 NCBI SRA TCGA/GDC(cancer) fastq-dump (SRAToolkit) Fastq 文件格式 : EBI ArrayExpress 公共数据库 测序公司 10

质量控制 去接头 ; 过滤低质量 reads FastQC 测序质量评估 FASTX-Toolkit,Trimmomatic 质量控制 11

比对 (reads mapping) 非剪接比对 Bowtie,BWA ( 不考虑可变剪切 ) 剪接比对 TopHat,STAR,HISAT/GSNAP,MapSplice(SNP) TopHat 工作原理 Trapnell, C. (2009) Bioinformatics 12

比对结果 比对结果文件 SAM(SAMtools) 比对结果可视化 IGV (local) 比对结果评估 Qualimap (summary) 13

表达定量 Reads counting Normalization 只保留唯一匹配 reads HTSeq-count,featureCounts 保留多重匹配 reads Cufflinks,StringTie,RSEM RPKM,FPKM,TPM 校正测序深度 基因长度 DESeq/edgeR(TMM) 校正异常高表达基因 14

比对组装策略选择 Conesa, A. (2016) Genome Biology 15

差异表达分析 选取样本 : 样本相关性, 大样本降维 ( 主成分分析 ) 模型选择 : 高斯分布 ( 正态 ), 泊松分布 (v=μ), 负二项分布 (v=μ+αμ 2 ) 差异检验 : 组间差异 ( 处理差异 ) 组内差异 ( 个体差异 )?= 0 筛选条件 :p value( 多重检验校正 ) & FoldChange( 差异倍数 ) 工具 版本 标准化方式 模型假设 统计检验 edger 3.18.1 TMM/Upper quartile/rle 负二项分布 Exact test DESeq2 1.16.1 DESeq sizefactors 负二项分布 Wald test/lrt bayseq 2.10.0 quantile/tmm/total 负二项分布 empirical Bayesian NOIseq 2.20.0 RPKM/TMM/Upper quartile 非参数 Condition vs. null Limma 3.32.10 TMM voom 转换 Empirical Bayes Cuffdiff2 2.2.1 Geometric/quartile/FPKM β 负二项分布 t-test EBSeq 1.16.0 DESeq median normalization 负二项分布 empirical Bayesian 常用差异表达分析工具比较 16

聚类分析 单基因分析 vs. 基因模块分析常用聚类方法 :K-means(K 均值 ), 层次聚类,SOM( 自组织映射 ),FCM( 模糊 C 均值 ) 基因表达聚类结果 (pheatmap) 17

富集分析 GO/KEGG 基因集 功能集 常用工具 :DAVID,agriGO, GSEA,IPA,clusterProfiler GSEA 原理 Subramanian, A. (2005) PNAS 表达量 - 样本相关性排序, 功能基因集分布, 计算富集得分 超几何分布 Fisher 精确检验 特定功能集 S 不属于功能集 S 总基因数 目标基因 x k-x k 背景基因 M N-M N 18

共表达网络 不同样本表达模式相似的基因功能应该也类似 根据表达量计算相关性矩阵, 构建共表达网络 基因集 相互作用 基因网络 无标度网络 Interaction, 相关性系数 : Pearson,Spearman WGCNA 权重基因共表达网络分析 核心基因 (Hub genes) MCODE 网络模块挖掘 ( 子网络 ) CytoScape 网络可视化 19

验证试验 相关性 PCR, 凝胶电泳 基因敲除, 敲减, 过表达 因果关系 20

拓展 全长转录本 ( 三代测序 ) 单细胞测序 (single cell) 技术革新 多组学整合 : 基因组, 表观组, 蛋白组, 代谢组, 表型组 非编码 :lncrna,circrna 表观转录组 :m 6 A 修饰 整合应用 21

操作实践 核心分析 转录组核心数据分析在 linux 系统中完成 ( 内存 时间 ), 具体步骤可参考 生物信息学 第 3 版书籍及视频教程 表达量矩阵 : 基因 X 样本 22

操作实践 统计分析及可视化 1. 软件安装 2. 差异分析 3. 聚类分析 4. 功能富集 23

软件安装 http://www.bioconductor.org/ DESeq2( 差异表达分析 ) ggplot2( 作图 ) pheatmap( 聚类可视化 ) CRAN # 从 cran 安装 pheatmap,ggplot2 choosecranmirror() install.packages( pheatmap ) library(pheatmap) install.packages( ggplot2 ) library(ggplot2) # 从 bioconductor 安装 DESeq2 choosebiocmirror() #China Anhui source("http://www.bioconductor.org/bioclite.r") bioclite("deseq2") library(deseq2) 24

差异分析 # 数据预处理 setwd( F:/rnaseq/data ) # 设置工作目录 ( 根据自己存放数据的目录修改 ) library(deseq2) # 载入 DESeq2 包 #reads 计数数据表操作 counttable <- read.table("count.txt", sep = "\t", header = FALSE) # 读入 reads 计数矩阵 tail(counttable) # 查看数据表最后的 小尾巴 counttable <- counttable[- c(33611:33615), ] # 去除描述行 rownames(counttable) <- counttable$v1 # 将基因 ID 设置为行名 counttable <- counttable[, - 1] # 删除基因 ID 列 colnames(counttable) <- c("srr3418005", "SRR3418006", "SRR3418019", "SRR3418020") # 更改数据表列名 counttable <- counttable[- which(rowsums(counttable) < 4), ] # 过滤 count 总数小于 4 的基因 nrow(counttable) # 查看数据表行数 ( 基因个数 ) tail(countable) # 查看修改后的数据表末尾六行 # 设置样本处理信息 ( 实验 vs. 对照 ) coldata <- data.frame(row.names = colnames(counttable), condition = c("aba", "mock", "ABA", "mock")) 25

差异分析 #DESeq2 操作 # 生成 DESeqDataSet 数据集 dds <- DESeqDataSetFromMatrix(countData = counttable, coldata = coldata, design = ~ condition) dds # 查看数据集 dds$condition # 查看样本处理信息 dds$condition <- relevel(dds$condition, "mock") # 更改 mock 水平 ( 使 DESeq 计算 FoldChange 时 mock 组作为分母 ) dds$condition # 查看更改水平后的样本处理信息 dds <- DESeq(dds) # 差异表达计算 res <- results(dds) # 生成差异表达结果 summary(res) # 查看总结信息 ( 表达上调, 下调等 ) resordered <- res[order(res$padj), ] # 按照校准后 p 值排序 write.csv(resordered, "DESeq2_results_all.csv") # 将差异表达分析结果输出到 csv 文件 deg <- subset(resordered, padj <= 0.01 & abs(log2foldchange) >= 2) # 筛选显著差异表达基因 (padj 小于 0.01 且 FoldChange 绝对值大于 4) summary(deg) # 查看筛选后的总结信息 write.csv(deg, "DESeq2_results_significant.csv") # 将差异表达显著的结果输出到 csv 文件 26

差异分析 #volcano plot 火山图 setwd("f:/rnaseq/data") library(ggplot2) volcano_data <- read.csv("deseq2_results_all.csv", row.names = "X") # 读入差异表达结果 volcano_data <- na.omit(volcano_data) # 删除含 NA 的行 significant <- as.factor(abs(volcano_data$log2foldchange) >=2 & volcano_data$padj <= 0.01) # 设置显著性阈值 ggplot(volcano_data, aes(x = log2foldchange, y = - log10(padj))) + geom_point(aes(shape = significant, color = significant)) + xlim(c(-10, 10)) + labs(x = log2foldchange, y = -log10 padj ) + scale_y_continuous(limits = c(0, 20), expand = c(0, 0)) + scale_shape_discrete(labels =c ( no, yes )) + scale_color_discrete(labels = c( no, yes )) #ggplot2 命令 27

聚类分析 #heatmap 聚类热图 setwd("f:/rnaseq/data") library(pheatmap) deseq_results_significant <- read.csv("deseq2_results_significant.csv", row.names = "X") # 读入显著差异表达结果 significant_genes <- rownames(deseq_results_significant) # 提取显著差异基因 fpkm_gtf <- read.table("fpkm.gtf") # 读入 FPKM 注释文件 fpkm_gtf <- fpkm_gtf[-which(fpkm_gtf$v2 == "-" fpkm_gtf$v2 == "."), ] # 删除 Gene ID 未知的行 rownames(fpkm_gtf) <- fpkm_gtf$v2 # 将 Gene ID 设置为行名 fpkm_significant_genes <- fpkm_gtf[significant_genes, 9:12] # 提取显著差异基因的 FPKM 值 colnames(fpkm_significant_genes) <- c("srr3418005", "SRR3418006", "SRR3418019", "SRR3418020") # 设置列名 fpkm_significant_genes <- na.omit(fpkm_significant_genes) # 删除含 NA 值的行 pheatmap(log2(t(fpkm_significant_genes + 1)), show_colnames = FALSE) # 所有差异基因热图 pheatmap(log2(t(fpkm_significant_genes[1:30, ] + 1))) # 差异基因 top30 热图 28

功能富集 DAVID 物种覆盖较全 ; 数据更新慢 agrigo 植物基因富集专用 WEGO 富集结果可视化 clusterprofiler 实时抓取 ; 富集方法全面 ;R 语言 MetaScape 操作简单 ; 可视化效果好 ; 物种较少 29

DAVID 使用 点击开始分析 30

DAVID 使用 第一步 : 导入基因列表 / 文件 第三步 : 基因列表 / 背景 示例文件 第四步 : 提交运行 第二步 : 选择 ID 类型 31

DAVID 使用 选择功能类型 (GO,KEGG) 功能分析 32

DAVID 使用 功能聚类集 富集结果列表 33

MetaScape 使用 上传基因 选择物种 提交运行 34

总结 什么是转录组学? RNA-seq 的研究内容? 如何分析 RNA-seq 数据? 35

转录组分析 谢谢! 浙江大学生命科学学院生物信息学实验室 http://bis.zju.edu.cn 36