BMKCloud 长链非编码 RNA 测序分析 平台操作指南 适用于 BMKCloudv3.3 www.biocloud.net 北京百迈客云科技有限公司 咨询邮箱 cloud-support@biomarker.com.cn 版权所有 北京百迈客云科技有限公司 2009-2016
目 录 一 BMKCloud 简介... 1 二 长链非编码 RNA 分析平台... 2 1 基本分析...4 1.1 测序数据导入...4 1.2 综合选项... 6 1.3 基因功能注释...6 1.4 差异表达分析...8 1.5 参数确认... 9 1.6 任务查看... 9 1.7 运行结果... 10 2 mrna 表达量挖掘...12 2.1 已知基因表达量查询... 12 2.2 样品表达基因集维恩图...14 3 mrna 差异基因挖掘...17 3.1 差异表达基因集查询... 17 3.2 差异表达基因集维恩图...20 3.3 基因共表达趋势分析... 22 4 lncrna 鉴定...24 4.1 lncrna 基本信息统计...24 4.2 样品表达 lncrna 维恩图... 25 4.3 lncrna 表达量搜索...26 5 lncrna 差异基因挖掘...29 5.1 差异表达 lncrna 查询...29 5.2 差异表达 lncrna 维恩图... 31 5.3 lncrna 共表达趋势分析... 33 6 lncrna 靶基因挖掘...35 6.1 Cis-靶基因挖掘...35 6.2 Trans-靶基因挖掘...36 三 长链非编码 RNA 分析平台基因挖掘展示...39
一 BMKCloud 简介 BMKCloud 是由北京百迈客生物科技有限公司开发 国内创新研发的集生 物信息分析软件与数据库为一体的生物大数据信息分析平台 涵盖一键式标准 分析与多样性个性化分析 能够协助您全方位深入解读生物大数据 推进科研 进展 同时 BMKCloud 还提供高级的 Linux 终端页面和 Restful API 让生物 信息专家也能在这个平台上进行学习和二次开发 该平台具有高速 高效 安全 稳定等特点 使用简单 界面友好 让不 具备信息分析专业知识的您也能完成整套生物信息分析 平台提供优质的视频 教程以及客服服务 能够即时在线的解决您问题 1
二 长链非编码 RNA 分析平台 BMKCloud 长链非编码 RNA 分析平台 以下简称 lncrna 分析平台 适用 于长链非编码 RNA 测序数据的分析 由开始入门 版本更新日志 基本分 析 mrna 表达量挖掘 mrna 差异基因挖掘 lncrna 鉴定 lncrna 差异基 因挖掘和 lncrna 靶基因挖掘八个部分构成 如图 1 图1 开始入门是对 lncrna 分析平台操作使用的说明 通过查看 开始入门 您 可以轻松掌握 lncrna 分析平台的使用方法 基本分析是依据公司多年来进行生物信息分析的经验 集成了一类生物信 息分析所要用到的多个软件 并让这些软件串联起来 形成一个标准化的分析 流程 基本分析允许您自定义分析参数 以新一代高通量转录组测序 RNASeq 数据作为输入 选择参考基因组以及基因注释库 在已有的基因注释水平 上预测新的 lncrna 并对 mrna 和 lncrna 做下游分析 基本分析内容包 括 测序数据质量评估 lncrna 与参考基因组序列比对 基因结构分析 新基 因分析 基因表达量分析 差异表达分析 差异表达基因功能注释和富集分 析 转录本拼接 lncrna 预测及筛选 差异 lncrna 表达分析 新 lncrna 靶 基因预测等 基本分析和常规交由公司进行数据处理分析得到的结果一致 以 分析报告的形式展示 可以随时查看 自由下载 mrna 表达量挖掘 mrna 差异基因挖掘 lncrna 鉴定 lncrna 差异基 因挖掘和 lncrna 靶基因挖掘是 lncrna 分析平台的个性化分析部分 基于基 2
本分析的结果 利用个性化分析可以实现样品间共有 特有基因的挖掘及功能 注释 目标性状功能基因挖掘 特定基因家族基因的挖掘 基因共表达趋势分 析 lncrna 鉴定及和 mrna 的比较 样品间共有 特有 lncrna 的挖掘 lncrna 共表达趋势分析 lncrna 靶基因 WGCNA 分析 该部分是基于百迈客 公司 6 年来数千个 lncrna 项目个性化分析需求开发而成 可以满足绝大多数 科研用户的个性化分析需求 3
1 基本分析 lncrna 分析平台基本分析集成了一类生物信息分析所要用到的多个软件 并让这些软件串联起来 形成一个标准化的分析流程 导入测序原始数据后便 可自动运行分析流程 输出分析报告 在基本分析中您可以根据研究需求自由 定义各步骤的主要参数 如差异分组 差异基因筛选标准等 1.1 测序数据导入 导入数据前 需要确定您的数据已经上传到了云平台上 您可以通过如下 操作 查看您的账户目录下是否已经有了您的数据 在 首页 我的数据 里首先找到您的测序数据存放的文件夹 确定 数据上传到云平台后您可进行以下操作 1.1.1 原始数据导入 首 先 您 需要 导入您 的 原 始数 据 目前 我们 的 lncrna 分析 平台只 支 持 FASTQ 格式的两个及以上的真核 Illumina 双端 RNA-Seq 数据 点击 基本分析 测序数据导入 对话框界面如图 2 图2 测序数据导入支持 文件夹导入 导入和 文件导入 两种数据导入方 式 4
文件夹导入 导入需要分析测序双端 fastq 数据所在的文件夹 系统会自 动识别文件后缀为 1.fq 和 2.fq 的双端测序数据 并列在样品信息中 文件导入 导入需要分析的双端测序 fastq 数据文件中的一个 如果该目 录下存在同样样品的另一个 fastq 数据文件且双端测序 fastq 文件以 1.fq 和 2.fq 为后缀 系统会自动识别该样品的数据并列在样品信息中 如果不符合上 述情况则需要在 导入文件 fq2 中导入另外一个 fastq 文件 以数据文件夹导入方式为例 介绍原始数据导入的具体步骤 点击数据文件夹下的对话框打开 根目录 选择需要导入的测序数据文 件 这里既可以选择每个样品的一对 FASTQ 格式文件 命名必须以 _1.fq 和 _2.fq 结尾方可被系统识别 也可选择包含多个样品测序数据的整个文件 夹 选定目标文件后点击 确定 后 对话框界面如图 3 图3 对话框中样品信息部分显示的是以导入的原始数据的信息 第一列输入框 为对应测序数据的样品编号 系统会根据导入的文件名给测序样品自动编号 您也可以根据自己的需求自定义样品名称 您的样品再也不局限于被命名为 T1~Tn 让最终结果的辨识度更高 第二列和第三列为对应样品的双端数据文 件信息 为了分析的可行性和有效性 样品编号必须保证唯一 并且只能包含字母 和数字 以字母开头 不超过 7 个字符 修改完样品编号 核查样品是否导入 完整之后 点击 下一步 按钮完成测序数据导入 进入综合选项页面 5
注 1. 确保要导入的数据已上传至云平台 2. 确保导入数据文件是非压缩文件 3. 确保导入的数据是 Illumina 测序平台的双端 Fastq 格式数据 4. 确保导入序列是去除接头序列 低质量碱基序列的 clean data 1.2 综合选项 综合选项部分 主要是设定 流程版本 项目名称 及 物种名称 流程 版本 目前设定 2 个 推荐您使用 v2.0 版本 项目名称 会以标题的形式显示在 分析报告上 可根据您的研究方向等自行修改 物种名称 物种名称也只能包 含字母和数字 以字母开头 建议使用物种英文名或拉丁文名 不宜过长 物 种名称与部分分析结果文件名以及文件内容 图表展示内容相关联 对于测序 数据的格式选择也有多种情况 目前 Illumina 下机数据一般选择 Qphred 33 但偶尔还会遇到 Qphred 64 根据测序数据的情况在 Qphred 选项框中选择相应 的 选 项 lncrna 的建 库 方 式 一 般为链 特异 性 建 库 在 Lib_type 中选 择 frfirststrand 对话框如图 4 图4 1.3 基因功能注释 基因功能注释 板块包括参考物种选择和注释物种选择两个内容 操作界 面如图 5 6
图5 1.3.1 参考物种 参考基因组模块是必选项 您可根据自己项目的物种选择相应的参考基因 组 于后期 Tophat 的 reads 比对及 cufflinks 的表达定量 目前云平台内有 82 个 参考基因组 每个参考基因组都会有一个与之对应的基因 gff3 注释文件 部分 基因组下有两个版本的注释文件 根据您自己的需要自行选择合适的版本 1.3.2 注释物种 长 链非 编 码 RNA 测 序分 析 平台 将 使 用 NR Swiss-Prot GO COG KOG KEGG 6 个数据库对已知基因或者 lncrna 靶基因进行功能注释 其中 NR Swiss-Prot KEGG 等数据库根据物种分类标准对其蛋白质序列进行拆 分 在进行分析时 为了提高注释分析效率 主要是缩短序列比对时间 以及 获得有效的注释信息 我们通常采用拆分后的子数据库进行序列比对 从进化 角度来说 物种关系越近 彼此之间同源序列越多 且它们的相似性越高 因 此在选择注释物种时 应尽量选择包含目的物种的最确切的数据库 参考物种和注释物种选定后点击 下一步 就进入到 差异表达分析 参数设 置模块 如果想对前面的参数进行修改 点击 上一步 即可 7
1.4 差异表达分析 差异表达分析 参数设置模块包括差异表达分析 FDR 差异筛选倍数阈 值设定及差异分组选择三个部分 差 异 表 达 分 析 是 一 个 多 重 假 设 检 验 过 程 除 了 差 异 筛 选 倍 数 Fold Change 差异表达分析还给出每个基因多重假设检验的显著性打分 通过对 这两个指标设定阈值即可筛选出差异表达基因 相应的阈值为 差异筛选倍数 Fold Change 和 错误发现率 False Discovery Rate FDR 阈值的设定 决定了最终筛选到的差异表达基因及其数目 FDR 越小 差异筛选倍数阈值越 大 表示筛选条件越严格 筛选到的差异表达基因越少 反之亦然 推荐 FDR 设置为 0.05 可简单理解为筛选出的差异基因中 假阳性率小于 5% 一般差异 筛选倍数设置为 2 即基因在不同样品中的表达水平相差一倍 操作页面如图 6 图6 设置差异表达基因的筛选标准后 需要确定差异表达分析分组 在对话框 中 选择需要比较的对照和实验样品 这里对照表示对照样品 野生型样品或 前一个时间点样品 实验表示对应的处理样品 突变型样品或后一个时间点样 品 每个条件可选择一个或多个样品 生物学重复 然后点击 添加 按 钮 即可添加到差异分组列表中 差异分组列表可包含多组 原则上 设立生 物学重复的实验才在同一条件下选择多个样品 否则会得到无效的分析结果 确认无误后 请点击 确定 按钮 差异分组选择完成 8
在分析结果中 使用 A_vs_B 的方式命名差异表达基因集 如 T1_vs_T2 或 T1_T2_vs_T3_T4 等 根据两 组 样品之间表达水平的相对高低 差异表 达基因可以划分为上调基因 Up-regulated Gene 和下调基因 Down-regulated Gene 上调基因即在样品 组 B 中的表达水平高于样品 组 A 中的表达 水平的基因 反之为下调基因 因此 上调和下调是相对的 由所给 A 和 B 的 顺序决定 若更换 A 和 B 的顺序会完全反过来 但这不会对分析结果产生实质 性的影响 1.5 参数确认 差异表达分析参数设定成功后 点击下一步进入参数确认 对各参数检查 无误后点击 完成 流程提交到百迈客服务器开始运行 任务提交后您浏览 使用云平台其他功能 或者关机 断电等均不会影响流程的正常进行 流程运 行任务状态请查看首页 我的任务 中查看 流程分析通常数天 请您耐心等 待 具体页面如图 7 图7 1.6 任务查看 已提交的任务可在首页 我的任务 中 任务列表 中查看 包括 任务编 号 任务名称 提交时间 预计结束时间 及 任务状态 等信息 任务提 交后 任务状态 一般会有资源 资源准备中 任务运行中 成功 三个阶段 9
资源准备中 这个阶段 后台根据提交任务准备资源 分析流程还没有进行 此时不能进行任务终止操作 运行中 可以点击 查看 按钮查看任务运行状 态 运行日志等 也可以点击 终止 按钮 终止任务的运行 任务运行成功 后 看点击 查看 按钮 查看任务运行结果文件 并可下载结果文件 具体页 面如图 8 图8 一般情况下不建议您同时提交多个主流程任务 这样会影响流程运行速 度 甚至出现数据溢出而导致任务运行进入死循环 如有多个任务需要运行 可待前一个任务运行完成后再提交新的任务 以提高任务运行效率 注 小工具的使用与主流程的运行不冲突 1.7 运行结果 基本分析流程运行完成后 在 首页 点击 我的项目 在项目列表中 找到 对应项目 打开后 点击左侧纵向导航栏 结题报告 可查看基本分析生成的 项目分析报告 如图 9 中间为结题报告 右侧为结题报告目录 点击目录分 析内容的标题 可快速跳转至结题报告中的对应分析结果 结题报告及各类图 形和表格都可以自由下载到本地 项目信息可在右上角 项目详情 中查看 10
图9 点击左侧纵向导航栏 基本分析 可查看该项目基本分析的参数设置如 参考物种 注释物种 差异表达基因筛选标准 差异分组 等 左 侧 纵 向 导 航 栏 的 mrna 表 达 量 挖 掘 mrna 差 异 基 因 挖 掘 lncrna 鉴定 lncrna 差异基因挖掘 lncrna 靶基因挖掘 五个模块是 lncrna 分析平台个性化分析部分 在基本分析的基础上进行 接下来将对 lncrna 分析平台个性化分析部分进行介绍 11
2 mrna 表达量挖掘 mrna 表达量挖掘包含 已知基因表达量查询 和 样品表达基因集维恩图 两个模块 界面展示如图 10 图 10 2.1 已知基因表达量查询 已知基因表达量查询是 lncrna 分析平台个性化分析的一部分 该分析在 基本分析的基础上进行 已知基因表达量查询是您从基本分析大量结果数据中 快速准确的获得感兴趣基因的重要途径 已知基因表达量查询提供 基因 ID 基因 symbol 基因 name 和 基因功能 四种检索方式以供选择 以满足不同 的分析需求 操作页面如图 11 图 11 12
2.1.1 基因信息检索 您可以根据四种不同的搜索类型搜索基因信息 搜索类型包括 (1) 基因 ID 可包含一个或多个基因编号 每行一个编号 用 Enter 键隔 开 可实现目标基因的快速检索及后续的功能分析 查询某些富集程度比较高 的 pathwag 或 GO term 中基因的检索及后续分析 (2) 基因 symbol 基因名称 基因 name 的简称 可根据在 NCBI 上面查询 到的某个基因 根据输入基因 symbol 进行搜索 (3) 基因 name 基因名称 同样可根据在 NCBI 上面查询到的某个基因 根据输入基因 name 进行搜索 一般 NCBI 上面会给出人和小鼠基因 name 植 物只给出基因 symbol 可根据需求自行进行选择 (4) 基因功能 基于基因功能注释信息检索 可以搜索目标性状基因 转 录 因 子 基 因 家 族 目 标 功 能 基 因 等 如 resistances oxidoreductase lipid myb zinc finger domain superfamily HSP70 等 请先选择正确 的搜索类型 再输入搜索内容进行搜索 以功能关键词 HSP70 为例 与 HSP70 相关的基因搜索结果显示如图 12 基因二级搜索栏 图 12 13
搜索结果包括 ⑴基因信息整合栏 包含基因在染色体上的位置 基因长度 和基因在各 样品中的表达量 ⑵作图结果栏 位于搜索结果左下方 对基因在各样品中的 FPKM 值绘制 柱状图 ⑶注释信息栏 位于搜索结果窗口右下方 当点击基因信息整合表中的某 个基因 ID 时 其注释信息将显示在该栏中 基因二级搜索栏 位于搜索结果窗 口上方 输入关键词后可 可对当前搜索到的基因进行注释信息的二级检索 进行搜索结果的进一步细化 点击 下载列表 下载 可本地保存基因信息和图片 2.2 样品表达基因集维恩图 使用该模块 您可设定基因表达丰度 FPKM 阈值筛选各样品中表达的基因 集绘制其维恩图 查看不同样品中共同表达和特异表达的基因 FPKM 值有两个选项 0.1 和 1 默认 1 选择 1 就意味着表达量 FPKM 大于 等 于 1 的 基 因 会 用 来 进 行 表 达 基 因 韦 恩 图 的 绘 制 FPKM Fragments Per Kilobase of transcript per Million Mapped Reads 是每百万 Fragments 中来自比对 到某一基因每千碱基长度的 Fragments 数目 是转录组测序数据分析中常用的 基因表达水平估算方法 FPKM 能消除基因长度和测序量差异对计算基因表达 的影响 计算得到的基因表达量可直接用于比较不同样品间的基因表达差异 在测序数据量 5G 的情况下 对于一个长度为 2Kb 的基因 FPKM 值为 0.1 就 意味着只有 2 个 reads 比对上 因此对于 FPKM 值低于 0.1 的基因表达极低 对 性状的影响极低 因此可忽略不计 如图 13 14
图 13 表达阈值设定好后 需要进行 样品选择 维恩图绘制样品数量需控制在 2-5 个 样品选择后点击确定 最后点击 提交 即可进行韦恩图绘制 在韦恩图 的绘制过程中 可以点击本页面上的其他按钮 打开新的窗口 但是不能 关闭本窗口或退出账号 以致终止维恩图的绘制 维恩图绘制完成后 显示页面如图 14 与已知基因表达量查询页面类似 维恩图上显示的数字表示不同样品间共有或特有基因的个数 点击数字或通过 在浮动的基因数目前打勾可选定基因集 其基因集信息在上方列表显示 如基 因 ID 基因在染色体上的位置及基因在各个样本中的表达量 列表只显示 99 条数据 其余的可通过点击右上方的 列表下载 进行查看 点击基因的 ID 右 下角会显示该条基因的注释信息 基因二级搜索栏 位于搜索结果窗口上方 输入关键词后可 可对当前搜索到的基因进行注释信息的二级检索 进行搜索 结果的进一步细化 15
基因二级搜索栏 图 14 对 选定 的样品 间的特 有或共有 基因 集 可 以绘制 COG KOG GO KEGG 等数据库注释分类图 从而分析样品间共有基因及特有基因的相关功 能 从而辅助您解决相关的生物学问题 如不同胁迫处理的样品 样品间的特 有基因可能会是一些抗性相关基因 病变组织样品与正常组织样品间的特有基 因可能会是一些抗病相关基因 16
3 mrna 差异基因挖掘 mrna 差异基因挖掘是基于流程定制的差异表达基因分析及相关分析结 果 您可根据需求进行差异表达基因的数据挖掘 mrna 差异基因挖掘下包含 差异表达基因集查询 差异表达基因集维恩图 和 基因共表达趋势分析 三 个模块 mrna 差异基因挖掘 界面如图 15 图 15 3.1 差异表达基因集查询 差异表达基因集查询用于显示 流程定制 差异表达分析 基因分组选 择 中定义的差异表达基因集及相关的分析结果 在 差异分组 下拉框选项中选 中特定的差异基因集后 点击 提交 按钮 即可在下面窗口中查看分析结果 您也可只选择差异表达基因集中的上调基因或下调基因 只需在选择特定差异 基因集后 点击选中 只上调 或 只下调 选项 再提交即可 查询结果界面如 图 16 17
基因二级搜索栏 图 16 界 面类似 样品表达基因集维恩图 在其基础上增加了 排序筛选 KEGG 分类图 KEGG 富集图 表达量聚类图 和 样品相关性图 等功能 通过点击 绘制 可显示对差异基因进行的各类分析图 基因集信息在上方列表显示 如基因 ID 基因在染色体上的位置及基因在 各个样本中的表达量 列表只显示 99 条数据 其余的可通过点击右上方的 列 表下载 进行查看 点击基因的 ID 右下角会显示该条基因的注释信息 基因二 级搜索栏 位于搜索结果窗口上方 输入关键词后可 可对当前搜索到的基因 进行注释信息的二级检索 进行搜索结果的进一步细化 排序筛选 您可通过 点击差异表达基因信息整合表栏上方的 排序筛选 功能按钮 对差异表达基因 信息整合表进行排序和筛选 界面如图 17 18
差异越显著的基因排在前面 差异程度越大的上调基因排在最前 面 而差异程度越大的下调基因排 在最后面 差异越大的下调的排在前面 而差 异越大上调的排在后面 图 17 蛋白互作网络 一个基因其表达产物蛋白质的功能行使不是孤立的 蛋 白质与蛋白质是相互关联的 如果蛋白质A和蛋白质B有紧密的相互作用 那么 其功能应该是相似的 蛋白互作分析目前在小鼠 人等模式生物中应用比较广 泛 通过蛋白互作网络分析可以实现致病基因挖掘等研究 通过点击差异表达 基因信息整合表栏上方的 蛋白互作网络 功能按钮 可对选中的差异表达基 因集进行蛋白质互作网络构建 点击 蛋白互作网络 功能按钮之后将打开 蛋白互作网络图 页面 页面显示如图18 图 18 您可根据需求调整蛋白互作网络图 包括设置图面分辨率 调整网络布 19
局 然后点击 提交 即可 通过拖拽互作网络中的节点亦可对网络布局进行 局部调整 下载互作图和互作关系对文件请点击 下载互作图 和 下载数据 文件 按钮 3.2 差异表达基因集维恩图 该模块类似于 样品表达基因集维恩图 不同之处在于 用于绘制维恩 图的基因集是在样品间差异表达基因集 而非通过表达量 FPKM 阈值筛选出的 单个样品中表达的基因集 操作页面如图 19 图 19 绘制维恩图需要选择 2 到 5 组的差异表达基因集 点击 差异分组选择 按钮进行基因集选择 为了图片布局美观 需要对差异表达基因集重命名 默 认命名为 G+数字 您也可自定义 直接在基因集名称前的输入框中键入修 改即可 您也可只选择差异表达基因集中的上调基因或下调基因 只需在选择特定 差异基因集后 点击选中 只上调 或 只下调 选项 再 提交 即可 查询结果 界面如图 20 20
基因二级搜索栏 图 20 界面类似 基因信息检索 维恩图上显示的数字表示不同样品组间共有或 特有基因的个数 点击图片左侧的相应选项进行不同类型图的绘制 点击数字 在维恩图上方可显示其对应的共有或特有基因的基因 ID 及在各个样品中的表达 量 点击 下载 和 列表下载 对图片和基因列表进行本地保存 点击基因的 ID 右边会显示该条基因的注释信息 基因二级搜索栏 位于搜索结果窗口上 方 输入关键词后可 可对当前搜索到的基因进行注释信息的二级检索 进行 搜索结果的进一步细化 点击 蛋白互做网络 可进行网络图的绘制 如图 21 图 21 21
3.3 基因共表达趋势分析 基因共表达趋势分析模块可识别差异表达基因的共表达模式 common expression patterns 该分析适用于 2 个以上的按照时间序列 处理时间 剂 量 疾病恶化程度顺序等设计的梯度实验样本 如不同发育时期 不同处理时 间等 分析随时间推移基因表达丰度的不同变化模式 将相同表达趋势的基因 划分成一个基因集 并对该基因集做表达模式图 可精确 直观地筛选出随样 本顺序变化影响最显著 最主流的基因群 筛选得到显著性的基因表达趋势 在划分共表达基因集之前需要根据表达模式对差异表达基因进行模式聚 类 您可选择两种聚类方式 K 均值聚类 和 层次聚类 之一进行聚类 K 均值聚类将基因聚成 K 个类 K 值需要通过填写参数 K 值 指定 可填写 2 以上的整数 层次聚类是基于表达模式相似性将基因组织成一棵树 相似的基 因位于一个树枝上 相似度越高构成的子树枝越短 可将聚类树按树高切割成 指定数目的子树 也可按一个指定的树高比例切割数目 二者通过填写 子数 数目 可填写 2 以上的整数 或 切树比例 可填写 0 到 100 之间的整 数 来实现 切树比例越小 得到的基因簇数目越多 每个簇的基因数目越 少 反之亦然 相对于 K-means 的聚类 层次聚类的计算量比较大 效率比较低 因此在 数据量大或者对聚类结果要求不是太高的情况下 可以采用 K-means 算法来计 算 对于 K-means 的聚类 K 值的选择非常重要 您如果选择了不正确的聚类 数目 会使得本应同一个 cluster 的数据被判定为属于两个大的类别 在 K 值选 择时可以多试几个初始值 图 22 是 4 个样品的演示项目选择 K 均值聚类 方法 设置 K 值 为 3 的基 因共表达趋势分析结果窗口 22
基因二级搜索栏 图 22 窗口界面类似 基因信息检索 不同之处在于作图结果栏中放置共表达 基因表达量趋势图 该趋势图中横轴表示按时间排序的样品 纵轴为中心化的 基因表达量对数值 点击不同的表达量趋势图 左上方的基因信息整合表亦随 之改变 点击 下载 和 列表下载 对图片和基因列表进行本地保存 点击 基因的 ID 右边会显示该条基因的注释信息 基因二级搜索栏 位于搜索结果 窗口上方 输入关键词后可 可对当前搜索到的基因进行注释信息的二级检 索 进行搜索结果的进一步细化 23
4 lncrna 鉴定 lncrna 鉴定是基于基 本分析的基 础上 针对通过 lncrna 预测得到的 lncrna 进行 lncrna 的数据挖掘 包含 lncrna 基本信息统计 样品表达 lncrna 维恩图 和 lncrna 表达量搜索 三个模块 界面如图 23 图 23 4.1 lncrna 基本信息统计 通过该模块 您可以查看 lncrna 按照不同条件筛选出的的统计结果 左 边显示筛选结果 包括编码能力预测维恩图 lncrna 分类图 lncrna 染色体 分类图 lncrna 长度分布图 lncrna ORF 长度分布和 lncrna 外显子数分 布 右边显示 mrna 对照 包括 mrna 染色体分布图 mrna 长度分布图 mrna ORF 长度分布和 mrna 外显子分布 界面显示如图 24 图 24 24
4.2 样品表达 lncrna 维恩图 该模块类似于 mrna 表达量挖掘 中的 样品表达基因集维恩图模块 使 用该模块 您可设定基因表达丰度 FPKM 阈值筛选各样品中表达的 lncrna 绘 制其维恩图 查看不同样品中共同表达和特异表达的 lncrna FKPM 值介绍如 2.2 操作页面如图 25 图 25 表达阈值设定好后 需要进行 样品选择 维恩图绘制样品数量需控制在 2-5 个 样品选择后点确定 最后点击 提交 即可进行维恩图绘制 在维恩图的 绘制过程中 可以点击本页面上的其他按钮 打开新的窗口 但是不能关闭本 窗口或退出账号 以致终止维恩图的绘制 维恩图绘制完成后 显示页面图 26 与基因挖掘页面类似 维恩图上显示 的数字表示不同样品间共有或特有 lncrna 的个数 点击数字或通过在浮动的 数 目 前打 勾 可 选 定 lncrna 集 其信 息 在 上 方 列 表 显 示 如 lncrna ID lncrna 的位置 lncrna 长度及 lncrna 在各样品中的表达量 因页面大小有 限 列表中只显示了 99 个 lncrna 点击右上方的 列表下载 可会选择的共 有或特有 lncrna 集进行下载 图片通过点击 下载 进行本地保存 25
图 26 通过点击图片左侧图片类型并点击 绘图 对选定的样品间的特有或共有 lncrna 集对应的靶基因重新绘制 COG 分类图 KOG 分类图 GO 分类图和 KEGG 通路图 如图 27 如研究患病病人和正常人 研究患病病人中特有的 lncrna 可能会存在患病基因的 lncrna 图 27 4.3 lncrna 表达量搜索 使用该模块可对 lncrna 进行搜索 从大量 lncrna 中快速准确地获得感 兴趣的 lncrna lncrna 表达量搜索提供俩种搜索类型 分别为转录 ID 和坐 26
标 可以同时进行多个 lncrna 的搜索 以 Enter 隔开 该部分搜素内容是针对 所有预测出的转录物 不仅包含筛选得到的 lncrna 也包含其他被筛选掉的转 录 ID 搜索界面如图 28 图 28 请先选择正确的搜索类型 再输入搜索内容进行搜索 以转录 ID TCONS_00030318 TCONS_00022035 TCONS_00021411 为例 界面显示如图 29 图 29 搜索结果包括 27 TCONS_00012239
(1) lncrna 信息整合栏 包含 lncrna 在各样品中的表达量 lncrna 长 度 lncrna 在染色体上的位置 可通过点击 列表下载 对该列表进行下载 (2) 作图结果栏 位于搜索结果窗口左下方 根据搜索出来的 lncrna 在各 样本中 FPKM 值绘制的柱状图 点击 下载 进行本地保存 28
5 lncrna 差异基因挖掘 lncrna 差异基因挖掘是基于流程定制的 lncrna 差异表达基因分析及相关 分析结果 您可根据需求进行差异表达 lncrna 的数据挖掘 差异基因挖掘下 包含 差异表达 lncrna 查询 差异表达 lncrna 维恩图 和 lncrna 共表达趋 势分析 三个模块 lncrna 差异基因挖掘 界面如图 30 图 30 5.1 差异表达 lncrna 查询 差异表达 lncrna 查询用于显示 流程定制 差异表达分析 基因分组 选择 中定义的差异表达 lncrna 及相关的分析结果 在 差异分组 下拉框选项 中选中特定的差异分组列表后 点击 提交 按钮 即可在下面窗口中查看分析 结果 您也可只选择差异表达 lncrna 中的上调表达或下调表达 只需在选择 特定差异 lncrna 后 点击选中 只上调 或 只下调 选项 再提交即可 查询 结果界面如图 31 29
图 31 界面类似 mrna 差异基因挖掘 通过点击图片左侧图片类型并点击 绘 图 对选定的样品间的差异分组中差异表达的 lncrna 的靶基因绘制 COG 分类 图 KOG 分类图 GO 分类图 KEGG 分类图 KEGG 富集图 KEGG 通路 图 样品相关性图 点击 列表下载 可对该列表进行下载 排序筛选 您可通过点击差异表达 lncrna 信息整合栏上方的 排序筛选 功能按钮 对差异表达 lncrna 信息整合表进行排序和筛选 界面如图 32 差异越显著的 lncrna 排在前面 差异程度越大的上调 lncrna 排在 最前面 而差异程度越大的下调 lncrna 排在最后面 差异越大的下调的排在前面 而差 异越大上调的排在后面 图 32 蛋白互做网络图 通过点击差异表达 lncrna 信息整合栏上方的 蛋白互做 30
网络图 功能按钮 对差异表达 lncrna 靶基因对应蛋白的互做关系进行绘图 界面如图 33 所示 图 33 您可根据需求调整蛋白互作网络图 包括设置图面分辨率 调整网络布 局 然后点击 提交 即可 通过拖拽互作网络中的节点亦可对网络布局进行 局部调整 下载互作图和互作关系对文件请点击 下载互作图 和 下载数据 文件 按钮 5.2 差异表达 lncrna 维恩图 该模块类似于 样品表达基因集维恩图 不同之处在于 用于绘制维恩图 的基因集是在分组间差异表达 lncrna 而非通过表达量 FPKM 阈值筛选出的 单个样品中表达的 lncrna 操作页面如图 34 31
图 34 绘制维恩图需要选择 2 到 5 组的差异表达 lncrna 点击 差异分组选择 按钮进行 lncrna 选择 为了图片布局美观 需要对差异表达 lncrna 重命 名 默认命名成 G+数字 您也可自定义 直接在基因集名称前的输入框中 键入修改即可 您也可只选择差异表达基因集中的上调基因或下调基因 只需在选择特定 差异基因集后 点击选中 只上调 或 只下调 选项 再 提交 即可 查询结果 界面如图 35 图 35 该模块类似于 差异表达基因集维恩图 维恩图上显示的数字是分组间共 有和特有的差异表达 lncrna 点击数字或通过在浮动的基因数目前打勾可选定 lncrna 其 lncrna 信息在上方列表显示 包含 lncrna 的长度 在染色体上 32
的位置及 lncrna 在各样本中的 FPKM 值 点击 列表下载 可对该列表进行下 载 蛋白互做网络图 通过点击差异表达 lncrna 信息整合栏上方的 蛋白互做 网络图 功能按钮 对差异表达 lncrna 靶基因对应蛋白的互做关系进行绘图 界面如图 36 所示 图 36 您可根据需求调整蛋白互作网络图 包括设置图面分辨率 调整网络布 局 然后点击 提交 即可 通过拖拽互作网络中的节点亦可对网络布局进行 局部调整 下载互作图和互作关系对文件请点击 下载互作图 和 下载数据 文件 按钮 点击图片左侧相应选项并点击 绘制 完成对选定的分组间共有或特有的 lncrna 集靶基因的 COG 分类图 KOG 分类图 GO 分类图和 KEGG 通路图的 分析 点击 下载 进行图片的本地保存 分析分组间共有或特有的 lncrna 及其靶基因形式的功能 可帮助您进行深入的数据挖掘 5.3 lncrna 共表达趋势分析 该模块类似于 mrna 差异基因挖掘 中的 基因共表达趋势分析 图 37 是 4 个样品的演示项目选择 K 均值聚类 方法 设置 K 值 为 3 的 33
lncrna 共表达趋势分析结果窗口 基因二级搜索栏 图 37 窗口界面类似 基因信息检索 不同之处在于作图结果栏中放置共表达基 因表达量趋势图 该趋势图中横轴表示按时间排序的样品 纵轴为中心化的基 因表达量对数值 点击不同的表达量趋势图 左上方的基因信息整合表亦随之 改变 点击 下载 和 列表下载 讲图片和列表进行本地保存 34
6 lncrna 靶基因挖掘 lncrna 靶基因挖掘是基于基因分析中 lncrna 靶基因预测部分 针对 Cis靶基因预测和 Trans-靶基因预测的结果 进行进一步分析 lncrna 靶基因挖掘 包含 Cis-靶基因挖掘 和 Trans-靶基因挖掘 俩个模块 界面如图 38 图 38 6.1 Cis-靶基因挖掘 Cis- 靶 基 因 预 测 主 要 根 据 lncrna 与 mrna 的 位 置 关 系预 测 lncrna 100kb 范围内的邻近基因为其靶基因 使用该模块 您可以选择搜索类型有靶 基因 ID lncrna ID 两种 您可依据所选搜索类型在右边空白处填写查询内 容 多项查询用 Enter 键分隔 操作页面如图 39 图 39 以靶基因 ID 为例 在搜索框中输入靶基因 ID 点击搜索 若不输入任何 35
内容可直接搜索全部内容 搜索结果如图 40 图 40 搜索界面包括 信息检索栏 作图结果栏 和 注释信息栏 三部分内容 信息检索栏是 lncrna 和对应的靶基因 ID 点击靶基因 ID 右下方会显示其注 释信息 点击 列表下载 可对该列表进行下载 同时点击 绘制 可对搜索出来 的靶基因特异绘制 COG 分类图 KOG 分类图 GO 分类图和 KEGG 通路图 点击 下载 可进行本地保存 6.2 Trans-靶基因挖掘 Trans 靶基因预测是指不为基因位置所限制的基因间相互作用关系 是预测 lncrna 与已知基因间的相互作用关系的重要方式 lncrna 分析平台提供 WGCNA 分析方法进行靶基因挖掘,将已知基因 新 基因 新 lncrna 合并进行共表达分析 该模块包含 WGCNA 分析结果查看 和共表达 Module 查询 俩部分分析内容 36
6.2.1 WGCNA 分析结果查看 您可通过点击 WGCNA 分析结果查看 查看 WGCNA 分析结果图 我们 给出的结果包括样本聚类结果 PCA 结果 样本间相关性结果 Module 分布 图 Module 基因间相关性 Module 聚类及相关性 Module 与样本关联结果 Module 基因聚类与样本关联 操作界面图 41 图 41 6.2.2 共表达 Module 查询 使用该界面 您可选择不同的模块 这里根据项目分析结果有若干个颜色 模块 比如 green brown yellow 等 选项 这里会出现两个相应模块 内的结果 Module membership vs. gene significance 与 Module heatmap 选择 pink 点击 共表达 Module 查询 得到如图 42 所示界面 37
图 42 38
三 长链非编码 RNA 分析平台基因挖掘展示 分析内容 实际应用 分析方法 基因功能挖掘 转 筛选抗性相关基因 某蛋白家族基因 某些 录因子 蛋白家族 转录因子等 等 见 2.1 基因 ID 挖掘 查询某些富集程度比较高的 pathwag 或 GO term 中特定基因 见 2.1 基因 symbol 和基 因 name 挖掘 查询文献中已有报道的基因或是在 NCBI 中 查询到的特定基因 见 2.1 样品间共有及特有 表达基因挖掘 样品间共有及特有 基因功能注释 样品间特有及共有 差异表达基因挖掘 样品间特有及共有 差异表达基因功能 注释 样品间特有及共有 差异表达基因富集 分析 目标差异组合样品 间特有及共有差异 基因挖掘 目标差异组合样品 间特有及共有差异 基因功能注释 对筛选到的差异表 达基因进行排序筛 选 显著性差异表 达基因挖掘 应用于不同组织器官特异表达基因挖掘 不 同发育时期特异表达基因挖掘 不同处理特 异表达基因挖掘 不同品种样品特异表达基 因挖掘 对上述特异表达基因进行功能注释 COG KOG GO KEGG,可选择性分析特定功能 如与性状相关 的基因 不同组织器官特异差异表达基因挖掘 不同 发育时期特异差异表达基因挖掘 不同处理 特异差异表达基因挖掘 不同品种样品特异 差异表达基因挖掘 对上述特异差异表达基因进行功能注释 COG KOG GO KEGG,可选择性分析 特定功能 如与性状相关 的差异基因 这 些基因基本就是决定性状差异的相关基因 不同样品间差异表达基因分析有时会筛选出 比较多的差异表达基因 如何从这些差异表 达 基 因 中筛选 出与 性 状 最为相 关 的一 些基 因 通过富集分析中富集程度最明显的基因 往往是与性状最为相关的基因 以样品间差异表达基因集为单位进行维恩图 绘制 从而筛选特有及共有差异表达基因挖 掘 见 2.2 见 2.2 见 3.1 见 3.1 见 3.1 见 3.2 对上述特异及共有差异表达基因进行功能注 见 3.2 释 对差异表达基因根据 FDR FC 进行排序 重 见 3.1 新设置 FDR 和 FC 进行差异基因筛选 39
基因共表达趋势分 析 -K 均 值 聚 类 层次聚类 lncrna 基本信息 统计 样品间共有及特有 表达 lncrna 挖掘 样品间共有及特有 lncrna 靶基 因 功 能注释 该分析适用于 2 个以上的按照时间序列 处 理时间 剂量 疾病恶化程度顺序等设计的 梯度实验样本 如不同发育时期 不同处理 时间等 分析随时间推移基因表达丰度的不 同变化模式 将相同表达趋势的基因划分成 一个基因集 并对该基因集做表达模式图 可精确 直观地筛选出随样本顺序变化影响 最显著 最主流的基因群 筛选得到显著性 的基因表达趋势 对根据四步筛选得到的 lncrna 进行长度 外显子个数 分类 ORF 长度 在染色体上 的长度及编码能力预测进行统计并给出 mrna 对照 应用于不同组织器官特异表达 lncrna 挖 掘 不同发育时期特异表达 lncrna 挖掘 不同处理特异表达 lncrna 挖掘 不同品种 样品特异表达 lncrna 挖掘 对上述特异表达的 lncrna 靶基因进行功能 注释 COG KOG GO KEGG,可选择性 分析影响特定功能 如与性状相关 的 lncrna 的靶基因 根据转录 ID 和坐标俩种方式对挖掘样本中 样品间 lncrna 表 lncrna 的表达情况 应用于不同组织器官 达量搜索 不同发育时期 不同处理等实验条件下 见 3.3 见 4.1 见 4.2 见 4.2 见 4.3 不同组织器官特异差异表达 lncrna 挖掘 样品间特有及共有 不同发育时期特异差异表达 lncrna 挖掘 差 异 表达 lncrna 见 5.1 不同处理特异差异表达 lncrna 挖掘 不同 挖掘 品种样品特异差异表达 lncrna 挖掘 对上述特异差异表达 lncrna 的靶基因进行 样品间特有及共有 功能注释 COG KOG GO KEGG,可选 差 异 表达 lncrna 择性分析特定功能 如与性状相关 的差异 见 5.1 靶基因功能注释 lncrna 的靶基因 这些 lncrna 的靶基因基 本就是决定性状差异的相关基因 对筛选到的差异表 达 lncrna 进行排 对 差异表 达 lncrna 根据 FDR FC 进行 排 序筛选 显著性差 序 重新设置 FDR 和 FC 进行差异 lncrna 见 5.1 异表达 lncrna 挖 筛选 掘 目标差异组合样品 以样品间差异表达 lncrna 集为单位进行维 间特有及共有差异 恩 图 绘 制 从 而筛 选 特 有及共 有 差异 表达 见 5.2 lncrna 挖掘 lncrna 挖掘 40
目标差异组合样品 对上述特异及共有差异表达 lncrna 进行功 间特有及共有差异 见 5.2 能注释 lncrna 功能注释 该分析适用于 2 个以上的按照时间序列 处 理时间 剂量 疾病恶化程度顺序等设计的 梯度实验样本 如不同发育时期 不同处理 lncrna 共表 达 趋 时间等 分析随时间推移基因表达丰度的不 势 分 析 -K 均 值 聚 同变化模式 将相同表达趋势的 lncrna 划 见 5.3 类 层次聚类 分成一个 lncrna 集 并对该 lncrna 集做表 达模式图 可精确 直观地筛选出随样本顺 序变化影响最显著 最主流的 lncrna 群 筛选得到显著性的 lncrna 表达趋势 Cis-靶基因挖掘 根据 lncrna ID 和靶基因 ID 俩种搜索方式对 靶基因进行搜索 见 6.1 Cis-靶基因功能注 释 对上述搜索到的靶基因进行功能注释 COG KOG GO 和 KEGG 见 6.1 Trans-靶基因挖 掘 WGCNA 分 析结果查看 采用 WGCNA 分析方法 使用于 4 个以上的 样本进行分析 将差异表达的 lncrna 靶基 因按照表达模式分为不同的部落 重点研究 和样本相关性强的部落 简化分析时间和精 见 6.2 力 包含样本聚类结果 PCA 结果 样本间 相关性结果 Module 分布图 Module 基因间 相关性 Module 聚类及相关性 Module 与样 本关联结果和 Module 基因聚类与样本关联 共表达 Module 查 询 可查看某一部落中基因的表达情况 41 见 6.2