利用 Oracle Big Data Connectors 将 Hadoop 与 Oracle 集成 罗海雄甲骨文公司资深技术顾问 1 Copyright 2011, Oracle and/or its affiliates. All rights
以下内容旨在概述产品的总体发展方向 该内容仅供参考, 不可纳入任何合同 该内容不构成提供任何材料 代码或功能的承诺, 并且不应该作为制定购买决策的依据 所描述的有关 Oracle 产品的任何特性或功能的开发 发布和时间安排均由 Oracle 自行决定 2 Copyright 2011, Oracle and/or its affiliates. All rights
Oracle 大数据连接器 Oracle Hadoop 装载器 Oracle HDFS 直接连接器 Oracle Data Integrator Hadoop 应用适配器 Oracle R Hadoop 连接器 3 Copyright 2011, Oracle and/or its affiliates. All rights
软硬一体优化集成的 Oracle 大数据综合解决方案 Oracle Big Data Appliance Oracle Exadata Oracle Exalytics InfiniBand InfiniBand 捕获组织分析 决策 4 Copyright 2011, Oracle and/or its affiliates. All rights
Oracle Hadoop 装载器 一个用于装载数据到 Oracle 数据库的最优化的 Map/Reduce 工具 在 Hadoop 上预先完成分区 排序, 数据转换成 Oracle 可读格式, 再进行装载 可选择在线或者离线装载的不同选项 5 Copyright 2011, Oracle and/or its affiliates. All rights
Oracle Hadoop 装载器 : 示意图 输入 1 ORACLE Hadoop 装载器 SHUFFLE /SORT SHUFFLE /SORT 数据库 输入 2 SHUFFLE /SORT SHUFFLE /SORT SHUFFLE /SORT 6 Copyright 2011, Oracle and/or its affiliates. All rights
Oracle Hadoop 装载器 : 在线装载 1. 从数据库中读取目标表的表定义 ORACLE Hadoop 装载器 3. 通过 JDBC/OCI 驱动, 从 reducer 节点连接到数据库, 进行并行装载 SHUFFLE /SORT 2. 读取数据, 并进行分区, 排序, 格式转换 SHUFFLE /SORT 7 Copyright 2011, Oracle and/or its affiliates. All rights
Oracle Hadoop 装载器 : 离线装载 1. 读取目标表的表定义 4. 将生成的文件拷贝到数据库服务器 5. 通过外部表, 在数据库空闲时段进行并行的数据装载 SHUFFLE /SORT 2. 读取数据, 并进行分区, 排序, 格式转换 3. 在 reducer 节点生成 Oracle DataPump 格式文件 4.1 通过 Oracle HDFS 直接连接器访问 SHUFFLE /SORT 8 Copyright 2011, Oracle and/or its affiliates. All rights
Oracle Hadoop 装载器 : 优势 相比起 SQOOP, OraOOP: 将数据库服务器的压力转移到 Hadoop 集群 : 把数据转换成数据库格式 将数据分配到特定分区 根据主键进行排序 生成二进制的 datapump 格式文件 根据 partition 对 reducer 进行负载均衡 9 Copyright 2011, Oracle and/or its affiliates. All rights
Oracle Hadoop 装载器 : 输入数据格式 含分隔符的文本文件 Hive 格式的表 Hive 内部表或者外部表 Hive native 表或者非 native 表 自定义格式 10 Copyright 2011, Oracle and/or its affiliates. All rights
Oracle Hadoop 装载器 : 总结 主要优势 - 多数操作在 Hadoop 集群中完成, 对数据库压力很小 - 提供在线 / 离线装载选项 Oracle Hadoop 装载器不仅仅用于 Oracle 大数据机 11 Copyright 2011, Oracle and/or its affiliates. All rights
Oracle HDFS 直接连接器 以外部表形式直接访问 HDFS 上的数据文件 无需转移文件 12 Copyright 2011, Oracle and/or its affiliates. All rights
Oracle HDFS 直接连接器 : 示意图 1. 创建外部表 SHUFFLE /SORT 2. 生成 location 文件, 指向 HDFS 文件 / 文件集 SQL QUERY HDFS ODCH External Table SHUFFLE /SORT 3. 访问外部表 13 Copyright 2011, Oracle and/or its affiliates. All rights
Oracle HDFS 直接连接器 : 优势 直接访问 HDFS 上的文件 ( 不需要 FUSE 插件 ) 创建指向 HDFS 的外部表 在数据库中直接通过 SQL 访问 HDFS 数据 可以将数据通过 Insert/Select 或者 Create As Select 装载到数据库 快速的数据访问 : 并行 优化 自动负载均衡 数据文件可以是 : 含分隔符的文本文件 Oracle Hadoop 装载器产生的 Datapump 文件 14 Copyright 2011, Oracle and/or its affiliates. All rights
Oracle HDFS 直接连接器 : 总结 主要优势 - 直接访问, 不需要额外步骤 - 支持并行, 负载均衡等特性 Oracle HDFS 直接连接器不止用于 Oracle 大数据机 15 Copyright 2011, Oracle and/or its affiliates. All rights
Oracle Data Integrator 简介 Oracle Data Integrator 是一个数据提取 加载 转换工具 (E-LT) 通过可插入的知识模块方式支持多种数据源和目标 传统数据源 数据仓库 应用程序源 在线数据库 高效的图形化设计工具 支持不同数据源和目标 直接在原有机器上进行处理 计划系统 16 Copyright 2011, Oracle and/or its affiliates. All rights
Oracle Data Integrator Hadoop 应用适配器 Oracle Data Integrator Hadoop 应用适配器主要功能 将本地或者 HDFS 文件加载到 Hive 中 知识模块 -- IKM File to Hive 在 Hive 中进行数据转化和校验知识模块 -- IKM Hive Control Append 知识模块 -- IKM Hive Transform 知识模块 -- RKM Hive 将处理过后的数据导入 Oracle 数据库中知识模块 -- IKM File/Hive to Oracle (OLH) 17 Copyright 2011, Oracle and/or its affiliates. All rights
Oracle Data Integrator Hadoop 适配器 : 示意图 1. 创建数据模型, 包括数据源文件,Hive 表,Oracle 表等 2. 将本地文件或者 HDFS 文件加载到 Hive 中 3. 调用 Hive 脚本, 进行数据转化以及校验 4. 将处理过的数据装载到 Oracle 数据库中 SHUFFLE /SORT ORACLE BASE HDFS ODCH SHUFFLE /SORT 18 Copyright 2011, Oracle and/or its affiliates. All rights
Oracle Data Integrator Hadoop 适配器 : 优势 提高开发 集成的效率 使用统一的 ODI 程序界面 使用与 SQL 类似的 HiveQL, 不需编写 Hadoop MapReduce 脚本 自动协调和调度 Hadoop 的任务 高性能的数据整合 大部分工作在 Hadoop 集群中进行, 充分利用集群机器资源 高性能的 Hive 知识模块 调用高性能的 Oracle Hadoop 装载器 19 Copyright 2011, Oracle and/or its affiliates. All rights
Oracle Data Integrator Hadoop 适配器 : 总结 主要优势 - 集成里现有 ODI 产品里 - 充分利用 Hadoop 集群资源进行数据转换 - 无需编写复杂的 MapReduce 脚本 20 Copyright 2011, Oracle and/or its affiliates. All rights
Oracle R Hadoop 连接器 (ORCH) 通过在 R 中安装 ORCH 包, 可以实现 在 R 中直接访问 Hadoop/HDFS 的文件 在 R 中直接利用 Hadoop 集群运行 R 格式的 MapReduce 脚本 21 Copyright 2011, Oracle and/or its affiliates. All rights
Oracle R Hadoop 连接器 : 示意图 客户端 服务器 ( 如 : 大数据机 ) R 引擎 ORHC ORE 客户端包 测试时在本地运行 MapReduce 任务 Hadoop 软件 Java VM R 引擎 ORHC ORHC 驱动包 ORE 客户端包 Java VM 访问 HDFS 文件访问 Oracle 数据库数据库服务器 ( 如 :Exadata) 在 Hadoop 集群中运行 MapReduce 任务 ORHC MapReduce 节点 JobTracker Hadoop 集群 HDFS 节点目录节点 R 引擎 ORE 包 Oracle 数据库 任务节点 数据节点 ORE 库 任务节点 数据节点 22 Copyright 2011, Oracle and/or its affiliates. All rights
Oracle R Hadoop 连接器 : 优势 R 可以直接访问 HDFS 上的文件 支持超大数据量 R 可以获得更好的文件存取性能 数据可以根据需要在以下地方随意存取和移动 Oracle 数据库 HDFS 文件 本地文件 在 R 中直接利用 Hadoop 集群运行 R 格式的 MapReduce 脚本 R 程序员以 R 的形式写 MapReduce 脚本不需要学习 Java 的 MapReduce 写法 R 程序员不需要了解 Hadoop 运行机制 充分利用 Hadoop 集群的资源进行并行运算 开发测试过程中可以直接使用本地 Hadoop 而不需要 Hadoop 集群 23 Copyright 2011, Oracle and/or its affiliates. All rights
Oracle R Hadoop 连接器 : 总结 主要优势 - 为 R 提供更高性能的文件系统 - 为 R 提供高度可扩展的计算能力 - 数据可以根据需要随意存取和移动 - R 程序员不需要深入学习额外的 Hadoop 技术 24 Copyright 2011, Oracle and/or its affiliates. All rights
25 Copyright 2011, Oracle and/or its affiliates. All rights
26 Copyright 2011, Oracle and/or its affiliates. All rights