1 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
大数据技术概述 2 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
以下内容旨在概述产品的总体发展方向 该内容仅供参考, 不可纳入任何合同 该内容不构成提供任何材料 代码或功能的承诺, 并且不应该作为制定购买决策的依据 此处所述有关 Oracle 产品的任何特性或功能的开发 发布以及相应的日程安排均由 Oracle 自行决定 3 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
议题 大数据 定义 大数据的典型构建块 Oracle 大数据机 Oracle Big Data Connectors Oracle NoSQL 数据库 用例演示 问答 4 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
大数据 定义 5 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
大数据 : 针对新数据 存在于 存储 回顾 过去 目录 / 呼叫中心 零售决策 Web 社交网络 搜索 我认为 我希望 展望 未来 6 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
大数据 : 挑战与机遇利用大数据提升业务价值 业务价值 大数据平台 深度分析 运营影响 高度可伸缩性 实时 明天 挑战 高度多样化 量大 高度复杂 高速度 大数据 现在 时间 7 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
从大数据中挖掘价值 构建大数据平台 8 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
大数据 : 基础架构要求 获取组织分析决策 可预测的低延迟 高事务数 灵活的数据结构 深度分析 敏捷开发 高度可伸缩性 高吞吐量 就地准备 所有数据源 / 结构 实时 流数据 运营影响 9 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
不统一的解决方案体系 数据多样性 动态模式 分布式文件系统 事务 ( 键值 ) 存储 MapReduce 解决方案 DIY 专家引擎 模式 DBMS (OLTP) ETL DBMS (DW) 高级分析 COTS 专家引擎 获取 组织 分析 决策 10 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
数据多样性 Hadoop 到 Oracle 消除鸿沟 动态模式 模式 HDFS HBase RDBMS (OLTP) ETL Hadoop MapReduce Big Data Connectors RDBMS (DW) 高级分析 DIY 专家引擎 COTS 专家引擎 获取 组织 分析 决策 11 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
Oracle 集成软件解决方案体系 数据多样性 动态模式 模式 HDFS Oracle NoSQL 数据库 Oracle 数据库 (OLTP) Cloudera CDH Oracle Big Data Connectors Oracle 数据库 (DW) In-DB 分析 R 挖掘文本图形空间 Oracle BI EE 复杂事件处理 实时决策 获取 组织 分析 决策 12 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
Oracle 集成设计的系统 数据多样性 动态模式 模式 大数据机 HDFS Cloudera CDH Cloudera HBase Hive 等 CDH Cloudera Manager Oracle NoSQL NoSQL Database (CE Oracle EE) Big 数据库 Data Connectors Big Data Connectors Oracle 数据库 (OLTP) Oracle 数据库云服务器 Oracle OLTP 和 DW 数据库 Data Mining 和 Oracle (DW) R 语义 空间 In-DB 分析 R 挖掘文本图形空间 Oracle BI EE Oracle 商务智能云服务器 思维速度的分析 获取 组织 分析 13 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
Oracle 大数据机 硬件概述 14 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
获取 组织 分析所有数据 Endeca Information Discovery Oracle 大数据机 Oracle 数据库云服务器 Oracle 商务智能云服务器 流 Oracle Big Data Connectors 获取 组织 分析和可视化 15 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
Oracle 大数据机 18 个 Sun X4270 M2 服务器 每节点 48 GB 内存 = 864 GB 内存每节点 12 个 Intel 内核 = 216 个内核每节点 36 TB 存储 = 648 TB 存储 Cloudera CDH Cloudera Manager 开源的 R Distribution Oracle NoSQL Database(CE 或 EE) Oracle Big Data Connectors* 16 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利 * 单独许可 在 BDA 上预装和预配置
为何构建 Hadoop 设备? 构建时间? 所需优化? 维护成本和难度? 17 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
Oracle 大数据机 软件概述 18 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
Oracle 大数据机软件 为获得最佳性能而预装 预优化的软件 : Oracle Linux 5.6 Java Hotspot VM Cloudera CDH Cloudera Manager 开源的 R Distribution Oracle NoSQL Database CE Oracle Big Data Connectors* 19 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利 * 单独许可的软件, 可在 BDA 上预装和配置
为何选择 Cloudera CDH? 由 Cloudera 测试 开源但有管理 丰富的管理和配置 GUI 工具 市场上最受欢迎的 Hadoop 版本 关键特性发展快 由业界的 Hadoop 专家构建 实用而不深奥 专注大型集群所需 经过广泛验证 用于 Hadoop 所有大用户的生产环境 在这些环境中极为稳定 20 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
Cloudera CDH 版本详细信息 Cloudera CDH 3 包含 : Apache Hadoop Apache Hive Apache Pig Apache HBase Apache Zookeeper Apache Flume Apache Sqoop Apache Mahout Apache Whirr Apache Oozie Fuse-DFS Hue + Cloudera Manager 21 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利 有关最新详细信息, 请访问 :http://www.cloudera.com/hadoop-details/
2 1 Hadoop 软件布局 ( 主节点 ) 3 节点 1: 主 :Name Node Balancer 和 HBase Master 从 :HDFS Data Node NoSQL DB Storage Node* 节点 2: 主 :Secondary Name Node Cloudera Manager Zookeeper MySQL Slave 从 :HDFS Data Node NoSQL DB Storage Node* 节点 3: 主 :JobTracker MySQL Master ODI Agent Hive Server 从 :HDFS Data Node NoSQL DB Storage Node* 为利用第一批机架主节点如 Name Node 而配置的后续机架 * 可选配置 22 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
Oracle 大数据机 支持概述 23 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
Hadoop 支持 CDH 版本由 Cloudera 托管和测试 所有客户支持都通过 Oracle 提供 包括 Hadoop 在内,BDA 上的所有组件都共享一个联系点 通过 Oracle 获得更新 补丁等 CDH 更新后进行季度更新 Cloudera 修复错误和回归测试 利用自己的 BDA 进行测试 由 Oracle 完成所有补丁的集成测试 24 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
BDA 的硬件支持 可选 : 标准集成设计系统支持服务 标准操作系统支持服务 两者均 : 全面支持硬件和操作系统和 全面支持 BDA 上的 Hadoop 体系 25 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利 说明 :Big Data Connectors 和 NoSQL DB 是单独许可的产品
Oracle Big Data Connectors 软件概述 26 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
Oracle Big Data Connectors 实现 Hadoop 与 Oracle 数据库和 Oracle 数据库云服务器的优化集成 Oracle Loader for Hadoop Oracle Direct Connector for Hadoop Distributed File System (HDFS) Oracle Data Integrator Application Adapter for Hadoop Oracle R Connector for Hadoop 不需要大数据机 可为非 Oracle 硬件上运行的 Hadoop 颁发许可 27 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
Oracle Loader for Hadoop 使用集群 Oracle Loader for Hadoop MAP MAP MAP SHUFFLE /SORT REDUCE REDUCE MapReduce 工作流的最后阶段 MAP REDUCE 分区表和未分区表 MAP MAP SHUFFLE /SORT REDUCE REDUCE 在线和离线加载 28 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
Oracle Direct Connector for HDFS 从 Oracle 数据库直接访问 HDFS Oracle 数据库 SQL 查询 对 HDFS 的 SQL 访问 外部表 外部表视图 Infini Band DCH DCH DCH HDFS 客户端 数据查询或导入 29 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
Oracle Data Integrator 简化 MapReduce Oracle Data Integrator Oracle Loader for Hadoop 自动生成 MapReduce 代码 管理进程 加载到数据仓库 30 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
31 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
Oracle R Hadoop Connector 实现对 Hadoop 的本地 R 访问 客户端主机 Oracle 大数据机 Oracle 数据库云服务器 R 引擎 ORHC ORE R 引擎 ORHC 本地 R MapReduce Hadoop 集群软件 MapReduce 节点 HDFS R 引擎 ORE 本地 R HDFS 访问 32 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
Oracle NoSQL 数据库 33 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
Oracle NoSQL 数据库分布式 可伸缩键值对数据库 简单数据模型 键值对为主键 + 次键模式 读取 / 插入 / 更新 / 删除操作 可伸缩性 动态的数据分区和分布 通过智能驱动优化的数据访问 高可用性 一个或多个副本 通过副本定位实现灾难恢复 对主故障灵活分区 无单点故障 透明的负载平衡 从主数据库或副本读取 驱动程序可感知网络拓扑和延迟 应用程序 NoSQLDB 驱动程序 存储节点数据中心 A 应用程序 NoSQLDB 驱动程序 存储节点数据中心 B 34 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
大数据机企业大数据 优化 全面 具备存储和整合低信息密度数据所需的一切 与 Oracle 数据库云服务器集成 分析所有数据 易于部署 无风险, 快速安装和设置 单一供应商支持 Oracle 全面支持整个系统和软件集合 35 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
大数据 用例演示 36 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
演示 大数据的实际应用背景 目标 : 零售商正试图增加特定产品线的销售和利润 由营销部门创建, 购买即送一张变形金刚 DVD 的两周营销活动未达到预期效果 基于现有 CRM 信息进行了分析, 试图确定出现这种情况的原因, 但未找到清晰的模式或原因 解决方案 : 利用 社交媒体, 如 Facebook LinkedIn 和 Twitter 等公开提供的个人信息增强传统的 CRM 数据, 从而凭借全面的个人资料实现微观细分 37 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
38 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利 问答
39 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利
40 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利