星环科技被 Gartner 列为主流 Hadoop 发行版厂商 在十月份的 webinar Hadoop 2016: Moving Into Mainstream 中,Gartner 宣布了市场中的新成员 星环科技的加入 而在最新发布的研究报告 Market Guide for Hadoop Dis

Similar documents
合集

白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项

第 06 期 李祥池 : 基于 ELK 和 Spark Streaming 的日志分析系统设计与实现 1 日志 1.1 日志定义 IT 1.2 日志处理方案演进 v1.0 v2.0 Hadoop Storm Spark Hadoop/Storm/Spark v3.0 TB Splunk ELK SI

A API Application Programming Interface 见 应 用 程 序 编 程 接 口 ARP Address Resolution Protocol 地 址 解 析 协 议 为 IP 地 址 到 对 应 的 硬 件 地 址 之 间 提 供 动 态 映 射 阿 里 云 内

<4D F736F F F696E74202D20C8EDBCFEBCDCB9B9CAA6D1D0D0DEBDB2D7F92E707074>

PowerPoint 演示文稿

水晶分析师

FAQ -PowerDesigner9.5.DOC

培 训 机 构 介 绍 中 科 普 开 是 国 内 首 家 致 力 于 IT 新 技 术 领 域 的 领 航 者, 专 注 于 云 计 算 大 数 据 物 联 网 移 动 互 联 网 技 术 的 培 训, 也 是 国 内 第 一 家 开 展 Hadoop 云 计 算 的 培

Microsoft Word 記錄附件

untitled

PowerPoint Presentation

PowerPoint 演示文稿

3.1 SQL Server 2005 Analysis Services Unified Dimension Model (UDM) 3 ( Ad-Hoc) SQL Server 2005 E - R T-SQL(Star Schema) (Data Mart) (ETL) ( Ora

Microsoft PowerPoint - Big Data rc Sharing掃盲時間.ppt [相容模式]

Azure_s

2013_6_3.indd

目錄

Microsoft PowerPoint - ARC110_栾跃.ppt

學 科 100% ( 為 單 複 選 題, 每 題 2.5 分, 共 100 分 ) 1. 請 參 閱 附 圖 作 答 : (A) 選 項 A (B) 選 項 B (C) 選 項 C (D) 選 項 D Ans:D 2. 下 列 對 於 資 料 庫 正 規 化 (Normalization) 的 敘

國軍統計表冊資訊化之研究

2

<4D F736F F D20312D3120B9ABBFAAD7AAC8C3CBB5C3F7CAE9A3A8C9EAB1A8B8E5A3A92E646F63>

Transwarp Data Hub including Apache Hadoop 2.0

Reducing Client Incidents through Big Data Predictive Analytics

SAP HANA 最 简 单 的 理 解 ERP CRM SRM BI 列 存 储 2

次世代のITインフラ“Compute”を先取り!HPが統合型アプライアンス「HP ConvergedSystem」を推進する理由

PowerPoint 演示文稿

思 想, 还 是 思 想 才 使 我 们 与 众 不 同 编 辑 部 : 工 业 和 信 息 化 部 赛 迪 研 究 院 通 讯 地 址 : 北 京 市 海 淀 区 万 寿 路 27 号 电 子 大 厦 4 层 邮 政 编 码 : 联 系 人 : 刘 颖 董 凯 联 系 电 话 :010

Presentation title goes here

untitled

文件範本

untitled

政府機關資訊通報第295期(5月)

目 录 简 介.3 ` 体 系 结 构...4 数 据 层...5 数 据 连 接 器...6 Tableau Server 组 件...7 网 关 / 负 载 平 衡 器...8 客 户 端 :Web 浏 览 器 和 移 动 应 用 程 序...8 客 户 端 :Tableau Desktop..

经华名家讲堂

PowerPoint Presentation

BYOD IP+Optical (IP NGN) API 4. End-to-End (Service Aware) 5. IP NGN (IP Next Generation Network) ( ) Prime Carrier Management Access Edge Co

业 务 与 运 营 Business & Operation (Transform) 加 载 (Load) 至 目 的 端 的 过 程, 该 部 分 在 数 据 挖 掘 和 分 析 过 程 中 为 最 基 础 的 一 部 分 一 个 良 好 的 ETL 系 统 应 该 有 以 下 几 个 功 能 1

一 公 司 简 介 993 年, 顺 丰 诞 生 于 广 东 顺 德 自 成 立 以 来, 顺 丰 始 终 专 注 于 服 务 质 量 的 提 升 持 续 加 强 基 础 建 设 积 极 研 发 和 引 进 具 有 高 科 技 含 量 的 信 息 技 术 与 设 备 以 提 升 作 业 自 动 化

ebook 132-2

Guide to Install SATA Hard Disks

支付宝2011年 IT资产与费用预算

Oracle Database 10g: SQL (OCE) 的第一堂課

Cloudy computing forEducation

Microsoft PowerPoint - 数据通信-ch1.ppt

Microsoft Word - 招股说明书.doc

(Electronic Data Interchange) (Executive Information System) (Economic Order Quantity) (Enterprise Resource Planning) (Flexible Manufacture System) (F

摘 要 SAS 全 球 論 壇 會 議 (SAS GLOBAL FORUM) 係 由 非 營 利 組 織 SAS 軟 體 全 球 用 戶 社 群 (SAS GLOBAL USERS GROUP) 舉 辦 之 年 度 國 際 研 習 會, 主 要 探 討 SAS 在 金 融 醫 藥 衛 生 生 產 運

Oracle 4

1 SQL Server 2005 SQL Server Microsoft Windows Server 2003NTFS NTFS SQL Server 2000 Randy Dyess DBA SQL Server SQL Server DBA SQL Server SQL Se

17

9 Internet 10 Internet

VASP应用运行优化

背 景 概 述 企 业 需 要 一 种 灵 活 的 平 台 来 快 速 构 建 测 试 和 扩 展 新 的 应 用 程 序 服 务 并 对 市 场 中 发 生 的 数 字 化 变 革 作 出 反 应 数 字 化 变 革 正 在 加 快 步 伐, 因 为 流 程 和 信 息 的 日 益 融 合 带 来

ERP-1

PowerPoint 簡報

<4D F736F F D20BBAACCA9C1AABACFD6A4C8AFD3D0CFDED4F0C8CEB9ABCBBEB9D8D3DAC9EEDBDACAD0D0CBC9ADBFECBDDDB5E7C2B7BFC6BCBCB9C9B7DDD3D0CFDEB9ABCBBE C4EAB6C8C4DAB2BFBFD8D6C6D7D4CED2C6C0BCDBB1A8B8E6B5C4BACBB2E9D2E2BCFB2E646

untitled


目錄... ivv...vii Chapter DETECT

应 用 为 先, 统 筹 规 划 摘 要 : 总 体 上 看, 我 国 的 云 计 算 还 没 有 进 入 良 性 发 展 的 轨 道 目 前 的 形 势 是 政 府 比 企 业 积 极, 企 业 比 用 户 积 极, 大 企 业 比 中 小 企 业 积 极, 建 设 数 据 中 心 比 推 广 应



基于UML建模的管理管理信息系统项目案例导航——VB篇

Ác Åé å Serial ATA ( Sil3132) S A T A (1) SATA (2) BIOS SATA (3)* RAID BIOS RAID (4) SATA (5) SATA (a) S A T A ( S A T A R A I D ) (b) (c) Windows XP


CH01.indd

IP TCP/IP PC OS µclinux MPEG4 Blackfin DSP MPEG4 IP UDP Winsock I/O DirectShow Filter DirectShow MPEG4 µclinux TCP/IP IP COM, DirectShow I

0896-电力信息与系统通信-02期.indb

RunPC2_.doc

資訊系統開發模式

RW Salary Survey China Proof SECOND FILE_nw rz_all36_v3_0120


Microsoft Word 校課委會會議議程

1吴正轩


致理技術學院資訊管理學系專題企劃書格式建議書

附件9 电梯运行安全监测管理信息平台技术规范 第11部分:系统信息安全技术规范(征求意见稿)

Microsoft PowerPoint ARIS_Platform_en.ppt

Transcription:

Hadoop 推动现代数据仓库技术的深刻变革 星环科技 孙元浩星环科技创始人兼 CTO yuanhao.sun@transwarp.io www.transwarp.io 2016-03-18 1

星环科技被 Gartner 列为主流 Hadoop 发行版厂商 在十月份的 webinar Hadoop 2016: Moving Into Mainstream 中,Gartner 宣布了市场中的新成员 星环科技的加入 而在最新发布的研究报告 Market Guide for Hadoop Distributions 中,Gartner 将星环,Cloudera, Hortonworks, IBM,MapR 和 Pivotal 一同被列 Representative Vendors( 最具代表性厂商 ) 中的主流 Hadoop 发行版厂商 Gartner 对星环及其产品的概括如下 : 星环 总部设在中国上海 星环科技的产品名为 Transwarp Data Hub, 它包含一整套 Hadoop 组件, 星环科技还为 Transwarp Data Hub 配备了星环独有的 NoSQL 搜索引擎 批量分析组件 流处理组件和数据挖掘组件 Transwarp Data Hub 支持 Docker 和 Kubernetes, 还提供独特的 PL/SQL 编译器 目前, 星环科技大多数业务在中国 2

星环科技被 Gartner 选入数据仓库魔力象限的 Visionary 象限 近日, 国际知名咨询机构 Gartner 针对当前数据仓库及数据管理解决方案市场, 在其魔力象限 1. 中对全球 21 家厂商进行了对比分析, 其中, Oracle Teradata Oracle 和 Microsoft 三家公司包揽了前三甲, 而全球最具发展前景的公司却是来自中国的公司 星环科技 (Transwarp), 这也是该领域的魔力象限中第一次出现中国公司 优势 星环科技虽然年轻, 但是已经在中国市场中颇具影响力 星环科技在 18 个月内赢取了 200 个客户 星环科技的产品有其独特的功能, 例如它的 SQL 引擎 Inceptor, 基于 Apache Spark, 兼容 Oracle SQL 和 PL/SQL, 支持事务处理的 CRUD(CREATE, READ, UPDATE, DELETE) 并能保证 ACID Inceptor 在被调查的用户中受到了非常高的评价 被调查的用户表示他们对星环的产品 支持以及提供的培训都非常满意 星环科技 注意 目前, 星环仅在中国有业务 虽然如此, 中国庞大的市场以及中国市场特有的要求给星环的发展空间巨大 虽然暂时还没有推出云上的解决方案, 但是星环科技的云解决方案已经在计划中 被调查的客户指出星环的产品还有一些功能的缺失, 尤其在产品的管理功能方面 被调客户还指出市场中对口人才的稀缺 即使如此, 被调客户对星环科技各方面的评价都持平报告中的平均水平 3

Hadoop 应用统计 Source: Wikibon Source: Transwarp 4

What is a Data Warehouse? Architectural Construct: Integrated Time variant Subject orientation Analytic orientation Service level driven Mission-critical Physical Implementation: Centrally stored data Modeled Mixed workload Optimized Servers Storage 5

传统数据仓库技术面临的挑战 数据处理延时长, 无法看到实时运营状况 Operational Data Warehouse 数据源不断增多, 访问和数据同步变得复杂 ; 开始包括非结构化和半结构化数据 ; 上层业务和使用部门增多, 资源管理和安全控制变得困难 Logical Data Warehouse 数据量增大 应用不断增加, 运行沉重缓慢, 不堪重负 原先的逻辑数据模型, 不能有效支撑数据快速分析和价值发现 ; 需要新的方法发掘数据的统计相关性 因果关系 关联关系等规律 Scalable Traditional Data Warehouse Context Independent Data Warehouse 6

可扩展的分布式计算技术 单机计算并行计算分布数据 计算均分布化 MPI 消息通讯模式 Map/Reduce 计算模式 ZK Cluster Transaction Manager Inceptor master metastore 星环 SQL on Hadoop 已经能够高效处理 100TB 数据的复杂分析 Test environment: 29 worker nodes 2 CPUs, 12 Cores, E5-2620 v2 100GB memory Network: 2 X 1Gbps Disks: 12 X 3TB Executor Executor Executor Executor ORC Files DataNode ORC Files DataNode ORC Files DataNode ORC Files DataNode Transwarp Inceptor s Physical Deployment Diagram 7

Logical Data Warehouse 设计模式 Can the Architecture Perform as Required? Do the Descriptions and Categories Match? Use-Case Access Semantics Taxonomy/Ontology Resolution SLA Requirements Auditing and Management Statistics <>/=/~ DQ, MDM, Gov Metadata Locate Data Audit Data Repositories And/Or Federation/ Virtualization And/Or Distributed Process Optimize Data Persist, Pervasive, Latency, Optimized Schema Write to Write Transient, Diverse Usage, Native Schema Write to Read Comprehensive, Undefined Schema Read to Read 8

Database Federation 需要具备对多种关系数据库和 Hadoop 数据源进行交叉查询, 聚合, 以及关联操作等能力 两种技术方案和路线 : Hadoop 为主 v.s. 关系数据库为主 StarGate vs QueryGrid vs ORCL connector Inceptor Batch SQL Interactive Analysis StarGate Access Platform 创建一个到 oracle_server 上 Oracle 数据库 oracle_db 的 dblink: CREATE DATABASE LINK link_to_oracle CONNECT TO user IDENTIFIED BY 'password' USING 'jdbc:oracle:thin:@oracle_server:1521:oracl e_db'; 使用该 dblink 中的 oracle_tab 表与 inceptor 中的 inceptor_tab 表做 join: SELECT * FROM oracle_tab@link_to_oracle a JOIN orc_table b ON a.col = b.col; DB2 Driver Oracle Driver ORC/Parquet Driver Holodesk Driver Hyperdrive 驱动层实现数据访问计算算子下推以减少数据传输执行计划仍采用分布式计算 Source DB2 Source Oracle Source Text, ORC, Parquet on HDFS Source Holodesk Source Hyperbase 9

基于 Docker/ 星环 TOS 的微服务多租户架构 Software Service Layer terminal hue BI rstudio app1 app2 nginx oozie Platform Service Layer zookeeper hadoop inceptor discover hyperbase stream redis kafka Transwarp Operating System - elastic micro-service management system Containers Scheduler System Service Infrastructure Layer Container Plugins CPU/MEM Disk Network coordination orchestration auto-scaling discovery priority-based scheduler storage manager VLAN manager etcd load balancer replicator name service 10

Operational Data Warehouse 设计模式 准实时 ETL processing_job 流式计算 speed_table batch_table queries App processing_job Operational Database Hybrid Transactional & Analytical DB? 有点难 方式一 : 采用 Transwarp Data Alive, 将 DB2/Oracle 的更新准实时同步到 Hadoop 中, 通常存入星环 Inceptor 的 ORC 事务表中, 适合后端统计较重的应用场合 方式二 : 采用星环 StreamSQL, 将复杂 PL/SQL 统计计算前推到流处理框架, 适合对延时要求很高 同时运算模型又比较复杂的场景, 结果集写入星环 Hyperbase( 可高并发查询 ) 或者 Holodesk( 可做 OLAP 分析 ) 中 11

实时流式数据处理 连续摄取 / 注入 连续分析 ATM 过滤 / 采样 基础设施提供服务 : 在跨硬件 / 软件节点中调度分析建立流连接 SQL 变换 PL/SQL 预警 关联 / 分类 基于 R 算法 面向流数据的实时分析平台, 实现流数据端到端的低延迟分析处理 12

Context Independent DW 设计架构 重要功能 : Data Engineers Data Scientists Notebook: Apache Zeppelin 关联分析 统计意义上的因果分析 时序模式 预测分析 关联网络分析 图分析 图检索 文本分析和挖掘 搜索 自由分析和探索多种数据源, 无需已知数据模式 Data Transformation using PL/SQL Inceptor Analytical DB GraphSQL Data Frame Abstraction Feature Extraction using data frame and native R operations Hyperbase Document/Search Graph Database Statistics 统计算法 Sequential Analysis 时序分析 Classificatio n 分类算法 Dimension Reduction 主成分分析 Machine Learning using more distributed algorithms Clustering 聚类算法 Association Mining 关联 / 推荐 Regression 回归算法 Deep Learning 深度机器学习 Transwarp Discover Distributed Algorithm Library Genetic Algorithm 遗传算法 Discriminat e Analysis 判别分析 Data Mining using native R algorithms Decision Methods 决策方法 Factor Analysis 因子分析 Sampling 采样算法 Belief Network 信念网络 R Runtime Library R 语言动态运行库 Q-Learning 增强学习 Graph Inference 图推理 Transwarp Hadoop 分布式文件系统 13

Summary: 基于大数据技术的数据仓库逻辑架构 实时数据 Kafka 实时接收 Operational DW Traditional DW Data Mart Context-independent DW 实时决策平台 (StreamSQL) 离线批处理平台 (SQL) 自助分析平台 (SQL) 数据探索平台 (R) 检索平台 (SQL) 现有业务系统 CRM ERP HR Finance 非 / 半结构化数据 社交网络 宏观政策 / 经济其他信息 ETL TDA T+0 ~ T+1 Flume 流式处理 实时研判 数据加工 结构化数据存储层 主题模型层 轻度汇总层 明细层 贴源层 资源管理平台 (TOS) (Virtualization,Multi-tenant SLA, Audit) 非结构化存储 日志处理 影像存储 文本分析 图计算 14 主题模型 自助报表 数据质量管理 交互探索 元数据管理 作业调度管理 统计预测 Logical Data Warehouse 模型发现 明细查询 综合搜索

TRANSWARP 2014 15

传统数据仓库面临的问题 S Operational Systems Pull/push Data Warehouse Architecture EDW Portal O ERP RDBMS U R C E D A T A CRM HR Finance Misc External Sources Other Reference data EBCDIC Flat files XML Spread Sheets Legacy data Staging Area Transformation And load processes Data Mining CRM REVENUE SALES Aggregation Meta data Info Tactical Reporting Business Intelligence Analytics Forecasting 面临的挑战 : 1. 数据量增长过快, 导致运算效率下降 2. 数据抽取处理的代价过高, 无法在统一的视图下处理 16