Inceptor_2016白皮书 - 看稿文件



Similar documents
合集

水晶分析师

大数据关键技术发展趋势及产业构成

大数据关键技术发展趋势及产业构成


白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项

第 06 期 李祥池 : 基于 ELK 和 Spark Streaming 的日志分析系统设计与实现 1 日志 1.1 日志定义 IT 1.2 日志处理方案演进 v1.0 v2.0 Hadoop Storm Spark Hadoop/Storm/Spark v3.0 TB Splunk ELK SI

Transwarp Data Hub including Apache Hadoop 2.0

ABOUT ME AGENDA 唐建法 / TJ MongoDB 高级方案架构师 MongoDB 中文社区联合发起人 Spark 介绍 Spark 和 MongoDB 案例演示

业 务 与 运 营 Business & Operation (Transform) 加 载 (Load) 至 目 的 端 的 过 程, 该 部 分 在 数 据 挖 掘 和 分 析 过 程 中 为 最 基 础 的 一 部 分 一 个 良 好 的 ETL 系 统 应 该 有 以 下 几 个 功 能 1

星环科技被 Gartner 列为主流 Hadoop 发行版厂商 在十月份的 webinar Hadoop 2016: Moving Into Mainstream 中,Gartner 宣布了市场中的新成员 星环科技的加入 而在最新发布的研究报告 Market Guide for Hadoop Dis

PowerPoint 演示文稿

培 训 机 构 介 绍 中 科 普 开 是 国 内 首 家 致 力 于 IT 新 技 术 领 域 的 领 航 者, 专 注 于 云 计 算 大 数 据 物 联 网 移 动 互 联 网 技 术 的 培 训, 也 是 国 内 第 一 家 开 展 Hadoop 云 计 算 的 培

Presentation title goes here

支付宝2011年 IT资产与费用预算

Reducing Client Incidents through Big Data Predictive Analytics

KV-cache 1 KV-cache Fig.1 WorkflowofKV-cache 2.2 Key-value Key ; Key Mem-cache (FIFO) Value Value Key Mem-cache ( Value 256B 100 MB 20%

ChinaBI企业会员服务- BI企业

目 录 1 不 断 开 发 工 具 以 管 理 大 数 据 Hadoop* 简 介 : 支 持 从 大 数 据 中 获 得 出 色 价 值 的 可 靠 框 架 大 数 据 技 术 的 行 业 生 态 系 统 在 关 键 组 件 中 实 现 平 衡...

册子0906

基于 SQL-on-Hadoop 的 网络日志分析

PowerPoint 演示文稿

PowerPoint Presentation

是 证 券 市 场 的 后 来 者, 但 在 前 景 广 阔 的 道 路 上 前 行, 终 将 成 为 这 个 市 场 的 领 先 者, 这 里 会 给 你 一 个 巨 大 的 舞 台, 这 里 有 你 需 要 的 机 会, 这 里 欢 迎 优 秀 的 你! 二 招 收 条 件 1. 遵 守 国 家

背 景 概 述 企 业 需 要 一 种 灵 活 的 平 台 来 快 速 构 建 测 试 和 扩 展 新 的 应 用 程 序 服 务 并 对 市 场 中 发 生 的 数 字 化 变 革 作 出 反 应 数 字 化 变 革 正 在 加 快 步 伐, 因 为 流 程 和 信 息 的 日 益 融 合 带 来

SiteView技术白皮书

Azure_s

展 的 关 键 2015 年 国 内 资 本 市 场 持 续 活 跃, 市 场 交 易 规 模 大 幅 增 长, 带 动 投 资 者 规 模 快 速 增 长 (2) 大 资 管 时 代 到 来, 资 产 管 理 业 务 将 井 喷 式 增 长 自 2012 年 起, 监 管 政 策 放 开, 证 券

PowerPoint Presentation

用面向大数据与分析的思科 UCS 集成基础设施搭建 星环一站式大数据综合平台

Microsoft Word - 《Hadoop大数据技术与应用》教学大纲.doc

目錄

第6章  数据库技术基础

A API Application Programming Interface 见 应 用 程 序 编 程 接 口 ARP Address Resolution Protocol 地 址 解 析 协 议 为 IP 地 址 到 对 应 的 硬 件 地 址 之 间 提 供 动 态 映 射 阿 里 云 内

亿级大数据实时分析之旅

1


30.00% 25.00% 25.00% 22.50% 20.00% 15.00% 12.50% 15.00% 12.50% 10.00% 7.50% 5.00% 2.50% 2.50% 0.00% 文 学 理 学 工 学 法 学 教 育 学 管 理 学 历 史 学 艺 术 学 ( 三 ) 学 生

帝国CMS下在PHP文件中调用数据库类执行SQL语句实例

温州市政府分散采购

亿级大数据实时分析之旅

RUN_PC連載_12_.doc

根 据 我 们 9 月 份 对 22 个 上 市 公 司 的 调 研 和 行 业 总 体 增 速 判 断, 2014 年 多 数 计 算 机 公 司 增 速 将 在 20% 左 右, 目 前 公 布 的 公 司 基 本 在 20% 以 上 投 资 建 议 计 算 机 目 前 整 体 估 值 水 平

coscon2016

FAQ -PowerDesigner9.5.DOC

Slide 1


PowerPoint 演示文稿

目 录 简 介.3 ` 体 系 结 构...4 数 据 层...5 数 据 连 接 器...6 Tableau Server 组 件...7 网 关 / 负 载 平 衡 器...8 客 户 端 :Web 浏 览 器 和 移 动 应 用 程 序...8 客 户 端 :Tableau Desktop..

如 何 使 档 案 工 作 减 少 在 普 通 老 百 姓 心 中 的 神 秘 色 彩, 使 档 案 工 作 更 好 地 为 人 民 群 众 服 务, 各 地 档 案 系 统 一 直 在 探 索 不 同 的 手 段 近 年 来, 随 着 信 息 技 术 的 不 断 发 展, 加 强 信 息 化 建

PowerPoint Presentation

PowerPoint Presentation

臺銀人壽「98年九至十一職等人員甄試」

叮当旺业通

PowerPoint Presentation

ebook 132-2

个人介绍 思考数据分析系统的基本指标 Hadoop 史前和史后的数据仓库流程 Hadoop 史前和史后的数据分析流程 思考 Hadoop 解决了什么样的根本问题 演讲大纲 Python 如何在构建数据仓库系统的作用 1. 使用 Python 快速构建数据分析模块 ComETL 2. 基于 Pytho

目 录 1. 业 务 流 程 系 统 开 发 面 临 的 挑 战 与 机 遇 业 务 流 程 管 理 新 一 代 开 源 业 务 流 程 开 发 平 台 BPMX BPMX3 是 什 么 为 什 么 要 优 先 采 用 BPMX

Microsoft Word 電腦軟體設計.doc

目 录 CONTENTS PART 01 公 司 简 介 / PART 02 公 司 战 略 / PART 03 行 业 地 位 / PART 04 竞 争 优 势 / PART 11 成 员 单 位 / PART 07 智 慧 城 市 /

untitled

Oracle 4

Marketing_WhitePaper.PDF

使用Spark SQL读取Hive上的数据

(DMO) 1 1 Microsoft Windows SQL Server 2005 SQL Server Analysis ServicesNotification Services SQL Server 8 SQL Server IP SQL Server 2005 SQL Server 20

1 Linux Linux Linux Windows NT Linux Linux UNIX Internet Linux Internet Internet Web Linux 26.3% Web Apache 60% Sendmail Internet Linux ISP/ICP

大数据分析技术 [13] 1.1 大数据 Big Data [2] IBM 5V Volume Velocity Variety Value Veracity Volume Velocity Variety Value Veracity 表 1 大数据特征表 Tab.1

目 录 数 据 化 管 理 :... 3 分 析 师 层 级... 3 数 据 运 营 流 程... 4 分 析 师 未 来 发 展... 4 你 是 否 适 合 做 分 析 师... 5 企 业 对 分 析 师 的 要 求... 5 制 定 分 析 师 学 习 规 划... 7 数 据 分 析 师

广东省海外高层次人才需求信息表.xlsx

在 ongodb 中实现强事务

Autodesk Product Design Suite Standard 系统统需求 典型用户户和工作流 Autodesk Product Design Suite Standard 版本为为负责创建非凡凡产品的设计师师和工程师提供供基本方案设计和和制图工具, 以获得令人惊叹叹的产品

Microsoft PowerPoint - Big Data rc Sharing掃盲時間.ppt [相容模式]

Lenovo Data Platform

幻灯片 1

Untitiled

中艺华海修改1.7.indd

北 京 蓝 皮 书 公 共 服 务 相 比 而 言, 养 老 医 疗 失 业 等 保 险 都 早 已 经 由 国 务 院 颁 布 了 相 应 的 立 法 条 例, 在 全 国 范 围 内 形 成 了 统 一 的 制 度 党 的 十 八 届 四 中 全 会, 首 次 以 依 法 治 国 为 主 题,

2006年中央、国家机关公务员录用考试


untitled

静态分析 投放文件 行为分析 互斥量 (Mutexes) 执行的命令 创建的服务 启动的服务 进程 cmd.exe PID: 2520, 上一级进程 PID: 2556 cmd.exe PID: 2604, 上一级进程 PID: 2520 访问的文件 C:\Users\test\AppData\Lo

幻灯片 1

GBase 8a 案 例 集, 天 津 南 大 通 用 数 据 技 术 股 份 有 限 公 司 GBASE 版 权 所 有 2016, 保 留 所 有 权 利 如 果 通 过 本 文 的 介 绍, 使 您 了 解 GBase 8a 恰 是 您 巟 作 中 需 要 的 数 据 库 产 品, 戒 者 是

站在hadoop上看hive

學 科 100% ( 為 單 複 選 題, 每 題 2.5 分, 共 100 分 ) 1. 請 參 閱 附 圖 作 答 : (A) 選 項 A (B) 選 項 B (C) 選 項 C (D) 選 項 D Ans:D 2. 下 列 對 於 資 料 庫 正 規 化 (Normalization) 的 敘


R D B M S O R D B M S R D B M S / O R D B M S R D B M S O R D B M S 4 O R D B M S R D B M 3. ORACLE Server O R A C L E U N I X Windows NT w w

SDK 概要 使用 Maven 的用户可以从 Maven 库中搜索 "odps-sdk" 获取不同版本的 Java SDK: 包名 odps-sdk-core odps-sdk-commons odps-sdk-udf odps-sdk-mapred odps-sdk-graph 描述 ODPS 基

1 o o o CPU o o o o o SQL Server 2005 o CPU o o o o o SQL Server o Microsoft SQL Server 2005

11 天 山 区 区 环 卫 清 运 队 机 械 工 程 师 4011 C 1 不 限 不 限 机 电 具 有 两 以 工 作 经 12 天 山 区 乌 鲁 木 齐 市 第 15 小 会 计 4012 C 1 不 限 不 限 会 计 财 会 财 电 算 化 临 床 医 预 防 医 公 共 卫 生 与


6112 http / /mops.tse.com.tw http / /


02 责任编辑 张晋芬 2 16:06:31

2013_6_3.indd

附3

untitled

PowerPoint Presentation

0SQL SQL SQL SQL SQL 3 SQL DBMS Oracle DBMS DBMS DBMS DBMS RDBMS R DBMS 2 DBMS RDBMS R SQL SQL SQL SQL SELECT au_fname,au_ lname FROM authors ORDER BY

Compressing Encrypted Rules

Transcription:

关于我们 : 星环科技是目前国内极少数掌握大数据核心技术的高科技公司, 专注于企业级大数据核心平台数据库软件的研发 公司产品 Transwarp Data Hub (TDH) 以其业界最完整的 SQL on Hadoop 支持 ; 独特的对分布式 ACID 数据一致性支持 ; 以及对 SSD 优化提高集群性价比等特点, 比肩硅谷同行 产品的功能和性能在业界处于领先水平 在全球去 IOE 的大背景下,TDH 已成为在数据仓库, 数据集市等领域替代传统数据库公认的大数据产品 481183301 200233 4008-079-976 www.transwarp.io

Transwarp Inceptor

Inceptor 产品组件和功能特点 Inceptor 产品组件和功能特点 Transwarp Inceptor 是星环科技推出的用于数据仓库和交互式分析的大数据平台软件, 基于 Hadoop 和 Spark 技术平台打造, 加上 8 大创新的功能组件, 有效的解决了企业级大数据数据处理和分析的各种技术难题, 帮助企业快速的构建和推广数据业务 TranswarpInceptor 提供完整的 SQL 支持, 支持主流的 SQL 模块化扩展, 兼容通用开发框架和工具, 支持事务特性保证数据的准确性, 允许多租户的隔离与管理, 能够利用内存或者 SSD 来加速数据的读取, 支持与关系型数据库实时对接并做统计分析, 辅以高性能的 SQL 执行引擎, 从而能够给企业提供高性价比和高度可扩展的解决方案 JDBC ODBC SHELL Batch & Interactive SQL Engine 多租户管理组件 Guardian SQL 2003 Compiler 语法解析器 SQL Parser 优化器 COST BASED OPTIMIZER Transaction Manager 分布式增删改 Distributed CRUD 事务并发控制器 Concurrency Controller PL/SQL Compiler 存储过程解析器 Procedure Parser 控制流优化器 CFG Optimizer 计算资源配置 Resource Management 用户安全授权管理 Security & Authorization 代码生成 CODE GENERATOR 并行优化器 Parallel Optimizer 行级安全控制 Row Level Security Distributed Execution Engine 分布式执行引擎 Stargate 数据源连接器 Transwarp Holodesk 分布式内存列式存储 Transwarp HDFS2 分布式持久化数据存储 Transwarp Hyperbase 分布式实时数据库 Transwarp RDBMS 关系数据库 SQL 编译器 SQL 2003 Compiler 企业级数据仓库 数据集市等应用大多基于 SQL 来开发, 而 Hadoop 业界的产品大部分对 SQL 的兼容程序比较差, 或者不支持 SQL 的模块化扩展, 因而应用迁移的成本非常高, 甚至是不具备可行性 为了降低应用迁移成本,Transwarp Inceptor 开发了完整的 SQL 编译器, 支持 ANSI SQL 92 和 SQL 99 标准, 并且支持 ANSI SQL 2003 OLAP 核心扩展, 可以满足绝大部分现有的数据仓库业务对 SQL 的要求, 方便应用平滑迁移

除了更好的 SQL 语义分析层以外,Inceptor 包含强大的优化器保证 SQL 在引擎上有最佳的性能 Inceptor 包含 3 级优化器 : 首先是基于规则的优化器, 应用静态优化规则并生成一个逻辑执行计划, 其次是基于成本的优化器, 通过衡量多个不同执行计划的 CPU,IO 和网络成本, 来选择一个更合理的计划并生成物理执行计划 ; 最后是代码生成器, 对一些比较核心的执行逻辑生成更高效的执行代码或者 Java Byte Code, 从而保证 SQL 业务在分布式平台上有最佳性能 存储过程编译器 PL/SQL Compiler 国内现有的数据仓库应用大都基于 SQL 2003, 而且大量使用存储过程来构建复杂应用 因此除了 SQL 编译器以外,Transwarp Inceptor 还包含存储过程编译器用于对存储过程的编译和执行 Inceptor 支持 OraclePL/SQL 和 DB2SQLPL 两大主流 SQL 标准, 包括完整的数据类型 流程控制 Package 游标 异常处理以及动态 SQL 执行, 并且支持在存储过程中做高速统计, 增删改查与分布式事务操作 因此, 有了存储过程编译器的补充,Inceptor 可以满足绝大部分数据应用的从关系型数据库到 Inceptor 平台的迁移 除了 SQL 语法层面的支持, 存储过程编译器包含一个完整的优化器, 包含 CFGOptimizer,Parallel Optimizer, 和 DAG Optimizer CFG Optimizer 对存储过程中的代码进行优化, 完成循环展开, 冗余代码消除, 函数内联等主要优化 ParallelOptimizer 将一些原本串行的逻辑做并行化处理, 利用集群的计算能力来提高整体执行速度, 对一些关键的功能如游标的性能提升非常明显 DAGOptimizer 会根据生成的 DAG 图二次优化, 生成更合理的物理执行计划, 重点降低了 shuffle 等任务开销 为了有效的和其他数据库兼容,Inceptor 支持通过不同的方言设置来隔离不同的 SQL 标准之间的差异, 从而避免数据计算和处理标准的二义性, 因此保证数据处理的正确性 事务管理单元 Transaction Manager 为了更好的满足数据仓库业务场景的需求,Inceptor 提供完整的增删改 SQL 支持, 允许从多数据源中加工数据 同时为了有效的保证数据处理的准确性,Inceptor 提供了分布式事务的支持, 保证了处理过程中数据的 ACID, 即原子性 一致性 隔离性和持久性 Inceptor 支持以 Begin Transaction 启动事务, 以 commit 或者 rollback 来结束事务 事务管理单元通过两阶段封锁协议和 MVCC 来实现一致性和隔离性的控制, 支持 Serializable Snapshot Isolation 隔离级别, 因而可以保证并发情况下的事务一致性 Inceptor 支持 SQL 2003 中关于增删改查部分的语义规范, 支持 Insert,Update,Delete,Truncate 以及 Merge Into 原语, 支持单条或者从其他数据表以及嵌套查询中更新数据表, 并且内置一致性检查功能以防止非法改动 通过 SQL 编译器的优化, 增删改 SQL 执行计划通过分布式引擎在集群中并发执行, 系统整体的吞吐率能够达到关系数据库的数倍, 能够满足批处理业务的高吞吐率要求 另外, 通过合理的资源规划,Inceptor 在做数据的增删改的同时, 允许租户对数据做高速的统计分析

Inceptor 产品组件和功能特点 分布式内存列式存储 Holodesk 为了加速交互式分析的速度,Inceptor 推出了基于内存或者 SSD 的列式存储引擎 Holodesk Holodesk 将数据在内存或者 SSD 中做列式存储, 辅以基于内存的执行引擎, 可以完全避免 IO 带来的延时, 极大的提高数据扫描速度 除了列式存储加快统计分析速度,Holodesk 支持为数据字段构建分布式索引 通过智能索引技术为查询构建最佳查询方案,Inceptor 可以将 SQL 查询延时降低到毫秒级 Holodesk 允许用户对多字段组合构建 OLAP-Cube, 并将 cube 直接存储于内存或者 SSD 上, 无需额外的 BI 工具来构建 Cube, 因此对于一些复杂的统计分析和报表交互查询,Holodesk 能够实现秒级的反应 除了性能优势,Holodesk 在可用性方面也表现出色 Holodesk 的元数据和存储都原生支持高可用性, 通过一致性协议和多版本来支持异常处理和灾难恢复 在异常情况下,Holodesk 能够自动恢复重建所有的表信息和数据, 无需手工恢复, 从而减少开发与运维的成本, 保证系统的稳定性 Inceptor 重点优化了基于 SSD 的 Holodesk 性能, 使得基于 PCIE SSD 的性能达到全内存的方案的 80% 以上 因此结合使用低成本的内存 / 闪存混合存储方案, 可接近全内存存储的分析性能, 保证解决方案的高性价比 分布式执行引擎 Distributed Execution Engine Inceptor 基于 Apache Spark 深度开发了专用分布式计算引擎, 不仅大幅提高了计算性能, 而且有效的解决了 Spark 在稳定性方面的很多问题, 确保计算引擎能够 7x24 小时无间断运行 此外,Inceptor 引擎独立构建了分布式数据层, 将计算数据从计算引擎 JVM 内存空间中独立出来, 因此可以有效减少 JVM GC 对系统性能和稳定性的影响 在 SQL 执行计划优化方面,Inceptor 实现了基于代价的优化器和基于规则的优化器, 辅以 100 多种优化规则, 可以保证 SQL 应用在无需手工改动的情况下能够发挥最大的性能 对于数据倾斜等常见的数据处理难题, 执行引擎也能够自动识别并加以优化, 能够解决绝大部分存在数据倾斜的计算场景, 杜绝数据倾斜对系统稳定性的影响 为了更好的适应各种数据场景,Inceptor 的执行引擎包含两种执行模式 : 低延时模式和高吞吐模式 低延时模式主要应用在数据量比较小的场景, 执行引擎会生成执行延时低的物理执行计划, 通过减少或避免一些高延时的任务 ( 如 IO, 网络等 ) 来保证 SQL 的执行时间很短, 达到或者逼近关系型数据库在这些场景下的性能 高吞吐模式主要应用在大数据的场景, 通过合理的分布式执行来提高超大数据量上的复杂统计分析的性能 因此,Inceptor 的执行引擎可以满足从 GB 到 PB 的各种数据量上的数据业务需求 数据源连接器 Stargate 企业数据可能会分散在多个系统中, 彼此不能共享数据或者进行相关的分析, 从而造成数据孤岛的现象 通过构建统一的大数据平台可以有效的解决大部分场景下的数据孤岛问题, 然后仍然存在一些数据因为各种关系无法迁移统一平台上的现象 为了解决此类问题,Inceptor 推出了数据源连接器 Stargate

Stargate 是连接执行引擎和各种数据源的连接器, 可以将多种不同数据源的数据接入引擎做实时的统计分析, 而无需事先将数据导入 HDFS, 从而更加方便用户的业务构建多样化需求 在语法层面,Inceptor 兼容 Oracle DB-Link 规范, 通过创建 database link 来预先建立和其他数据源的连接池, 然后就可以在 SQL 中通过 table_name@database link 的方式在 Inceptor 中实时访问该数据源的数据, 无需其他操作 在执行计划开始后,Stargate 通过预先建立的连接从其他数据源中抽取需要的数据, 输入进入执行引擎层参与 SQL 计算 在计算完成后, 释放相关的数据库连接以及对应的资源 目前 Stargate 支持关系数据库包括 Oracle,DB2,Mysql,Teradata 以及 PostgreSQL 此外,Stargate 目前可以接入 Holodesk,HDFS,Hyperbase 等平台内数据源, 未来将支持 Elastic Search 和 Redis 作为数据源 多租户管理组件 Guardian Guardian 提供完整的多租户管理功能, 包括租户资源管理, 租户权限管理以及安全控制等模块, 可以方便企业在统一的大数据平台上的多租户的管理和分配 Guardian 允许对多租户进行 CPU 和内存资源的配置和管理, 不同的租户使用不同的 CPU 和内存资源池, 因而不会互相干扰 此外可以给不同的用户设定不同的优先级来实现服务质量控制 (QoS) Guardian 支持通过 SQL 对用户磁盘空间的配置和管理, 包括对数据空间和临时空间的配额, 更改和管理, 以方便平台对存储资源的合理分配, 管控和计费 Guardian 支持使用 LDAP 协议做用户访问控制, 支持 Kerberos 协议用作底层访问控制, 从而保证数据的安全性和隔离性 Guardian 支持一整套基于 SQL 的数据库 / 表的权限控制, 管理员可以设置用户对表的查询, 修改, 删除等权限, 并包含一整套的角色设定, 可以通过角色组的设置来便捷的实现用户权限控制 此外,Guardian 支持 Row Level Security, 对表的数据进行精确的行级权限控制 在多租户的场景下, 可以保证不同租户只能看到表中自身有权限的数据, 而不会看到属于其他租户的数据, 从而有精确的数据隔离 中间件管理单元 Connector Inceptor 完整的支持 JDBC4.0 和 ODBC3.5 标准, 因此能够支持 Hibernate/Spring 等中间件, 完全兼容 Tableau/QlikView/Cognos 等报表工具, 可以和企业当前的数据应用层完整对接 此外,Inceptor 也支持与其他数据同步工具的对接, 已经完成了和 IBM CDC 的相互认证与整合, 并且能够支持 Oracle Golden Date,SAP Data Service 等工具 因此, 企业用户可以实时的将交易数据同步到 Inceptor 内做交互式统计分析业务

基于 Inceptor 的大数据平台建设方案 基于 Inceptor 的大数据平台建设方案 数据仓库建设方案 在当前移动互联的浪潮下, 数据 呈现爆炸式增长, 企业内部和外部的流处理实时数据自助报表分析预测 R 语言量化模型核心系统数据产生的速度超过以往任何时刻 信用卡系统 网银以往基于传统关系数据库或者 MPP 客服系统数据仓库平台 (Transwarp Data Hub) 构建的数据仓库往往处理能力不够, ECIF-MDM 贴源区基础区主题区元数据区并且可扩展性不强, 无法满足企业... 国际业务平台对大规模数据的处理要求 基于 Transwarp Inceptor 构建的 非结构化处理平台 (Hadoop & Hyperbase) 大数据平台, 处理能力更强, 并发性 日志处理影像储存语音分析视频识别语历史备份库更高, 更易于扩展, 能够极大的提速 数据仓库的批量处理能力 前端通过 Sqoop,flume 等 ETL 工具整合现有企业内部数据, 并可以通过 Kafka 等工具实时接入外部数据, 存 Inceptor 并且完成对海量的数据进行存储 清洗 加工 建模等, 把先前无法利用的数据充分利用, 提升对数据的认识 此外, 通过在大数据平台中部署实时决策平台 (Stream) 和数据探索平台 (Discover), 辅以 Inceptor 的强大处理能力, 企业可以构建更多开创型应用, 如准实时系统日志分析应用 客户实时风险监测 实时的用户体验优化与客户行为分析 客户标签化画像应用, 加快业务数据分析团队自主的数据探索和业务建模过程 Kafka 数据集市建设方案 交互式分析和探索是数据集市市场的重点业务, 但是传统关系型数据库或者基于 Map Reduce 的计算框架对临时的实时性要求高的交互式分析无法快速响应, 查询效率低, 无法进行有效数据探索 Inceptor 提供基于内存或者 SSD 的列式存储 Holodesk, 并且提供基于内存的超强统计分析能力, 数据通过 ETL 工具导入 Inceptor Holodesk 中, 在内存或者 SSD 上建立分布式索引和 OLAP-Cube Tableau Cognos 数据集市 Inceptor SQL Engine Holodesk Text 日志 OLAP-Cube ORC OBIEE SQL2003 PL/SQL ORUD:ORC Transaction 数据仓库 RStudio Discover HDFS Flume FTP Sqoop 系统日志账单文件 Oracle MySQL DB2 Oozie With HUE 报表工具通过 JDBC/ODBC 接口来访问 Cube, 无需在 BI 工具中额外构建 Cube, 极大的降低了交互式分析的延时 此外, 通过集成 R 语言以及并行化大量的数据挖掘算法, 用户可以实时的从 Holodesk 中数据抽取数据进行数据挖掘和探索

准实时数据分析平台方案 Oracle MySQL DB2 Oracle Golden Gate IBM CDC Inceptor Holodesk ORC Tableau Cognos OBIEE 一些企业将交易型业务和分析型业务分开部署, 但是需要分析系统能够对交易数据做实时统计分析 传统的 MPP 或者 Hadoop 无法满足类似场景的需求, 而 Inceptor 可以帮助用户打造相关的解决方案 在上层平台通过 IBM CDC 或者 Oracle Golden Gate 等实时同步工具连接关系数据库, 这些实时同步工具通过分析数据更改日志来生成输入数据, 并标记原始事务的边界 Inceptor JDBC/ODBC 驱动能够识别相关的事务和数据, 并生成 Inceptor 的事务和增删改操作, 然后将数据写入 Inceptor 最后报表工具就可以实时的对相关的数据做统计分析 基准测试 TPC-DS 认证 TPC-DS 是 TPC 组织制定的用于评测决策支持系统 ( 或数据仓库 ) 的标准 SQL 测试集 这个测试集包含对大数据集的统计 / 报表生成 / 联机查询 / 数据挖掘等复杂应用, 测试用的数据也是充分设计, 尽量模拟真实数据的特点 由于和企业数据仓库类应用非常类似,TPC-DS 成为客观衡量多个不同数据仓库技术的最佳测试集 TPC-DS 在 Transwarp Inceptor 上能够完整运行, 并通过第三方专业机构上海软件测评中心的专业认证, 表明 Inceptor 能够非常有效的满足数据仓库业务的需求 Inceptor 相对其他引擎性能提升倍数 5.5 4.7 2.7 Impala 2.1 Tez 0.5.4 SparkSQL 1.4.1 结语 Transwarp Inceptor 是星环科技推出的大数据分析平台软件, 支持 99% 的 SQL2003 标准, 是 Hadoop 业界唯一一个同时支持 Oracle PL/SQL 和 DB2 SQL PL 扩展的平台, 也是唯一一个支持 ACID 分布式事务的大数据平台 同时,Inceptor 也是 Hadoop 业界首个支持 SSD 和内存存储的计算引擎, 可比基于硬盘的方案快一个数量级 Transwarp Inceptor 定位于数据仓库, 数据集市和准实时数据分析市场, 可以替代基于关系数据库或者 MPP 的解决方案, 增强企业用户的数据分析能力, 帮助企业挖掘数据价值, 构建数据时代的关键应用