大数据关键技术发展趋势及产业构成

Similar documents
大数据关键技术发展趋势及产业构成

合集

白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项

培 训 机 构 介 绍 中 科 普 开 是 国 内 首 家 致 力 于 IT 新 技 术 领 域 的 领 航 者, 专 注 于 云 计 算 大 数 据 物 联 网 移 动 互 联 网 技 术 的 培 训, 也 是 国 内 第 一 家 开 展 Hadoop 云 计 算 的 培

第 06 期 李祥池 : 基于 ELK 和 Spark Streaming 的日志分析系统设计与实现 1 日志 1.1 日志定义 IT 1.2 日志处理方案演进 v1.0 v2.0 Hadoop Storm Spark Hadoop/Storm/Spark v3.0 TB Splunk ELK SI

Transwarp Data Hub including Apache Hadoop 2.0

Reducing Client Incidents through Big Data Predictive Analytics

第 02 期 1 医 疗 信 息 现 状 20% EMR Electronic Medical Record HIS HIS [1-2] 张 肖 等 : 基 于 大 数 据 的 医 疗 健 康 创 新 应 用 2 大 数 据 环 境 下 医 疗 数 据 特 征 分 析 PC [3]

星环科技被 Gartner 列为主流 Hadoop 发行版厂商 在十月份的 webinar Hadoop 2016: Moving Into Mainstream 中,Gartner 宣布了市场中的新成员 星环科技的加入 而在最新发布的研究报告 Market Guide for Hadoop Dis

水晶分析师

ABOUT ME AGENDA 唐建法 / TJ MongoDB 高级方案架构师 MongoDB 中文社区联合发起人 Spark 介绍 Spark 和 MongoDB 案例演示

PowerPoint 演示文稿

业 务 与 运 营 Business & Operation (Transform) 加 载 (Load) 至 目 的 端 的 过 程, 该 部 分 在 数 据 挖 掘 和 分 析 过 程 中 为 最 基 础 的 一 部 分 一 个 良 好 的 ETL 系 统 应 该 有 以 下 几 个 功 能 1

目 录 1 不 断 开 发 工 具 以 管 理 大 数 据 Hadoop* 简 介 : 支 持 从 大 数 据 中 获 得 出 色 价 值 的 可 靠 框 架 大 数 据 技 术 的 行 业 生 态 系 统 在 关 键 组 件 中 实 现 平 衡...

Microsoft PowerPoint - Big Data rc Sharing掃盲時間.ppt [相容模式]

% ~ AAA

大数据分析技术 [13] 1.1 大数据 Big Data [2] IBM 5V Volume Velocity Variety Value Veracity Volume Velocity Variety Value Veracity 表 1 大数据特征表 Tab.1

GBase 8a 案 例 集, 天 津 南 大 通 用 数 据 技 术 股 份 有 限 公 司 GBASE 版 权 所 有 2016, 保 留 所 有 权 利 如 果 通 过 本 文 的 介 绍, 使 您 了 解 GBase 8a 恰 是 您 巟 作 中 需 要 的 数 据 库 产 品, 戒 者 是

PowerPoint 演示文稿

摘 要 SAS 全 球 論 壇 會 議 (SAS GLOBAL FORUM) 係 由 非 營 利 組 織 SAS 軟 體 全 球 用 戶 社 群 (SAS GLOBAL USERS GROUP) 舉 辦 之 年 度 國 際 研 習 會, 主 要 探 討 SAS 在 金 融 醫 藥 衛 生 生 產 運

1 o o o CPU o o o o o SQL Server 2005 o CPU o o o o o SQL Server o Microsoft SQL Server 2005

PowerPoint Presentation

IBM SPSS Modeler 14.2 建模节点

Compressing Encrypted Rules

Inceptor_2016白皮书 - 看稿文件

思 想, 还 是 思 想 才 使 我 们 与 众 不 同 编 辑 部 : 工 业 和 信 息 化 部 赛 迪 研 究 院 通 讯 地 址 : 北 京 市 海 淀 区 万 寿 路 27 号 电 子 大 厦 4 层 邮 政 编 码 : 联 系 人 : 刘 颖 董 凯 联 系 电 话 :010

(Electronic Data Interchange) (Executive Information System) (Economic Order Quantity) (Enterprise Resource Planning) (Flexible Manufacture System) (F

<4D F736F F D F6F70B4F3CAFDBEDDBCB0BAA3C1BFCAFDBEDDCDDABEF2D3A6D3C3B9A4B3CCCAA6C5E0D1B5B0E056312E332E646F63>

2013_6_3.indd


PowerPoint 演示文稿

福建福州农村商业银行股份有限公司信息披露制度

學 科 100% ( 為 單 複 選 題, 每 題 2.5 分, 共 100 分 ) 1. 請 參 閱 附 圖 作 答 : (A) 選 項 A (B) 選 項 B (C) 選 項 C (D) 選 項 D Ans:D 2. 下 列 對 於 資 料 庫 正 規 化 (Normalization) 的 敘

数据分析技术介绍

OOAD PowerDesigner OOAD Applying PowerDesigner CASE Tool in OOAD PowerDesigner CASE Tool PowerDesigner PowerDesigner CASE To

6112 http / /mops.tse.com.tw http / /

看 数 据, 在 人 群 中 找 到 自 己 2015 年 有 749 万 本 科 毕 业 生 估 算 全 国 985 高 校 毕 业 生 人 数 : 约 17 万 占 毕 业 生 人 数 的 2.26%; 估 算 全 国 一 本 高 校 毕 业 生 人 数 : 约 万, 占 毕 业

ebook 132-2

3.1 SQL Server 2005 Analysis Services Unified Dimension Model (UDM) 3 ( Ad-Hoc) SQL Server 2005 E - R T-SQL(Star Schema) (Data Mart) (ETL) ( Ora

背 景 概 述 企 业 需 要 一 种 灵 活 的 平 台 来 快 速 构 建 测 试 和 扩 展 新 的 应 用 程 序 服 务 并 对 市 场 中 发 生 的 数 字 化 变 革 作 出 反 应 数 字 化 变 革 正 在 加 快 步 伐, 因 为 流 程 和 信 息 的 日 益 融 合 带 来

信 息 化 研 究

Presentation title goes here

SAP HANA 最 简 单 的 理 解 ERP CRM SRM BI 列 存 储 2

Azure_s

用面向大数据与分析的思科 UCS 集成基础设施搭建 星环一站式大数据综合平台

untitled

VASP应用运行优化

PowerPoint 演示文稿

PowerPoint 演示文稿

<4D F736F F D20B5E7D7D3C9CCCEF1D7A8D2B5C5E0D1F8B7BDB0B8D0DEB6C1D6B8C4CFA3A BCB6A3A92E646F63>

93碩簡章

02 责任编辑 张晋芬 2 16:06:31

A API Application Programming Interface 见 应 用 程 序 编 程 接 口 ARP Address Resolution Protocol 地 址 解 析 协 议 为 IP 地 址 到 对 应 的 硬 件 地 址 之 间 提 供 动 态 映 射 阿 里 云 内

FAQ -PowerDesigner9.5.DOC

PowerPoint 簡報

附3

一 公 司 简 介 993 年, 顺 丰 诞 生 于 广 东 顺 德 自 成 立 以 来, 顺 丰 始 终 专 注 于 服 务 质 量 的 提 升 持 续 加 强 基 础 建 设 积 极 研 发 和 引 进 具 有 高 科 技 含 量 的 信 息 技 术 与 设 备 以 提 升 作 业 自 动 化

可视化管理系统在银行业数据中心的应用

ApacheEagle-陈浩-GOPS2016深圳大会_v1.0

作 者 :Shefali Patel 特 约 作 者 :Jeremiah Stone Scott Duhaime 和 Venkat Eswara 目 录 03 工 业 大 数 据 的 机 会 和 潜 力 05 大 企 业 的 工 业 大 趋 势 和 挑 战 08 GE 方 法 : 通 过 机 器 和

美國政府推行 大數據的研究與發展計畫, 希望藉著提升從大型複雜的資料中提取知識的能力, 能加快科學和工程的開發並保障國家安全 資料科學與大數據 National Institute of Standards and Technology, NIST Jim Gray NI

Contents Viewpoint Application Story 05 News & Events 06 Technology Forum Customer Partnership Cover Story Advisory Board Inside Advantech Beautiful L

R D B M S O R D B M S R D B M S / O R D B M S R D B M S O R D B M S 4 O R D B M S R D B M 3. ORACLE Server O R A C L E U N I X Windows NT w w

目錄

Microsoft Word - 招股说明书.doc

延 安 日 记

Microsoft PowerPoint ARIS_Platform_en.ppt

<4D F736F F D20CBC4B4A8BEC3D4B6D2F8BAA3C8EDBCFEB9C9B7DDD3D0CFDEB9ABCBBECAD7B4CEB9ABBFAAB7A2D0D0B9C9C6B1D5D0B9C9CBB5C3F7CAE9A3A8C9EAB1A8B8E C4EA35D4C23139C8D5B1A8CBCDA3A92E646F63>

13 A DSS B DSS C DSS D DSS A. B. C. CPU D. 15 A B Cache C Cache D L0 L1 L2 Cache 16 SMP A B. C D 17 A B. C D A B - C - D

國立屏東教育大學碩士班研究生共同修業要點

( 三 ) 我 国 发 展 大 数 据 产 业 发 展 的 建 议 以 大 数 据 供 需 两 端 ( 数 据 源 和 应 用 环 节 ) 为 抓 手 实 现 重 点 突 破, 大 力 推 动 全 社 会 的 数 据 开 放, 尤 其 是 政 府 数 据 的 开 放, 力 争 在 短 期 内 降 低

目 录 简 介.3 ` 体 系 结 构...4 数 据 层...5 数 据 连 接 器...6 Tableau Server 组 件...7 网 关 / 负 载 平 衡 器...8 客 户 端 :Web 浏 览 器 和 移 动 应 用 程 序...8 客 户 端 :Tableau Desktop..

4. 投 资 者 : 指 满 足 证 券 投 资 基 金 合 法 投 资 者 要 求 且 持 有 南 京 银 行 个 人 活 期 存 款 账 户 的 自 然 人 5. 基 金 账 户 : 指 为 提 供 基 金 份 额 登 记 服 务 的 登 记 机 构 为 投 资 者 开 立 的 记 录 其 持

Connected Intelligence:ビッグデータ技術を活用したIT運用

第壹章

Slide 1

51434S Fundamentals of the UNIX system 5 40, H3064S HPE-UX System and Network Administration I 5 40, H3065S HPE-UX System

<4D F736F F F696E74202D20C8EDBCFEBCDCB9B9CAA6D1D0D0DEBDB2D7F92E707074>

untitled

Etu Helps You to Understand 2

(2) 标 识 构 件 活 动 首 先 需 要 获 得 系 统 的 基 本 结 构, 然 后 对 基 本 结 构 进 行 分 组, 最 后 将 基 本 结 构 进 行 打 包 成 构 件 (3) 架 构 需 求 评 审 活 动 组 织 一 个 由 系 统 涉 众 ( 用 户 系 统 分 析 师 架

目錄... ivv...vii Chapter DETECT

基于 SQL-on-Hadoop 的 网络日志分析


Oracle Database 10g: SQL (OCE) 的第一堂課

文件範本

Value Chain ~ (E-Business RD / Pre-Sales / Consultant) APS, Advanc

PowerPoint Presentation

次世代のITインフラ“Compute”を先取り!HPが統合型アプライアンス「HP ConvergedSystem」を推進する理由

(Big Data: Challenges and opportunities) 2014/11/04 Copyright 2013 ITRI In God we trust; all other show data! 1

XXX专业本科人才培养方案

文件範本

/ / / / / /

简 介 Excellent 天 才 也 难 敌 协 作 2014 年 6 月 12 日, 西 班 牙 队 以 卫 冕 冠 军 和 最 受 关 注 球 队 的 身 份 参 加 FIFA 世 界 杯 六 天 后, 他 们 在 一 连 串 令 人 震 惊 的 失 败 后 惨 遭 淘 汰 : 先 是 败 给

untitled

Microsoft Word 記錄附件

声 明 本 人 郑 重 声 明 : 此 处 所 提 交 的 硕 士 学 位 论 文 基 于 等 级 工 鉴 定 的 远 程 考 试 系 统 客 户 端 开 发 与 实 现, 是 本 人 在 中 国 科 学 技 术 大 学 攻 读 硕 士 学 位 期 间, 在 导 师 指 导 下 进 行 的 研 究

特別講演4 「情報インフラ活用(クラウド、ネットワーク等)の観点から」講演資料1

Wy159.mps

附件9 电梯运行安全监测管理信息平台技术规范 第11部分:系统信息安全技术规范(征求意见稿)

Transcription:

大数据技术的最新进展和发展趋势 孙元浩星环科技 Founder & CTO transwarp.io 1

Hadoop 的发展历程回顾 2

大数据技术的软件栈 ETL 数据装载工具 Workflow 工作流开发工具 数据质量管理工具 可视化报表工具 机器学习建模工具 统计挖掘开发工具 资源管理工具 分析管理工具 SQL 批处理 Batch Processing 交互式分析 OLAP Analysis 实时数据库 OLTP Transactional Processing 数据挖掘机器学习算法库 / 框架 Machine Learning 深度学习 Deep Learning 图分析引擎 Graph Analysis 流处理引擎 Streaming Processing 领域级引擎 批处理框架 Map/Reduce2, Tez 高性能处理框架 Spark 向量处理框架 TensorFlow 通用计算引擎 短时任务资源管理框架 YARN 长时任务资源管理框架 Mesos 资源隔离 / 调度 / 管理框架 Kubernetes 资源管理框架 分布式文件系统 HDFS 分布式大表 HBase 搜索引擎 Elastic Search 分布式缓存 Redis 消息队列 Kafka 分布式协作服务 Zookeeper 分布式存储引擎 3

进展一 : 分布式计算已逐渐成为主流计算方式 Traditional Data Analysis 星环 SQL on Hadoop 已经能够高效处理 100TB 数据的复杂分析 Transaction Relational Database Batch Data Warehouse Analyze 3000 Transwarp Inceptor s Performance TPC-DS Execution Time for 99 Queries (in minutes) 2500 2000 Test environment: 29 worker nodes 2 CPUs, 12 Cores, E5-2620 v2 96GB memory Network: 2 X 1Gbps Disks: 12 X 3TB Big Data Analysis 1500 Unstructured Cluster 1000 Streaming Organize Analyze 500 0 Devices (MapReduce) 1TB 10TB 30TB 100TB 星环大数据集群已经可以在生产环境中处理 20PB 的数据 4

进展二 : 交互式分析技术日益成熟 HUE/Zeppelin 图形化数据分析查看 主流报表工具 星环 Cube 设计工具 Waterdrop SQL 开发工具 Rstudio R 语言 Web IDE 星环 Midas 图形化挖掘工具 星环 Hyperbase 明细查询 影像检索 文档检索 全局索引 全文索引 数据处理工作流调度 星环 Inceptor SQL Execution Engine 智能索引技术 Stargate 星环 Holodesk 交互式数据探索 分布式内存 /SSD 列式存储 公共主题模型层 分布式统计算法库 Discover 数据关联挖掘 分布式挖掘算法库 Based on HDFS 元数据管理 数据稽核 DWD 基础明细层 ORC 事务表 ODS 贴源层文本文件 5

交互式分析性能对比 :TPC-H 1TB Inceptor4.6 vs GP4.3.10 1. 数据存放 HDFS, 不建 CUBE Inceptor 相对 GP 的加速比 2. 数据存放 Holodesk, 建 CUBE 相比 GP 的加速比相比 Inceptor 不建 Cube 的加速比 The TPC Benchmark H (TPC-H) is a decision support benchmark. It consists of a suite of business oriented ad-hoc queries and concurrent data modifications. 测试环境 : 4 个节点, 每个节点 CPU: 2x 6 cores, E52620 v2@2.10ghz 内存 :256G 网络 : 千兆网卡磁盘 :6X900G 目的 : 通过预先建立 Cube, 加速大数据交互式分析 对象 : 固定报表 公共主题模型等 优点 : 图形化界面操作方便 表达能力强 ( 雪花模型, 支持表达式 子查询等 ) 建 Cube Overhead 小 6

进展三 : 数据分析算法逐渐丰富, 工具普及化 R/Python 语言开发 => 算法工程师, 数据科学家 交互式挖掘 => 业务分析师, 数据科学家 数据预览 预处理 特征工程 模型训练 模型上生产 R 和 Midas 中可以连接 TDH 中数据表做数据预览 可以对列做 tag/feature 的管理 通过内置的分布式统计算法完成相关的预处理与数据分析 支持标准化, 归一化, 正则化, 缺失值填充, 数据分箱等 支持通过 Inceptor SQL 进行数据 ETL 处理 结合业务领域专家知识, 以及相关算法降维, 选择特征指标与维度 利用深度学习神经网络算法, 通过升维降低特征工程维度选取难度 用户通过 GUI 选择算法开发训练模型 模型编译成为 DAG, 由 Hubble 组件来调度任务 支持单机 R 算法和分布式算法训练模型 导出模型为 PMML PMML 模型可以转换成生产系统的代码, 部署到实际业务中 Dimension Reduction 主成分分析 Linear Regression 线性回归 Inceptor Deep Learning 深度学习 Discover Stream 7

进展四 : 融合事件驱动和批处理引擎 data mining on streams ATM 现场交易 POS 刷卡 人流信息 客服 飞行参数 智能风机光伏发电炼化厂 100k records/s/node 1KB/record 分布式队列 event@ t Event pipelines Alerts event@ t+1 SQL aggregation machine learning using java/scala/r transwarp stream A event-driven streaming engine 1. Streaming processing and batch processing are unified in one programming model 2. SQL and its extension is the unified declarative language for device monitoring and diagnostics. 3. ANSI SQL 2003 and PL/SQL are supported on streaming events. 4. Linear Algebra 5. Machine learning Usage cases in IoT & FS: Real-time event monitoring Real-time dashboard & statistics Real-time outlier detection Realt-ime fraud detection 8

后 Hadoop/Spark 时代的技术发展趋势 新技术在四个维度上加速创新 数据量 Volume 类型 Variety 速度 Velocity 价值 Value 驱动力来自结构化数据的不断增加, 企业需要性价比更高的技术方案 SQL on Hadoop 快速成熟,Big Data Database 将替代传统 relational database 传统的 MPP 分析型数据库将消失 驱动力来自对多种数据类型数据 ( 文本 图片 音频 视频 ) 的存储和分析需求 深度机器学习技术 ( 如 TensorFlow) 快速发展并得到应用, 基于 GPU/FPGA 的加速技术逐渐普及 从离线处理进步到实时数据处理, 特别是 IoT 的广泛部署, 推动了对实时计算的需求 Flink,Apex,SqlStream,Internana,ParStream, Transwarp Stream 等新技术, 融合了批处理和流处理, 提供强大易用的低延时实时计算能力, 将逐渐取代现有流处理技术 从历史统计发展到预测性分析 大数据的真正意义在于从数据中发现价值 数据挖掘 机器学习 图计算等产品和工具将日益普及, 使用门槛将极大降低, 普通业务人员很快能够自助进行分析建模 Stream real-time interactive batch RDBMS Guardian 安全管控 Inceptor PL/SQL 批处理交互式分析 Transwarp Proprietary 资源管理 YARN ( 内置 Transwarp Extension) 优化存储 HDFS ( 内置 Transwarp Erasure Code) TB Transwarp Manager Discover 数据挖掘机器学习 批处理 Pig 全文搜索 Elastic Search 批处理框架 MapReduce2 协作服务 Zookeeper PB Hyperbase NoSQL 数据库搜索 图计算 工作流 Oozie 数据集成 Sqoop Hyperbase 交互分析 Zeppelin 日志采集 Flume Discover Stream 流处理引擎 交互工具 HUE 消息队列 Kafka Apache Projects Data Alive 实时数据同步 Inceptor EB 9

Hadoop 及其生态系统将重构数据处理市场 BI / Visualizatio n Tools Big Data Predictive Real-time Vertical Sol n Data Analytics Forecast (IDC) >12bn $ Data Warehouse Platform Big Data Hadoop DW Generation DW Management >10bn $ Database Software Hadoop NoSQL NewSQL OLTP DBMS/NoSQL OLAP DBMS >29bn $ Extraction Tools Hadoop ETL Tools >2bn $ 10

大数据产业链日益繁荣 专业服务 定制开发 大数据应用软件 分析软件 模型可视化 工具等 大数据平台软件 11

2016 年是 Hadoop 技术大规模应用的战略转折点 Acceleration Point 未来五年大数据市场将以每年 30% 的速度增长 12

TRANSWARP 2014 13