大数据关键技术发展趋势及产业构成

Similar documents
大数据关键技术发展趋势及产业构成

合集

白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项

第 06 期 李祥池 : 基于 ELK 和 Spark Streaming 的日志分析系统设计与实现 1 日志 1.1 日志定义 IT 1.2 日志处理方案演进 v1.0 v2.0 Hadoop Storm Spark Hadoop/Storm/Spark v3.0 TB Splunk ELK SI

Reducing Client Incidents through Big Data Predictive Analytics

培 训 机 构 介 绍 中 科 普 开 是 国 内 首 家 致 力 于 IT 新 技 术 领 域 的 领 航 者, 专 注 于 云 计 算 大 数 据 物 联 网 移 动 互 联 网 技 术 的 培 训, 也 是 国 内 第 一 家 开 展 Hadoop 云 计 算 的 培

第 02 期 1 医 疗 信 息 现 状 20% EMR Electronic Medical Record HIS HIS [1-2] 张 肖 等 : 基 于 大 数 据 的 医 疗 健 康 创 新 应 用 2 大 数 据 环 境 下 医 疗 数 据 特 征 分 析 PC [3]

Transwarp Data Hub including Apache Hadoop 2.0

ABOUT ME AGENDA 唐建法 / TJ MongoDB 高级方案架构师 MongoDB 中文社区联合发起人 Spark 介绍 Spark 和 MongoDB 案例演示

目 录 1 不 断 开 发 工 具 以 管 理 大 数 据 Hadoop* 简 介 : 支 持 从 大 数 据 中 获 得 出 色 价 值 的 可 靠 框 架 大 数 据 技 术 的 行 业 生 态 系 统 在 关 键 组 件 中 实 现 平 衡...

星环科技被 Gartner 列为主流 Hadoop 发行版厂商 在十月份的 webinar Hadoop 2016: Moving Into Mainstream 中,Gartner 宣布了市场中的新成员 星环科技的加入 而在最新发布的研究报告 Market Guide for Hadoop Dis

Microsoft PowerPoint - Big Data rc Sharing掃盲時間.ppt [相容模式]

% ~ AAA

水晶分析师

PowerPoint 演示文稿

大数据分析技术 [13] 1.1 大数据 Big Data [2] IBM 5V Volume Velocity Variety Value Veracity Volume Velocity Variety Value Veracity 表 1 大数据特征表 Tab.1

福建福州农村商业银行股份有限公司信息披露制度

<4D F736F F D F6F70B4F3CAFDBEDDBCB0BAA3C1BFCAFDBEDDCDDABEF2D3A6D3C3B9A4B3CCCAA6C5E0D1B5B0E056312E332E646F63>

摘 要 SAS 全 球 論 壇 會 議 (SAS GLOBAL FORUM) 係 由 非 營 利 組 織 SAS 軟 體 全 球 用 戶 社 群 (SAS GLOBAL USERS GROUP) 舉 辦 之 年 度 國 際 研 習 會, 主 要 探 討 SAS 在 金 融 醫 藥 衛 生 生 產 運

业 务 与 运 营 Business & Operation (Transform) 加 载 (Load) 至 目 的 端 的 过 程, 该 部 分 在 数 据 挖 掘 和 分 析 过 程 中 为 最 基 础 的 一 部 分 一 个 良 好 的 ETL 系 统 应 该 有 以 下 几 个 功 能 1

GBase 8a 案 例 集, 天 津 南 大 通 用 数 据 技 术 股 份 有 限 公 司 GBASE 版 权 所 有 2016, 保 留 所 有 权 利 如 果 通 过 本 文 的 介 绍, 使 您 了 解 GBase 8a 恰 是 您 巟 作 中 需 要 的 数 据 库 产 品, 戒 者 是

PowerPoint 演示文稿

看 数 据, 在 人 群 中 找 到 自 己 2015 年 有 749 万 本 科 毕 业 生 估 算 全 国 985 高 校 毕 业 生 人 数 : 约 17 万 占 毕 业 生 人 数 的 2.26%; 估 算 全 国 一 本 高 校 毕 业 生 人 数 : 约 万, 占 毕 业

PowerPoint Presentation

ebook 132-2

93碩簡章

PowerPoint 演示文稿

数据分析技术介绍

思 想, 还 是 思 想 才 使 我 们 与 众 不 同 编 辑 部 : 工 业 和 信 息 化 部 赛 迪 研 究 院 通 讯 地 址 : 北 京 市 海 淀 区 万 寿 路 27 号 电 子 大 厦 4 层 邮 政 编 码 : 联 系 人 : 刘 颖 董 凯 联 系 电 话 :010

2013_6_3.indd

<4D F736F F D20CBC4B4A8BEC3D4B6D2F8BAA3C8EDBCFEB9C9B7DDD3D0CFDEB9ABCBBECAD7B4CEB9ABBFAAB7A2D0D0B9C9C6B1D5D0B9C9CBB5C3F7CAE9A3A8C9EAB1A8B8E C4EA35D4C23139C8D5B1A8CBCDA3A92E646F63>

1 o o o CPU o o o o o SQL Server 2005 o CPU o o o o o SQL Server o Microsoft SQL Server 2005

6112 http / /mops.tse.com.tw http / /

Azure_s

國立屏東教育大學碩士班研究生共同修業要點

OOAD PowerDesigner OOAD Applying PowerDesigner CASE Tool in OOAD PowerDesigner CASE Tool PowerDesigner PowerDesigner CASE To

一 公 司 简 介 993 年, 顺 丰 诞 生 于 广 东 顺 德 自 成 立 以 来, 顺 丰 始 终 专 注 于 服 务 质 量 的 提 升 持 续 加 强 基 础 建 设 积 极 研 发 和 引 进 具 有 高 科 技 含 量 的 信 息 技 术 与 设 备 以 提 升 作 业 自 动 化

(Electronic Data Interchange) (Executive Information System) (Economic Order Quantity) (Enterprise Resource Planning) (Flexible Manufacture System) (F

Presentation title goes here

( 三 ) 我 国 发 展 大 数 据 产 业 发 展 的 建 议 以 大 数 据 供 需 两 端 ( 数 据 源 和 应 用 环 节 ) 为 抓 手 实 现 重 点 突 破, 大 力 推 动 全 社 会 的 数 据 开 放, 尤 其 是 政 府 数 据 的 开 放, 力 争 在 短 期 内 降 低

PowerPoint 演示文稿

信 息 化 研 究

學 科 100% ( 為 單 複 選 題, 每 題 2.5 分, 共 100 分 ) 1. 請 參 閱 附 圖 作 答 : (A) 選 項 A (B) 選 項 B (C) 選 項 C (D) 選 項 D Ans:D 2. 下 列 對 於 資 料 庫 正 規 化 (Normalization) 的 敘

美國政府推行 大數據的研究與發展計畫, 希望藉著提升從大型複雜的資料中提取知識的能力, 能加快科學和工程的開發並保障國家安全 資料科學與大數據 National Institute of Standards and Technology, NIST Jim Gray NI

4. 投 资 者 : 指 满 足 证 券 投 资 基 金 合 法 投 资 者 要 求 且 持 有 南 京 银 行 个 人 活 期 存 款 账 户 的 自 然 人 5. 基 金 账 户 : 指 为 提 供 基 金 份 额 登 记 服 务 的 登 记 机 构 为 投 资 者 开 立 的 记 录 其 持

3.1 SQL Server 2005 Analysis Services Unified Dimension Model (UDM) 3 ( Ad-Hoc) SQL Server 2005 E - R T-SQL(Star Schema) (Data Mart) (ETL) ( Ora

延 安 日 记

次世代のITインフラ“Compute”を先取り!HPが統合型アプライアンス「HP ConvergedSystem」を推進する理由

IBM SPSS Modeler 14.2 建模节点

2

XXX专业本科人才培养方案

PowerPoint 演示文稿

PowerPoint 簡報

<4D F736F F F696E74202D20A46ABCC6BEDAA662AAABC170BAF4BB50BCC6A6ECBBC8A6E6A4A7C0B3A5CE5F763137>

Etu Helps You to Understand 2

ebook204-2

Compressing Encrypted Rules


可视化管理系统在银行业数据中心的应用

报 告 1: 郑 斌 教 授, 美 国 俄 克 拉 荷 马 大 学 医 学 图 像 特 征 分 析 与 癌 症 风 险 评 估 方 法 摘 要 : 准 确 的 评 估 癌 症 近 期 发 病 风 险 和 预 后 或 者 治 疗 效 果 是 发 展 和 建 立 精 准 医 学 的 一 个 重 要 前

<4D F736F F D20C9CFBAA3BFC6BCBCB4F3D1A7D0C5CFA2D1A7D4BA C4EAC7EFBCBEC8EBD1A7B2A9CABFD7CAB8F1BFBCCAD4CAB5CAA9CFB8D4F22D C8B7B6A8B8E5>

PowerPoint Presentation


02 责任编辑 张晋芬 2 16:06:31

应 用 为 先, 统 筹 规 划 摘 要 : 总 体 上 看, 我 国 的 云 计 算 还 没 有 进 入 良 性 发 展 的 轨 道 目 前 的 形 势 是 政 府 比 企 业 积 极, 企 业 比 用 户 积 极, 大 企 业 比 中 小 企 业 积 极, 建 设 数 据 中 心 比 推 广 应

目錄

A API Application Programming Interface 见 应 用 程 序 编 程 接 口 ARP Address Resolution Protocol 地 址 解 析 协 议 为 IP 地 址 到 对 应 的 硬 件 地 址 之 间 提 供 动 态 映 射 阿 里 云 内

附件9 电梯运行安全监测管理信息平台技术规范 第11部分:系统信息安全技术规范(征求意见稿)

背 景 概 述 企 业 需 要 一 种 灵 活 的 平 台 来 快 速 构 建 测 试 和 扩 展 新 的 应 用 程 序 服 务 并 对 市 场 中 发 生 的 数 字 化 变 革 作 出 反 应 数 字 化 变 革 正 在 加 快 步 伐, 因 为 流 程 和 信 息 的 日 益 融 合 带 来

一 2015 年 1-6 月 接 受 捐 赠 情 况 2015 年 1-6 月 兰 州 大 学 教 育 发 展 基 金 会 共 接 受 社 会 捐 赠 22 项, 到 账 金 额 万 元 兰 州 大 学 教 育 发 展 基 金 会 2015 年 1-6 月 度 接 受 捐 赠 明 细

中北大学常规事项财务报销操作指南

SAP HANA 最 简 单 的 理 解 ERP CRM SRM BI 列 存 储 2

2014_

第壹章

PowerPoint 演示文稿

51434S Fundamentals of the UNIX system 5 40, H3064S HPE-UX System and Network Administration I 5 40, H3065S HPE-UX System

存储视频监控封面(210×270mm)-0725

特別講演4 「情報インフラ活用(クラウド、ネットワーク等)の観点から」講演資料1

用面向大数据与分析的思科 UCS 集成基础设施搭建 星环一站式大数据综合平台

國軍統計表冊資訊化之研究

声 明 本 人 郑 重 声 明 : 此 处 所 提 交 的 硕 士 学 位 论 文 基 于 等 级 工 鉴 定 的 远 程 考 试 系 统 客 户 端 开 发 与 实 现, 是 本 人 在 中 国 科 学 技 术 大 学 攻 读 硕 士 学 位 期 间, 在 导 师 指 导 下 进 行 的 研 究

Slide 1

Inceptor_2016白皮书 - 看稿文件

Microsoft Word - 招股说明书.doc

目錄... ivv...vii Chapter DETECT

M.V. Cemtex Honor Prof. Barney GloverClive Smallman CASA BUGATTI414Mega City 317

(Big Data: Challenges and opportunities) 2014/11/04 Copyright 2013 ITRI In God we trust; all other show data! 1

<4D F736F F F696E74202D20C8EDBCFEBCDCB9B9CAA6D1D0D0DEBDB2D7F92E707074>

一 课 程 负 责 人 情 况 姓 名 吴 翊 性 别 男 出 生 年 月 基 本 信 息 学 位 硕 士 职 称 教 授 职 务 所 在 院 系 理 学 院 数 学 与 系 统 科 学 系 电 话 研 究 方 向 数 据 处 理 近 三 年 来

untitled

亿级大数据实时分析之旅

ApacheEagle-陈浩-GOPS2016深圳大会_v1.0

Microsoft Word - 《Hadoop大数据技术与应用》教学大纲.doc

文档 1

new_born_with_EB

1 重 要 提 示 基 金 管 理 人 的 董 事 会 及 董 事 保 证 本 报 告 所 载 资 料 不 存 在 虚 假 记 载 误 导 性 陈 述 或 重 大 遗 漏, 并 对 其 内 容 的 真 实 性 准 确 性 和 完 整 性 承 担 个 别 及 连 带 责 任 基 金 托 管 人 中 国

<4D F736F F D FA1B C4EAB9F3D6DDBDF0C8DAD4CBD0D0B1A8B8E6A1B7B6A8B8E5>

CH01.indd

Microsoft PowerPoint - TTCN-Introduction-v5.ppt

Oracle大数据解决方案介绍

Transcription:

大数据技术的发展现状和最新趋势 孙元浩星环科技 Founder & CTO transwarp.io 1

Hadoop 的发展历程回顾 2

大数据技术的软件栈 ETL 数据装载工具 Workflow 工作流开发工具 数据质量管理工具 可视化报表工具 机器学习建模工具 统计挖掘开发工具 资源管理工具 分析管理工具 SQL 批处理 Batch Processing 交互式分析 OLAP Analysis 实时数据库 OLTP Transactional Processing 数据挖掘机器学习算法库 / 框架 Machine Learning 深度学习 Deep Learning 图分析引擎 Graph Analysis 流处理引擎 Streaming Processing 应用级引擎 批处理框架 Map/Reduce2, Tez 高性能处理框架 Spark 向量处理框架 TensorFlow 通用计算引擎 短时任务资源管理框架 YARN 长时任务资源管理框架 Mesos 资源隔离 / 调度 / 管理框架 Kubernetes 资源管理框架 分布式文件系统 HDFS 分布式大表 HBase 搜索引擎 Elastic Search 分布式缓存 Redis 消息队列 Kafka 分布式协作服务 Zookeeper 分布式存储引擎 3

分布式计算已逐渐成为主流计算方式 Traditional Data Analysis 星环 SQL on Hadoop 已经能够高效处理 100TB 数据的复杂分析 Transaction Relational Database Batch Data Warehouse Analyze 3000 Transwarp Inceptor s Performance TPC-DS Execution Time for 99 Queries (in minutes) 2500 2000 Test environment: 29 workernodes 2 CPUs, 12 Cores, E5-2620 v2 96GB memory Network: 2 X 1Gbps Disks: 12 X 3TB Big Data Analysis 1500 Unstructured Cluster 1000 Streaming Organize Analyze 500 0 Devices (MapReduce) 1TB 10TB 30TB 100TB 星环大数据集群已经可以在生产环境中处理 20PB 的数据 4

数据分析算法逐渐丰富, 工具普及化 R/Python 语言开发 => 算法工程师, 数据科学家 交互式挖掘 => 业务分析师, 数据科学家 数据预览 预处理 特征工程 模型训练 模型上生产 R 和 Midas 中可以连接 TDH 中数据表做数据预览 可以对列做 tag/feature 的管理 通过内置的分布式统计算法完成相关的预处理与数据分析 支持标准化, 归一化, 正则化, 缺失值填充, 数据分箱等 支持通过 Inceptor SQL 进行数据 ETL 处理 结合业务领域专家知识, 以及相关算法降维, 选择特征指标与维度 利用深度学习神经网络算法, 通过升维降低特征工程维度选取难度 用户通过 GUI 选择算法开发训练模型 模型编译成为 DAG, 由 Hubble 组件来调度任务 支持单机 R 算法和分布式算法训练模型 导出模型为 PMML PMML 模型可以转换成生产系统的代码, 部署到实际业务中 Dimension Reduction 主成分分析 Linear Regression 线性回归 Inceptor Deep Learning 深度学习 Discover Stream 5

实时流处理技术推动 IoT 数据分析能力 data mining on streams ATM 现场交易 POS POS 刷卡 人流信息 飞行参数 智能风机光伏发电 100k records/s/node 1KB/record 分布式队列 batch @ t batch @ t+1 SQL aggregation machine learning using java/scala/r 1. Streaming processing and batch processing are unified in one programming model 2. SQL and its extension is the unified declarative language for device monitoring and diagnostics. 3. ANSI SQL 2003 and PL/SQL are supported on streaming events. 4. Linear Algebra 5. Machine learning Usage cases in IoT & FS: Real-time event monitoring Real-time dashboard & statistics Real-time outlier detection Realt-ime fraud detection 客服 炼化厂 报警 transwarp stream 6

Hype Cycle for Information Infrastructure 7

Hype Cycle for Advanced Analytics and Data Science 8

后 Hadoop/Spark 时代的技术发展趋势 新技术在四个维度上加速创新 数据量 Volume 类型 Variety 速度 Velocity 价值 Value 驱动力来自结构化数据的不断增加, 企业需要性价比更高的技术方案 SQL on Hadoop 快速成熟,Big Data Database 将替代传统 relational database 传统的 MPP 分析型数据库将消失 驱动力来自对多种数据类型数据 ( 文本 图片 音频 视频 ) 的存储和分析需求 深度机器学习技术 ( 如 TensorFlow) 快速发展并得到应用, 基于 GPU/FPGA 的加速技术逐渐普及 从离线处理进步到实时数据处理, 特别是 IoT 的广泛部署, 推动了对实时计算的需求 Flink,Apex,SqlStream,Internana,ParStream, Transwarp Stream 等新技术, 融合了批处理和流处理, 提供强大易用的低延时实时计算能力, 将逐渐取代现有流处理技术 从历史统计发展到预测性分析 大数据的真正意义在于从数据中发现价值 数据挖掘 机器学习 图计算等产品和工具将日益普及, 使用门槛将极大降低, 普通业务人员很快能够自助进行分析建模 Stream real-time interactive batch RDBMS Guardian 安全管控 Inceptor PL/SQL 批处理交互式分析 Transwarp Proprietary 资源管理 YARN ( 内置 Transwarp Extension) 优化存储 HDFS ( 内置 Transwarp Erasure Code) TB Transwarp Manager Discover 数据挖掘机器学习 批处理 Pig 全文搜索 Elastic Search 批处理框架 MapReduce2 协作服务 Zookeeper PB Hyperbase NoSQL 数据库搜索 图计算 工作流 Oozie 数据集成 Sqoop Hyperbase 交互分析 Zeppelin 日志采集 Flume Discover Stream 流处理引擎 交互工具 HUE 消息队列 Kafka Apache Projects Data Alive 实时数据同步 Inceptor EB 9

Hadoop 及其生态系统将重构数据处理市场 BI / Visualizatio n Tools Big Data Predictive Real-time Vertical Sol n Data Analytics Forecast (IDC) >12bn $ Data Warehouse Platform Big Data Hadoop DW Generation DW Management >10bn $ Database Software Hadoop NoSQL NewSQL OLTP DBMS/NoSQL OLAP DBMS >29bn $ Extraction Tools Hadoop ETL Tools >2bn $ 10

大数据产业链日益繁荣 专业服务 定制开发 大数据应用软件 分析软件 模型可视化 工具等 大数据平台软件 11

2016 年是 Hadoop 技术大规模应用的战略转折点 Acceleration Point 未来五年大数据市场将以每年 30% 的速度增长 12

TRANSWARP 2014 13