PowerPoint Presentation

Similar documents

Presentation Title

ABOUT ME AGENDA 唐建法 / TJ MongoDB 高级方案架构师 MongoDB 中文社区联合发起人 Spark 介绍 Spark 和 MongoDB 案例演示

拥抱大数据

业 务 与 运 营 Business & Operation (Transform) 加 载 (Load) 至 目 的 端 的 过 程, 该 部 分 在 数 据 挖 掘 和 分 析 过 程 中 为 最 基 础 的 一 部 分 一 个 良 好 的 ETL 系 统 应 该 有 以 下 几 个 功 能 1

PowerPoint 演示文稿

方圆并济:基于 Spark on Angel 的高性能机器学习_V3

Reducing Client Incidents through Big Data Predictive Analytics

PowerPoint 演示文稿

IBM SPSS Modeler 14.2 建模节点

附3

进击的巨人:基于Angel的高维度Online Learning_V3

Machine Learning for Computer Vision

Overview of MathWorks

數據分析 Big Data Analytics) ( 資科系 / 融系學碩班 ) 上課 綱 2019 年秋季班 上課期間 :2019/09/ /01/09 學資 科學系 jong at g.nccu.edu.tw 2019 年 數據分析 (Big Data Analytics

Presentation title goes here

2013_6_3.indd

一 课 程 基 本 情 况 课 程 名 称 工 程 应 用 数 学 ( 计 算 机 类 ) 编 码 所 属 部 门 工 业 中 心 课 程 所 属 专 业 课 程 所 属 模 块 数 学 计 算 机 类 任 课 教 师 情 况 ( 人 数 ) 教 授 副 教 授 讲 师 助 教 3


第 06 期 李祥池 : 基于 ELK 和 Spark Streaming 的日志分析系统设计与实现 1 日志 1.1 日志定义 IT 1.2 日志处理方案演进 v1.0 v2.0 Hadoop Storm Spark Hadoop/Storm/Spark v3.0 TB Splunk ELK SI

Presentation Title

PowerPoint 演示文稿

白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项

rz_Newsletter2016_en_ indd

水晶分析师

合集

資料HDR作1-03 HDR技術動向

C10_ppt.PDF

目 錄 使 用 者 介 面... 3 檔 案 頁 籤... 3 配 置... 4 狀 態 列... 4 功 能 區... 5 說 明... 5 文 件... 7 修 訂 雲 形... 7 標 註... 8 文 字... 9 幾 何 中 心 點 的 物 件 鎖 點 等 角 製 圖 格 線.

1 o o o CPU o o o o o SQL Server 2005 o CPU o o o o o SQL Server o Microsoft SQL Server 2005

ebook 132-2

2013年省局年报 最终.FIT)

untitled

untitled

大数据分析技术 [13] 1.1 大数据 Big Data [2] IBM 5V Volume Velocity Variety Value Veracity Volume Velocity Variety Value Veracity 表 1 大数据特征表 Tab.1


Autodesk Product Design Suite Standard 系统统需求 典型用户户和工作流 Autodesk Product Design Suite Standard 版本为为负责创建非凡凡产品的设计师师和工程师提供供基本方案设计和和制图工具, 以获得令人惊叹叹的产品

培 训 机 构 介 绍 中 科 普 开 是 国 内 首 家 致 力 于 IT 新 技 术 领 域 的 领 航 者, 专 注 于 云 计 算 大 数 据 物 联 网 移 动 互 联 网 技 术 的 培 训, 也 是 国 内 第 一 家 开 展 Hadoop 云 计 算 的 培

Compressing Encrypted Rules

MATLAB 1

IT Data-intensive application,iscsi Middl


Microsoft Word - p11.doc

文档 1

1. 請 先 檢 查 包 裝 內 容 物 AC750 多 模 式 無 線 分 享 器 安 裝 指 南 安 裝 指 南 CD 光 碟 BR-6208AC 電 源 供 應 器 網 路 線 2. 將 設 備 接 上 電 源, 即 可 使 用 智 慧 型 無 線 裝 置 進 行 設 定 A. 接 上 電 源

一 Grass 是 什 么 1 简 介 GRASS (Geographic Resources Analysis Support System, 地 理 资 源 分 析 支 持 系 统 ) 是 最 负 盛 名 的 开 源 地 理 信 息 系 统 (GIS) 以 下 是 它 的 一 些 特 点 : 1

Presentation Title

目 录 第 一 部 分 档 案 局 概 况 一 主 要 职 责 二 部 门 决 算 单 位 构 成 第 二 部 分 档 案 局 2016 年 度 部 门 预 算 表 一 2016 年 度 市 级 部 门 收 支 预 算 总 表 二 2016 年 度 市 级 部 门 支 出 预 算 表 三 2016

2015 年 度 收 入 支 出 决 算 总 表 单 位 名 称 : 北 京 市 朝 阳 区 卫 生 局 单 位 : 万 元 收 入 支 出 项 目 决 算 数 项 目 ( 按 功 能 分 类 ) 决 算 数 一 财 政 拨 款 一 一 般 公 共 服 务 支 出 二

Avigilon Control Center 6 ACC High Definition Stream Management (HDSM) ACC 6 ( Avigilon Appearance Search ) Avigilon Appearance Search ACC NVR HD Vide

2006產業管理創新研討會論文格式說明

看 数 据, 在 人 群 中 找 到 自 己 2015 年 有 749 万 本 科 毕 业 生 估 算 全 国 985 高 校 毕 业 生 人 数 : 约 17 万 占 毕 业 生 人 数 的 2.26%; 估 算 全 国 一 本 高 校 毕 业 生 人 数 : 约 万, 占 毕 业

信 息 化 研 究

自由軟體教學平台

201316

Microsoft Word 記錄附件

51434S Fundamentals of the UNIX system 5 40, H3064S HPE-UX System and Network Administration I 5 40, H3065S HPE-UX System

IP TCP/IP PC OS µclinux MPEG4 Blackfin DSP MPEG4 IP UDP Winsock I/O DirectShow Filter DirectShow MPEG4 µclinux TCP/IP IP COM, DirectShow I

Microsoft Word htm

Process Data flow Data store External entity 6-10 Context diagram Level 0 diagram Level 1 diagram Level 2 diagram

Microsoft Word - 专论综述1.doc

WWW PHP

VASP应用运行优化


雲端 Cloud Computing 技術指南 運算 應用 平台與架構 10/04/15 11:55:46 INFO 10/04/15 11:55:53 INFO 10/04/15 11:55:56 INFO 10/04/15 11:56:05 INFO 10/04/15 11:56:07 INFO

SDS 1.3

7.1 MapReduce Offline Online 计 算 流 式 计 算 并 行 数 据 库 的 SQL 查 询 数 据 仓 库 复 杂 查 询 应 用 电 子 商

Connected Intelligence:ビッグデータ技術を活用したIT運用

Oracle 4

投影片 1

ebook 132-6

自由軟體教學平台

IBM 全 球 企 业 咨 询 服 务 部 中 国 五 矿 筑 起 人 力 资 源 信 息 大 厦 2 回 顾 篇 慎 选 巧 选 软 件 平 台 由 于 五 矿 集 团 下 属 的 很 多 公 司 是 最 近 几 年 才 加 盟 的 新 成 员 企 业, 这 些 公 司 所 应 用 的 人 力 资

Apache CarbonData集群模式使用指南

自由軟體教學平台

Presentation Title

,, 2

支付宝2011年 IT资产与费用预算


发行说明, 版

目錄

Guide to Install SATA Hard Disks

ControlSafe TM ControlSafe ControlSafe CSC CPU ControlSafe CPU CPU CPU CPU CPU I/O I/O I/O I/O I/O I/O CPU CPU CSC CPU CSC CSC /ControlSafe ControlSaf

untitled

天 主 教 輔 仁 大 學 社 會 學 系 學 士 論 文 百 善 孝 為 先? 奉 養 父 母 與 接 受 子 女 奉 養 之 態 度 及 影 響 因 素 : 跨 時 趨 勢 分 析 Changes in attitude toward adult children's responsibilit

A Preliminary Implementation of Linux Kernel Virus and Process Hiding

EMC® VNX® Series VNX8000™ Block 安装指南

《嵌入式系统设计》教学大纲

1 背 景 介 紹 許 多 應 用 科 學 牽 涉 到 從 資 料 (data) 中 分 析 出 所 需 要 ( 含 ) 的 資 訊 (information) 希 望 從 已 知 的 資 料 中 瞭 解 問 題 的 本 質, 進 而 能 控 制 或 做 出 預 測 這 些 資 料 通 常 有 兩

untitled

untitled

<4D F736F F F696E74202D20C8EDBCFEBCDCB9B9CAA6D1D0D0DEBDB2D7F92E707074>

CLP-585/575/545/535/565GP

2 控 制 面 板 控 制 面 板 控 制 面 板 显 示 打 印 机 的 工 作 状 态, 并 控 制 打 印 机 的 基 本 操 作 图 2 ZT230 控 制 面 板 图 3 ZT220 控 制 面 板

Microsoft PowerPoint - Big Data rc Sharing掃盲時間.ppt [相容模式]

CANVIO_AEROCAST_CS_EN.indd

F4

摘 要 SAS 全 球 論 壇 會 議 (SAS GLOBAL FORUM) 係 由 非 營 利 組 織 SAS 軟 體 全 球 用 戶 社 群 (SAS GLOBAL USERS GROUP) 舉 辦 之 年 度 國 際 研 習 會, 主 要 探 討 SAS 在 金 融 醫 藥 衛 生 生 產 運

Paratune用户手册

Transcription:

MATLAB 与 Spark/Hadoop 相集成 : 实现大数据的处理和价值挖 马文辉 2015 The MathWorks, Inc. 1

内容 大数据及其带来的挑战 MATLAB 大数据处理 tall 数组 并行与分布式计算 MATLAB 与 Spark/Hadoop 集成 MATLAB 访问 HDFS(Hadoop 分布式文件系统 ) 在 Spark/Hadoop 集群上运行 MATLAB 代码 应用演示 汽车传感器数据分析 2

大数据概述 大数据的 4V 特征 : Volumes - 数据规模, 数据规模巨大 互联网 社交网络的普及, 全社会的数字化转型, 数据规模向 PB 级发展 Variety - 数据种类, 数据种类繁多 结构化数据, 半结构化数据, 非结构化数据 Value - 数据价值, 数据价值密度低 价值密度的高低与数据总量的大小成反比 Velocity - 数据处理速度, 数据处理速度需要快速 数据处理速度是决定大数据应用的关键 3

大数据带来的挑战 传统的工具和方法不能有效工作 访问和处理数据变得困难 ; 需要学习使用新的工具和新的编程方式 ; 不得不重写算法以应对数据规模的增大 ; 现有处理或计算方法下的结果质量受到影响 被迫只能处理一部分数据 ( 数据子集 ); 采用新的工具或重写算法会对现有生产力产生影响 ; 数据处理与分析所需时间增长 数据规模增大 数据复杂度增加, 增加处理难度和所需时间 ; 4

MATLAB 的大数据处理 内存与数据访问 64-bit processors Memory Mapped Variables Disk Variables Databases Datastore ImageDatastore 编程 Streaming Block Processing Parallel-for loops GPU Arrays SPMD and Distributed Arrays MapReduce MapReduce (MDCS/PCT) MATLAB API for Spark API Tall Arrays 计算 Desktop (Multicore, GPU) Clusters Cloud Computing (MDCS on EC2) Hadoop Spark 5

tall arrays tall array 一种新的数据类型, 专门用于处理大数据. 用于处理数据规模超过单个机器或群集的内存承载能力的数据集合 使用方式等同于 MATLAB 数组 (array) 支持数据类型包括数值型 字符串 时间类型 表等 支持众多基本的数学函数 统计函数 索引函数等. 支持机器学习算法包括分类 聚类和回归 6

tall arrays Single Machine Memory tall array Process Single Machine Memory 自动将数据分解成适合内存的小 块 (chunk) 计算过程中, 一次处理一个 块 (chunk) 的数据 对 tall 数组 (tall array) 的编程方式与 MATLAB 标准数组编程方式一致 7

MATLAB 本地多核并行计算计 (PCT, Parallel Computing Toolbox) MATLAB 集群之上的分布式计算 (MDCS, MATLAB Distributed Computing Server) 8

MATLAB 与 Spark/Hadoop 集成 MDCS 9

Hadoop Hadoop 是跨计算机集群的分布式大数据处理平台, 由两部分组成 : YARN (Yet Another Resource Negotiator) 资源调度模型, 实现数据跨节点的最小移动 Map/Reduce 跨节点分布式计算模型 HDFS (Hadoop Distributed File System) - 跨节点的分布式文件系统 Hadoop Ecosystem 10

Spark Spark 是一个流行的开源集群计算框架 并行计算引擎 使用广义的计算模型 Spark Core (Batch Processing) 基于内存进行计算 ( 内存计算 ) 11

MATLAB 与 Hadoop datastore HDFS MATLAB Distributed Computing Server Node Data Map MATLAB worker Node MATLAB Distributed Computing Server Node Data Map MATLAB worker Reduce MATLAB worker Node Data map.m reduce.m Node Data Map MATLAB worker Node Reduce MATLAB worker Map MATLAB worker 12

MATLAB tall 与 Spark Edge Node Split 1 tall Split 2 Split 3 Master Name Node YARN (Resource Manager) Worker Node Executor Cache Worker Node Executor Cache Worker Node Executor Cache Task Task Task Data Node Data Node Data Node HDFS 13

Tall 支持的大数据可视化 histogram histogram2 ksdensity plot scatter binscatter 14

tall 支持的大数据机器学习算法 K-means Clustering (kmeans) Linear Regression (fitlm) Logistic & Generalized Linear Regression (fitglm) Discriminant Analysis Classification (fitcdiscr) Partition for Cross Validation (cvpartition) Linear Support Vector Machine (SVM) Classification (fitclinear) Naïve Bayes Classification (fitcnb) Random Forest Ensemble Classification (TreeBagger) Lasso Linear Regression (lasso) Linear Support Vector Machine (SVM) Regression (fitrlinear) Single Classification Decision Tree (fitctree) Linear Classification with Random Kernel Expansion (fitckernel) 15

应用演示 汽车传感器数据分析 1300 trip log files 21 unique vehicles Approx 39 unique channels Data collected over 1.5 years 16

2018 The MathWorks, Inc. MATLAB and Simulink are registered trademarks of The MathWorks, Inc. See www.mathworks.com/trademarks for a list of additional trademarks. Other product or brand names may be trademarks or registered trademarks of their respective holders. 2018 The MathWorks, Inc. 17