拥抱大数据

Similar documents
PowerPoint Presentation

Reducing Client Incidents through Big Data Predictive Analytics

业 务 与 运 营 Business & Operation (Transform) 加 载 (Load) 至 目 的 端 的 过 程, 该 部 分 在 数 据 挖 掘 和 分 析 过 程 中 为 最 基 础 的 一 部 分 一 个 良 好 的 ETL 系 统 应 该 有 以 下 几 个 功 能 1

zt

2013_6_3.indd

普通高等学校本科专业设置管理规定

ebook 132-2

Microsoft PowerPoint - Big Data rc Sharing掃盲時間.ppt [相容模式]

Machine Learning for Computer Vision

<4D F736F F D C2E0BEC7A6D2A4ADB14DB0EAA4E52DB8D5C344A8F72E646F63>

大数据分析技术 [13] 1.1 大数据 Big Data [2] IBM 5V Volume Velocity Variety Value Veracity Volume Velocity Variety Value Veracity 表 1 大数据特征表 Tab.1

201316

Microsoft Word - 小論文.doc

UDC Hainan Airlines Investment Valuation Analysis (MBA) 厦门大学博硕士论文摘要库

PowerPoint Presentation

Microsoft PowerPoint - Aqua-Sim.pptx

第 06 期 李祥池 : 基于 ELK 和 Spark Streaming 的日志分析系统设计与实现 1 日志 1.1 日志定义 IT 1.2 日志处理方案演进 v1.0 v2.0 Hadoop Storm Spark Hadoop/Storm/Spark v3.0 TB Splunk ELK SI

Autodesk Product Design Suite Standard 系统统需求 典型用户户和工作流 Autodesk Product Design Suite Standard 版本为为负责创建非凡凡产品的设计师师和工程师提供供基本方案设计和和制图工具, 以获得令人惊叹叹的产品

本行發言人

白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项

雲端 Cloud Computing 技術指南 運算 應用 平台與架構 10/04/15 11:55:46 INFO 10/04/15 11:55:53 INFO 10/04/15 11:55:56 INFO 10/04/15 11:56:05 INFO 10/04/15 11:56:07 INFO

VASP应用运行优化

水晶分析师

二 科 研 社 会 服 务 工 作 取 得 较 好 成 绩 在 过 去 的 一 年 中, 学 院 始 终 以 科 学 研 究 作 为 学 院 发 展 的 重 要 支 撑 点, 广 大 教 师 锐 意 进 取, 开 拓 创 新, 营 造 学 院 浓 厚 的 学 术 氛 围, 学 院 科 研 和 社 会

报 告 1: 郑 斌 教 授, 美 国 俄 克 拉 荷 马 大 学 医 学 图 像 特 征 分 析 与 癌 症 风 险 评 估 方 法 摘 要 : 准 确 的 评 估 癌 症 近 期 发 病 风 险 和 预 后 或 者 治 疗 效 果 是 发 展 和 建 立 精 准 医 学 的 一 个 重 要 前

<4D F736F F D20C9CFBAA3BFC6BCBCB4F3D1A7D0C5CFA2D1A7D4BA C4EAC7EFBCBEC8EBD1A7B2A9CABFD7CAB8F1BFBCCAD4CAB5CAA9CFB8D4F22D C8B7B6A8B8E5>

附3

PowerPoint 演示文稿

Value Chain ~ (E-Business RD / Pre-Sales / Consultant) APS, Advanc

一 课 程 负 责 人 情 况 姓 名 吴 翊 性 别 男 出 生 年 月 基 本 信 息 学 位 硕 士 职 称 教 授 职 务 所 在 院 系 理 学 院 数 学 与 系 统 科 学 系 电 话 研 究 方 向 数 据 处 理 近 三 年 来

PowerPoint Presentation

MATLAB 1

1. 引 言 1.1 職 業 訓 練 局 的 高 峰 進 修 學 院 致 力 為 所 有 金 融 服 務 業 從 業 員 或 有 意 晉 身 該 行 業 的 人 士 提 供 優 質 專 業 培 訓 課 程, 以 助 香 港 維 持 其 領 先 國 際 金 融 中 心 的 地 位. 1.2 香 港 証

Microsoft Word - ORA doc

IP TCP/IP PC OS µclinux MPEG4 Blackfin DSP MPEG4 IP UDP Winsock I/O DirectShow Filter DirectShow MPEG4 µclinux TCP/IP IP COM, DirectShow I

Microsoft Word - 专论综述1.doc

一次辽宁暴雨过程的诊断及风场反演分析

第 37 卷 第 5 期 自 然 论 坛 亿, 相 当 于 总 人 口 的 1/4; 到 2050 年, 比 重 将 达 到 1/3, 相 当 于 三 个 人 中 就 有 一 个 老 年 人 2013 年 上 海 市 60 岁 及 以 上 老 年 人 口 为 万 人, 占 总 人 口

合集

次世代のITインフラ“Compute”を先取り!HPが統合型アプライアンス「HP ConvergedSystem」を推進する理由

Outline Speech Signals Processing Dual-Tone Multifrequency Signal Detection 云南大学滇池学院课程 : 数字信号处理 Applications of Digital Signal Processing 2

教授:

,, :, ;,,?, : (1), ; (2),,,, ; (3),,, :,;; ;,,,,(Markowitz,1952) 1959 (,,2000),,, 20 60, ( Evans and Archer,1968) ,,,

PowerPoint 演示文稿

Microsoft Word - 通讯2011n1

Presentation title goes here


Microsoft PowerPoint - Sens-Tech WCNDT [兼容模式]

国际化经营 NTERNATIONAL OPERATIONS 2014年下半年原油价格大幅度快速下跌 目前仍在 上游投资回报处于低谷 美元/桶以下低位震荡 幅度大 跌速快 回升慢 周期长 金融危机爆发以前的 年 石油公司的上游 是此轮油价行情的主要特征 未来油价形势依然

UrbanSim UrbanSim GIS / UrbanSim UrbanSim F A office building % 32. 8% 25. 9% 14. 4% Location locat

2017ÅàÑø·½°¸

某动车组主变压器风道的谐响应分析

CH01.indd

untitled

PowerPoint 演示文稿

XML SOAP DOM B2B B/S B2B B2B XML SOAP


國立屏東教育大學碩士班研究生共同修業要點

案例正文:(幼圆、小三、加粗)(全文段前与段后0

SAP HANA 最 简 单 的 理 解 ERP CRM SRM BI 列 存 储 2

目 錄 使 用 者 介 面... 3 檔 案 頁 籤... 3 配 置... 4 狀 態 列... 4 功 能 區... 5 說 明... 5 文 件... 7 修 訂 雲 形... 7 標 註... 8 文 字... 9 幾 何 中 心 點 的 物 件 鎖 點 等 角 製 圖 格 線.

第一章

Transcription:

25 The MathWorks, Inc.

拥抱大数据 陈建平 高级应用工程师 MathWorks 25 The MathWorks, Inc. 2

大数据? ENERGY Asset Optimization FINANCE Market Risk, Regulatory AUTO Fleet Data Analysis AERO Maintenance, reliability Medical Devices Patient Outcomes 所涉及的数据量规模巨大到无法通过人工, 在合理时间内达到截取 管理 处理 并整理成为人类所能解读的信息 Wikipedia 3

大数据的 3V Volume( 海量 ) 数据容量越来越大 Velocity( 速度 ) 数据量增长越来越快, 需要处理的速度和响应越来越快 Variety( 多样性 ) 越来越多的数据是半结构, 甚至是完全没有结构的数据, 如文本 邮件甚至于语音 视频等 4

大数据的挑战 Any collection of data sets so large and complex that it becomes difficult to process using traditional data processing applications. (Wikipedia) 起步难 快速数据探索难 可扩展的算法的开发难 部署难 5

选择合适的计算方法 数据的特征 大小 类型 存储位置 计算平台 单机或集群 分析方法的特征 Embarrassingly 并行 分析数据的片段并聚合分析结果 完整数据的操作 6

MATLAB 大数据技术 Prototype Access Explore Share/Deploy Scale 加载分析丢弃 parfor, datastore, MapReduce 分布式内存 SPMD 和分布式阵列 内存外操作 内存内操作 Embarrassingly 并行 数据不可分割 复杂度 7

MATLAB 大数据技术 加载分析丢弃 parfor, datastore, MapReduce 分布式内存 SPMD 和分布式阵列 内存外操作 内存内操作 Embarrassingly 并行 数据不可分割 复杂度 8

MATLAB 并行计算 MATLAB 桌面 ( 客户端 ) Worker Worker Worker Worker Worker Worker 9

案例 : 测量土地使用 parfor 数据 农田航拍图 24 TIF 文件 分析 找出并测量灌溉土地 确认哪些灌溉圈正在被使用 计算总体灌溉面积

何时使用 parfor? 数据的特征 可以被打断成独立数据块 内存能够容纳每次循环的数据块 计算平台 桌面 ( 并行计算工具箱 ) 集群 (MATLAB 分布式计算服务器 ) 分析方法的特征 循环体之间必须相互独立

MATLAB 大数据技术 加载分析丢弃 parfor, datastore, MapReduce 分布式内存 SPMD 和分布式阵列 内存外操作 内存内操作 Embarrassingly 并行 数据不可分割 复杂度 2

大数据的访问 datastore 的特点 易于指定数据集 单文本文件 ( 或者文本文件集合 ) 预览数据结构和格式 选择列名并导入数据 增量读取数据子集 airdata = datastore('*.csv'); airdata.selectedvariables = {'Distance', 'ArrDelay }; data = read(airdata); 3

案例 : 车辆登记分析 DataStore 数据 28-2 年间, 麻省的车辆登记数据 6M 记录,45 个 fields 分析 调查混合动力车的采用情况 计算混合动力车的比率随时间 ( 季度 ) 的变化关系 预测未来的混合动力车的增长趋势 4

何时使用 datastore? 数据的特征 文本数据 数据库或者存放在 Hadoop 分布式文件系统 (HDFS) 中的文件 计算平台 桌面 分析方法的特征 支持加载 分析 丢弃的工作流程 增量读取数据块, 在 while 循环中处理数据 5

MATLAB 大数据技术 加载分析丢弃 parfor, datastore, MapReduce 分布式内存 SPMD 和分布式阵列 内存外操作 内存内操作 Embarrassingly 并行 数据不可分割 复杂度 6

mapreduce Data Store Map Shuffle Reduce and Sort Veh_typ Q3_8 Q4_8 Q_9 Hybrid Car SUV Car Car Car Car Car SUV Car SUV Car Car Hybrid Key: Q3_8 Key: Q4_8 Key: Q_9 Key: Q3_8 Key: Q4_8 Key: Q_9 Hybrid Key: Q3_8 Key: Q4_8 Key: Q_9 Key % Hybrid (Value) Q3_8.4 Q4_8.67 Q_9.75 7

大数据的分析 mapreduce 使用强大的 MapReduce 编程技术分析大数据 mapreduce 使用一个 datastore 来处理能够容纳于内存中的数据块 中间结果无法容纳于内存之中的算法 ******************************** * MAPREDUCE PROGRESS * ******************************** Map % Reduce % Map 2% Reduce % Map 4% Reduce % Map 6% Reduce % Map 8% Reduce % Map % Reduce 25% Map % Reduce 5% Map % Reduce 75% Map % Reduce % 桌面上的 mapreduce 增加计算能力 ( 并行计算工具箱 ) 访问 HDFS 中的数据开发 Hadoop 算法 Hadoop 上的 mapreduce 使用 MDCS 运行在 Hadoop 之上 使用 MATLAB Compiler 为 Hadoop 开发应用和库 8

案例 : 车辆注册数据分析使用 MapReduce 数据 28-2 年间, 麻省的车辆注册数据 6M 记录,45 个域 分析 调查混合动力车的采用情况 计算混合动力车的比率变化 季度 地区 对结果做地图分布 9

Hadoop 应用部署 Datastore HDFS MATLAB 运行时 Node Data Map Reduce Node Data Map Reduce Node Data Map Reduce MATLAB MapReduce 代码 2

何时使用 mapreduce? 数据的特征 存放在文本文件 数据库或者 Hadoop 分布式文件系统 (HDFS) 中的数据 内存无法容纳 计算平台 桌面 扩展到 Hadoop, 对存放在 HDFS 上的数据运行 MapReduce 分析 分析方法的特征 必须能够被分割成两个阶段. Map: 过滤或者处理数据的子片段 2. Reduce: 聚集中间结果, 并计算最后答案 2

MATLAB 大数据技术 加载分析丢弃 parfor, datastore, MapReduce 分布式内存 SPMD 和分布式阵列 内存外操作 内存内操作 Embarrassingly 并行 数据不可分割 复杂度 22

分布式阵列 Arrays Available from Parallel Computing Toolbox MATLAB Distributed Computing Server 26 4 2 27 42 3 28 43 4 29 44 5 3 45 6 3 46 TOOLBOXES BLOCKSETS 7 32 47 7 33 48 9 34 49 2 35 5 2 36 5 22 37 52 从桌面上远程操作阵列 驻留在集群中的分布式阵列 23

案例 : 航班延误分析 数据 Data BTS/RITA Airline On-Time Statistics 23.5M 记录, 29 fields 分析 计算延误模式 可视化结果 估计和预测模型 24

何时使用分布式内存? 数据的特征 集群内存总和必须能够容纳数据 计算平台 桌面原型 ( 数据子集 ) 集群或者云中运行 ( 大数据 ) 分析方法的特征 每个 worker 上的内存必须能够容纳的数据数据片段 调用支持的分布式阵列函数 25

MATLAB 大数据处理 单机性能提升 64 位操作系统 + 串行编程技巧 访问内存无法容纳的大数据集 内存映射 大二进制文件 Datastore 巨型文本文件或者文本文件集合 Database 数据库查询 多种编程结构 系统对象 流算法 MapReduce 内存无法容纳的文本文件集 SPMD 分布于集群中的分布式阵列 分析加速 parfor 循环 Embarassingly 并行 gpuarray GPU 加速 26

进一步学习 MATLAB 文档 Strategies for Efficient Use of Memory Resolving "Out of Memory" Errors Big Data with MATLAB www.mathworks.com/discovery/big-data-matlab.html MATLAB MapReduce and Hadoop www.mathworks.com/discovery/matlab-mapreduce-hadoop.html 27