Presentation Headline Subhead

Similar documents
Microsoft PowerPoint ARIS_Platform_en.ppt

國立屏東教育大學碩士班研究生共同修業要點

<4D F736F F F696E74202D20C8EDBCFEBCDCB9B9CAA6D1D0D0DEBDB2D7F92E707074>

Microsoft Word 記錄附件

一 课 程 负 责 人 情 况 姓 名 吴 翊 性 别 男 出 生 年 月 基 本 信 息 学 位 硕 士 职 称 教 授 职 务 所 在 院 系 理 学 院 数 学 与 系 统 科 学 系 电 话 研 究 方 向 数 据 处 理 近 三 年 来

% % 34

PowerPoint 演示文稿

untitled

幻灯片 1

17

业 务 与 运 营 社 交 网 络 行 为 将 对 网 络 流 量 造 成 较 大 影 响 3) 即 时 通 信 类 业 务 包 括 微 信 QQ 等, 该 类 业 务 属 于 典 型 的 小 数 据 包 业 务, 有 可 能 带 来 较 大 的 信 令 开 呼 叫 建 立 的 时 延 销 即 时

Microsoft Word - 专论综述1.doc

國立中山大學學位論文典藏.PDF

Microsoft PowerPoint - NCBA_Cattlemens_College_Darrh_B


國立中山大學學位論文典藏.PDF

Microsoft PowerPoint - Performance Analysis of Video Streaming over LTE using.pptx

考試學刊第10期-內文.indd

: ( ),,

2015年4月11日雅思阅读预测机经(新东方版)

Improving the Effectiveness of the Training of Civil Service by Applying Learning Science and Technology: The Case Study of the National Academy of Ci

untitled

SVM OA 1 SVM MLP Tab 1 1 Drug feature data quantization table

PowerPoint Presentation

13-4-Cover-1

[1] Liu Hongwei,2013, Study on Comprehensive Evaluation of Iron and Steel Enterprises Production System s Basic Capacities, International Asia Confere

创 新 经 济 时 代 来 临, 面 对 快 速 变 迁 与 激 烈 竞 争 的 市 场 环 境, 企 业 必 须 藉 由 持 续 开 发 新 产 品, 才 能 应 对 产 品 生 命 周 期 急 剧 缩 短 所 带 来 的 经 营 危 机 因 此, 产 品 经 理 不 但 扮 演 了 统 合 项


穨423.PDF

2013_6_3.indd

致 谢 本 人 自 2008 年 6 月 从 上 海 外 国 语 大 学 毕 业 之 后, 于 2010 年 3 月 再 次 进 入 上 外, 非 常 有 幸 成 为 汉 语 国 际 教 育 专 业 的 研 究 生 回 顾 三 年 以 来 的 学 习 和 生 活, 顿 时 感 觉 这 段 时 间 也

4 115,,. : p { ( x ( t), y ( t) ) x R m, y R n, t = 1,2,, p} (1),, x ( t), y ( t),,: F : R m R n.,m, n, u.,, Sigmoid. :,f Sigmoid,f ( x) = ^y k ( t) =

Logitech Wireless Combo MK45 English

Microsoft Word 谢雯雯.doc

案例正文:(幼圆、小三、加粗)(全文段前与段后0

Microsoft Word - A doc

Microsoft Word - ChineseSATII .doc

Microsoft Word - Students-app_2014

University of Science and Technology of China A dissertation for master s degree Research of e-learning style for public servants under the context of

[9] R Ã : (1) x 0 R A(x 0 ) = 1; (2) α [0 1] Ã α = {x A(x) α} = [A α A α ]. A(x) Ã. R R. Ã 1 m x m α x m α > 0; α A(x) = 1 x m m x m +

東莞工商總會劉百樂中學

untitled

Microsoft Word - 31空中大學校稿檔.doc

报 告 1: 郑 斌 教 授, 美 国 俄 克 拉 荷 马 大 学 医 学 图 像 特 征 分 析 与 癌 症 风 险 评 估 方 法 摘 要 : 准 确 的 评 估 癌 症 近 期 发 病 风 险 和 预 后 或 者 治 疗 效 果 是 发 展 和 建 立 精 准 医 学 的 一 个 重 要 前

应 用 为 先, 统 筹 规 划 摘 要 : 总 体 上 看, 我 国 的 云 计 算 还 没 有 进 入 良 性 发 展 的 轨 道 目 前 的 形 势 是 政 府 比 企 业 积 极, 企 业 比 用 户 积 极, 大 企 业 比 中 小 企 业 积 极, 建 设 数 据 中 心 比 推 广 应


WTO

4. 每 组 学 生 将 写 有 习 语 和 含 义 的 两 组 卡 片 分 别 洗 牌, 将 顺 序 打 乱, 然 后 将 两 组 卡 片 反 面 朝 上 置 于 课 桌 上 5. 学 生 依 次 从 两 组 卡 片 中 各 抽 取 一 张, 展 示 给 小 组 成 员, 并 大 声 朗 读 卡

(單位名稱)大事記---96學年度(96


PowerPoint プレゼンテーション

Outline Speech Signals Processing Dual-Tone Multifrequency Signal Detection 云南大学滇池学院课程 : 数字信号处理 Applications of Digital Signal Processing 2

室内设计2015年第4期.indd

(Electronic Data Interchange) (Executive Information System) (Economic Order Quantity) (Enterprise Resource Planning) (Flexible Manufacture System) (F

104 學 年 度 第 2 學 期 第 1 次 院 務 會 議 紀 錄 開 會 時 間 :105 年 5 月 11 日 ( 三 ) 中 午 12 時 至 下 午 1 時 30 分 開 會 地 點 : 社 管 大 樓 5 樓 533 會 議 室 主 持 人 : 王 院 長 精 文 紀

穨control.PDF

IP TCP/IP PC OS µclinux MPEG4 Blackfin DSP MPEG4 IP UDP Winsock I/O DirectShow Filter DirectShow MPEG4 µclinux TCP/IP IP COM, DirectShow I

Microsoft PowerPoint - Fall2014PomotionXu.pptx

Time Estimation of Occurrence of Diabetes-Related Cardiovascular Complications by Ching-Yuan Hu A thesis submitted in partial fulfillment of the requi

Microsoft Word - CX VMCO 3 easy step v1.doc

标题

中華民國建築學會第十二屆建築研究成果發表會

次世代のITインフラ“Compute”を先取り!HPが統合型アプライアンス「HP ConvergedSystem」を推進する理由

1 目 錄 1. 簡 介 一 般 甄 試 程 序 第 一 階 段 的 準 備 第 二 階 段 的 準 備 每 間 學 校 的 面 試 方 式 各 程 序 我 的 做 法 心 得 及 筆 記 結 論..

理 成 可 做 關 聯 分 析 的 格 式, 再 應 用 統 計 統 計 計 算 軟 體 R (R Core Team, 2013) 中 的 延 伸 套 件 arules (Hahsler, Gruen, and Hornik, 2005; Hahsler, Buchta, Gruen, and H

Microsoft Word M 黃士種

填 表 说 明 1. 本 表 用 钢 笔 填 写, 也 可 直 接 打 印, 不 要 以 剪 贴 代 填 字 迹 要 求 清 楚 工 整 2. 本 表 所 填 内 容 必 须 真 实 可 靠, 如 发 现 虚 假 信 息, 将 取 消 所 在 学 院 参 评 资 格 3. 本 表 涉 及 的 项 目

(baking powder) 1 ( ) ( ) 1 10g g (two level design, D-optimal) 32 1/2 fraction Two Level Fractional Factorial Design D-Optimal D

Microsoft Word - 33-p skyd8.doc

( ) ( ) ( ) ( )

Grant proposal

课题调查对象:

目次 

謹 將 此 書 獻 給 所 有 和 慶 榮 一 樣 努 力 留 下 屬 於 自 己 生 命 印 記 的 朋 友 們 魏 慶 榮 手 繪 圖


13 A DSS B DSS C DSS D DSS A. B. C. CPU D. 15 A B Cache C Cache D L0 L1 L2 Cache 16 SMP A B. C D 17 A B. C D A B - C - D

附件1:

場 的 職 能 需 求 狀 況, 並 能 有 一 套 職 能 管 理 資 訊 系 統 對 各 職 位 進 行 職 能 資 料 管 理 分 析 與 應 用 資 料, 則 對 企 業 人 力 應 用 與 提 昇 上 均 有 極 大 之 助 益, 故 本 研 究 之 主 要 目 的 有 二 : (1) 職

Transcription:

Big data analytics as augmented by Artificial Intelligence 人工智能协助的大数据分析 Dr. Alex Liu Chief Data Scientist at IBM Analytics 刘永川博士 - IBM 大数据分析首席数据科学家 Nov 5, 2017 ~ 美国华裔教授专家协会 2017 年会 RMDS-02-12-2015-1

Self Introduction Alex Liu 刘永川个人介绍 one of IBM's experts for big data analytics & a chief data scientist for IBM analytics services IBM 大数据分析首席数据科学家. before joined IBM, served as a chief data scientist for a few corporations including TRG, Yapstone and Retention Science 加入 IBM 之前, 曾任多家公司的首席数据科学家. Taught advanced analytics for USC and UC Irvine as adjunct professor 曾任南加州大学和尔湾加州大学客座教授. a Ph.D. of Quantitative Sociology and a M.S. of Statistical Computing from Stanford University 斯坦福大学硕士和博士. 2

大家都问 : 研究人员会被机器代替吗? 数据分析会被机器代替吗? 3

1,DATA ANALYTICS DEFINITION 数据分析过程定义 2,BIG DATA ANALYTICS NEED AI 大数据分析少不了智能协助 3,AI AUGMENTATION EXAMPLES 机器智能协助举例 4,INTEGRATED PLATFORM 整合平台的方案 4

Data Analytics Process I 数据分析过程定义 Data Sources Data Storage Data Cleaning Feature Extraction MODELS Regression Decision Tree Bayesian & Causality Time Series ALGORITHMS & COMPUTING MLE RMS ITERATIVE (MapReduce & Spark) R SPSS STATISTICS & Visualization RMSE Confusion Matrix ROC Curve Business Acumen Subject Knowledge Communica tion RM4Es Data Equation Estimation Evaluation Explanation /Execution 5

Data Scientist Workflow 数据分析过程详细定义 Ingestion Selection Preparation Generation Transform Model Execution Retrieval Storage Formatting Data Source Selection Data Composition Data Linkage Concept Extraction Filtering Missing Values Smoothing Normalization Aggregation Construction Labelling Data Augmentation Feature selection Feature space transformation Regression Classification (Re)-Deployment, Re- Training, Monitor Explanations Written Report Best-Worst case scenarios Oil Rig Monitoring (e.g. ConocoPhillips) Noisy Sensor Streams Cleaned sensor streams Model 4 IBM Research

Too Many Choices at Model Building Stage 模型建立阶段的太多选择 More than 50 different models: SVM, Neural Net, Decision Trees/Forests, Naïve Bayes, Regression, SMO, k-nearest Neighbor, Clustering, Rules, 50 或更多的模型选择 Combinatorially explosive number of parameter choices per algorithm: kernel type, pruning strategy, number of trees in a forest, learning rate, 相关几十种或更多算法 Wide variation in performance across different algorithm implementations (e.g., SPSS vs Python vs WEKA vs SPARK ) 许多不同的软件系统的执行 User-Defined algorithms 许多不同的人机互动方法 Substantial cost in user and compute time User spends time on trying new combinations and parameters Computational cost for training a single SVM can exceed 24h Selection commonly based on data scientist bias Each additional pipeline stage increases complexity dramatically! 7 IBM Research

Challenges for Researchers 研究人员 ( 数据分析人员 ) 的挑战小结 Too much data to import & manage Too much data cleaning to complete Too many analytical methods to select Too many algorithms to select Too many computing tools to select Too many IT systems to select

Need AI to automate and augment 机器智能的协助必不可少 ~ 数据分析自动化系统不断出现 AI to automate some research flows AI to augment all researchers MIT s automated data-analysis system outperforms 615 of 906 human teams.

Model Selection via Data Allocation using Upper Bounds (DAUB) 人工智能协助的模型选择举例 [ Selecting Near-Optimal Learners via Incremental Data Allocation, AAAI, 2016] Training Data ------------------ Built Model ------------------ Prediction Accuracy versus #Data Points Logistic Regression Random Forest SVM A3 Ranking based on upper bound estimate on performance of each pipeline ( slope of learning curve) 10

Data Scientist Workflow --- Automating Data Generation 人工智能协助的变量产生举例 Ingestion Selection Preparation Generation Transform Model Execution Retrieval Storage Formatting Data Source Selection Data Composition Data Linkage Concept Extraction Filtering Missing Values Smoothing Normalization Aggregation Construction Labelling Data Augmentation Feature selection Feature space transformation Regression Classification Explanations Written Report Best-Worst case scenarios Largely Automated Feature Generation Automated Feedback Often very time-consuming (e.g., 70% of end-to-end completion) Requires domain knowledge Depends on Data Scientist s bias 2015 International Business Machines Corporation

12 Work station approach is needed for new research methods ~ 整合平台是发展趋势

Integration into Data Science Experience (DSX) / WDP IBM 平台介绍 I IBM Data Science Experience DSX 13 IBM Research

Core Attributes of the Data Scientist Experience IBM 平台介绍 II IBM Data Science Experience Community Open Source IBM Added Value Find tutorials and datasets Connect with data scientists Ask questions Read articles and papers Fork and share projects Code in Scala/Python/R/SQL Jupyter and Zeppelin* Notebooks RStudio IDE and Shiny apps Apache Spark Your favorite libraries Data Shaping/Pipeline UI * Auto-data preparation and modeling* Advanced Visualizations* Model management and deployment* Documented Model APIs* Powered by IBM Next Generation Platform in the Cloud Spark as a Service * DSX product roadmap items

15