一般報導 大數據與 巨量資料分析 曾龍 我們需要你 資料科學家 來幫助國民建立更好的數位服務 幫助我們揭開更新的創意 幫助我們改善這個國家和全世界 美國總統歐巴馬 在 2012 年 10 月發行的 哈佛商業評 論 中 戴 文 波 特 湯 姆 斯 Thomas H. Davenport 及 帕 蒂 爾 D.J. Patil 發 表 了 一篇文章 描述 21 世紀最性感的職業 資料科學家 Data Scientist: The Sexiest Job of the 21st Century 同年美國歐巴馬政 府更投資了近兩億美元推行 大數據的研 究 與 發 展 計 畫 The Big Data Research and Development Initiative 希 望 藉 著 提 升 從大型複雜的資料中提取知識的能力 能 加快科學和工程的開發並保障國家安全 2015 年 2 月 19 日 白宮正式任命帕蒂 爾為首位首席資料科學家 當天他在聖荷西 San Jose 的 Strata + Hadoop 2015 會議做 美國總統歐巴馬曾特地錄製短片 以懇切言辭表達 對資料科學家的敬意和期許 圖片來源 種子發 了一場主題演講 講題是 資料科學 我們 將 邁 向 何 方 Data Science: Where are We Going 美國總統歐巴馬還特地錄製短片祝賀大會順利舉行 影片中歐巴馬呼籲 我們需 要你 資料科學家 來幫助國民建立更好的數位服務 幫助我們揭開更新的創意 幫助我 們改善這個國家和全世界 66 科學發展 2016 年 8 月 524 期
美國政府推行 大數據的研究與發展計畫, 希望藉著提升從大型複雜的資料中提取知識的能力, 能加快科學和工程的開發並保障國家安全 資料科學與大數據 2015 4 National Institute of Standards and Technology, NIST 7 2007 Jim Gray NIST Big Data NIST 巨量資料的特徵 21 PB ZB IDC 2012 2011 1.8 ZB 2020 40 ZB 57 常用的資料計量單位 ZB Zettabyte 1 ZB 1,024 EB EB Exabyte 1 EB 1,024 PB PB Petabyte 1 PB 1,024 TB TB Terabyte 1 TB 1,024 GB GB Gigabyte SD 1 GB 1,024 MB MB Megabyte 3.5 1 MB 1,024 KB KB Kilobyte 1 KB 1,024 B B Byte 1 Byte 8 Bits Bits 2016 8 524 67
Google 24 PB 400 PB 5 10 6 50 TB GB TB PB EB Facebook Twitter Line IDC 2020 10 50 35ZB 11 11 1 68 2016 8 524 volume velocity variety 3V 挑戰性課題與解決方案 1970 E.F. Codd Postgresql MySQL Oracle IBM DB2 MSSQL NoSQL Not Only SQL NoSQL SQL 巨量資料通常有時效性, 一旦傳送到運算伺服器, 就要能即時取得分析結果才能發揮其最大價值
NoSQL SQL NoSQL NoSQL Hadoop Apache Spark Storm Hadoop Apache Hadoop 2003 GFS Doug Cutting HDFS Map Reduce Hadoop Hadoop Hadoop 2008 Apache 3 Hadoop Distributed File System HDFS MapReduce NoSQL 資料庫的主要類型 Key-Value TB PB XML JSON Dunamo, Bigtable Redis, Memcached HBase, Hypertable Neo4J DB, InfiniteGraph CouchDB, MongoDB 2016 8 524 69
Yet Another Resource Negotiator YARN HDFS Hadoop HDFS Hadoop MapReduce Map Reduce Hadoop Java Java MapReduce native mode Python R Hadoop Streaming Hadoop 2 Yarn Yarn 70 2016 8 524 Hadoop HBase Hadoop Column-Oriented Hive HDFS SQL Hadoop SQL Hadoop ZooKeeper Hadoop Hadoop Pig HDFS MapReduce Map Reduce Sqoop Hadoop Sqoop Hadoop HBase Hive Mahout Storm Twitter 2011 7 BackType Nathan Marz 9 17 Storm Hadoop Clojure Storm Lisp
Storm Spark 2009 Matei Zaharia AMP Lab 2010 Scala BSD 2013 Apache Apache2.0 2014 2 Cloudera Spark 2014 4 MapR Spark Apache Mahout MapReduce Spark 2014 11 Databricks Spark Spark Spark Apache Spark Spark Hadoop MapReduce 100 Spark 10 面對巨量資料時代的作為 McKinsey Global Institute 2013 2018 14 19 Linda Burtch 2014 SimplyHires.com Linkedin 24,000 36,000 Square 曾龍 2016 8 524 71