Big Data Analytics 不 可 不 知 的 Hadoop 與 資 料 科 學 二 三 事 Etu 負 責 人 蔣 居 裕 (Fred Chiang) May 14, 2014
Etu Helps You to Understand http://www.etusolution.com http://youtu.be/fziqera14ww 2
Who am I? 蔣 居 裕 Fred Chiang Open xxx 的 愛 好 者 資 料 價 值 的 探 索 者 Etu 負 責 人 精 誠 集 團 產 品 創 新 中 心 副 總 經 理! Blog Fred 豢 養 的 雲 中 象 http://fredbigdata.blogspot.tw all about Hadoop and Big Data 台 灣 少 見 以 探 討 Big Data 趨 勢 技 術 商 業 價 值 為 主 軸 的 專 業 部 落 格 3
大 綱 Big Data 的 故 事 Big Data 在 哪 裡? 為 什 麼 要 處 理 與 分 析 Big Data? 誰 來 處 理 與 分 析 Big Data? Big Data 處 理 與 分 析 學 習 地 圖 4
Big Data 的 故 事 莎 士 比 亞 Netflix 與 Hadoop 5
資 料 處 理 量 G1 - 莎 士 比 亞 全 集 1.1 百 萬 字 MB 6
莎 士 比 亞 全 集 Word Count Big Data 故 事 1 統 計 全 集 41 部 作 品 每 一 字 彙 出 現 的 次 數 共 1,124,103 個 英 文 字 含 有 248,505 個 不 重 複 字 彙 7
資 料 處 理 量 G2 - 大 英 百 科 全 書 4 千 萬 字 / 50 萬 個 主 題 GB 8
資 料 處 理 量 G3 - 美 國 國 會 圖 書 館 1.3 億 冊 館 藏 / 書 架 總 長 超 過 800 公 里 235 Terabytes @2011 TB PB EB 9
我 們 要 怎 麼 面 對 資 料 的 增 長 面 對 它 接 受 它 處 理 它 放 下 它 分 析 它 從 半 / 非 結 構 化 到 結 構 化 10
Netflix - Big Data 故 事 2 價 值 轉 兌 之 高, 非 一 日 之 功 2011 2012 11
紙 牌 屋 影 集 導 演 : 大 衛 芬 奇 (David Fincher; 社 群 網 戰 班 傑 明 的 奇 幻 旅 程 鬥 陣 俱 樂 部 ) 主 角 : 凱 文 史 貝 西 (Kevin Spacey; 老 闆 不 是 人 心 理 醫 生 美 國 心 玫 瑰 情 ) 集 數 : 共 26 集, 分 兩 季 推 出 突 破 :1. 只 在 網 路 上 架 ;2. 一 次 上 架 整 季 13 集 優 勢 : 事 先 根 據 2,900 萬 Netflix 的 會 員 收 視 行 為 分 析, 根 據 導 演 主 角 政 治 題 材 的 組 合, 找 出 目 標 觀 眾, 進 行 精 準 推 薦 成 績 :IMDb 上 15,762 次 評 價, 平 均 得 分 9.0 (2013.2.28), 上 架 兩 週 後 被 IMDb MOVIEmeter 評 為 最 受 歡 迎 的 電 視 影 集 12
紙 牌 屋 線 上 獨 家 發 行 背 後 的 競 爭 策 略 1. 別 處 沒 有 唯 一 性 自 己 的 DVD 會 員 也 看 不 到 在 面 對 其 他 線 上 串 流 服 務 追 兵, 如 Amazon Instant Video Hulu 等 競 爭 時, 可 以 收 取 具 有 自 製 優 質 內 容 的 市 場 品 牌 認 同 與 會 員 新 增 數 2. 一 次 看 完 創 新 性 在 面 對 已 經 具 有 自 製 優 質 內 容 的 傳 統 頻 道 商, 如 HBO 時, 不 必 讓 觀 眾 切 割 時 間 收 看 一 系 列 的 影 集, 這 將 帶 來 不 同 於 電 視 頻 道 的 視 聽 體 驗, 還 給 觀 眾 更 大 的 選 擇 自 由, 予 人 有 創 新 之 感 3. 資 料 分 析 策 購 性 預 知 體 驗, 事 先 根 據 2,900 萬 Netflix 的 會 員 收 視 行 為 分 析, 根 據 導 演 主 角 政 治 題 材 的 組 合, 找 出 目 標 觀 眾, 進 行 精 準 行 銷 13
Hadoop 14
Hadoop Big Data 故 事 3 讓 我 們 來 探 究 Big Data 處 理 技 術 的 起 源 15
16
造 就 Google Search 的 三 大 神 器 每 天 處 理 的 Web 資 料 量 : 20,000 TB (20 PB) @2008 從 數 天 到 數 分 鐘 索 引 運 算 完 成 1. 儲 存 :Google File System 分 散 式 檔 案 系 統 2. 運 算 :Map/Reduce 平 行 運 算 框 架 同 時 承 載 成 十 萬 上 百 萬 來 自 全 世 界 的 關 鍵 字 搜 尋, 服 務 依 然 順 暢 3. 線 上 查 詢 :Big Table 分 散 式 資 料 庫 (NoSQL) Refer to: http://www.niallkennedy.com/blog/2008/01/google-mapreduce-stats.html 17
Hadoop Big Data 多 結 構 化 資 料 處 理 主 流 技 術 平 台 從 Google 論 文 到 市 場 主 流 2003 2004 2006 2008 2009 2010 2011 論 文 :!! The!Google! File!System * * 論 文 :!! MapReduce! :!Simplified! Data! Processing! on!large! Cluster 論 文 :!! Bigtable:!A! Distributed! Storage! System!for! Structured! Data Hadoop' 是 我 的 孩 子 幫 一 隻 棕 黄 色 的 大 象 填 充 玩 具 所 取 的 名 字 ''~''Doug'Cu.ng Doug!CuDng! 參 考 論 文 實 作 DFS!&!MapReduce Doug!CuDng! 加 入 Cloudera Hadoop! 成 為 Apache! 基 金 會 專 案! Doug!CuDng! 加 入!Yahoo!;!Yahoo!! 成 為 Apache!Hadoop! 最 大 贊 助 商 Yahoo!! 獨 立 出 Hortonworks! 子 公 司 18
從 一 隻 大 象 到 一 個 動 物 園, 生 氣 盎 然! 分 散 式 儲 存 HDFS! 平 行 運 算 框 架 MapReduce! 高 階 查 詢 語 言 (SQLMlike)! 數 據 倉 儲! 機 器 學 習! 資 料 採 擷! 數 據 序 列 化! 分 散 式 資 料 庫 (NoSQL)! 資 料 獲 取 與 監 控! hiho! Sqoop! Flume! Scribe oozie! Cascading! Hue! Solr 資 料 流 程! ZooKeeper! 動 物 園 管 理 員! 19
傳 統 的 企 業 資 料 20
傳 統 的 結 構 化 資 料 世 界 (SQL/EDW) Web, Mobile, CRM, ERP, SCM, OLTP SQL EDW Dashboard, Report, Visualization, OLAP " ETL 21
結 構 化 資 料 庫 / 資 料 表 舉 例 : 欄 位 結 構, 定 義 嚴 謹 欄 位 名 稱 資 料 型 態 資 料 屬 性 22
Big Data 在 哪 裡? 23
Big Data 要 處 理 的 資 料 量 級 (sizing) *Yo-abyte *Ze-abyte!Gigabyte!Megabyte!Kilobyte 1.8ZB!World!Wide!Total!@2011! 2.8ZB!World!Wide!Total!@2012! 24
網 路 行 動 社 群 物 聯 網, 造 就 巨 量 多 結 構 化 資 料 全 世 界 約 有 90% 的 資 料 產 生 於 最 近 的 2~3 年 聲 音 檔 案 影 片 檔 案 圖 形 檔 案 文 件 檔 案 文 字 資 料 XML 檔 案 非 結 構 化 資 料 Unstructured Data Web Logs 點 擊 事 件 社 交 網 路 關 聯 圖 譜 新 聞 Feeds 感 應 器 嵌 入 設 備 RFID Tags 地 理 資 訊 GPS 點 位 半 結 構 化 資 料 Semi-structured Data 事 件 其 他 25
半 結 構 化 資 料 舉 例 :Web*Logs 日 期 時 間 IP Method Path Return Code 26
非 結 構 化 資 料 處 理 舉 例 : 車 牌 照 片 *8>* 車 號 提 取 非 結 構 化 ( 照 片 ) 半 結 構 化 (CSV 文 字 ) 監 控 攝 影 車 牌 辨 識 BAD-777 2013.06.13 14:37:16 121.512386 25.051269 27
整 合 : 從 Big Data 到 Total Data XML $ / Web, Mobile, CRM, ERP, SCM, OLTP Web Logs Feeds RFID Tags GPS & / / / Big Data $% # / Dashboard, Report, Visualization, SQL EDW NoSQL MPP New SQL New SQL OLAP " ETL Original source: http://hortonworks.com/blog/big-data-refinery-fuels-next-generation-data-architecture 28
Big Data 要 處 理 的 三 個 面 向 :3V Velocity 處 理 時 效 Variety 資 料 格 式 Volume 資 料 量 29
30 字 箴 言 Volume Variety 很 多 的 非 / 半 結 構 化 資 料 Velocity 要 在 一 定 的 時 間 內 處 理 完 而 且 成 本 不 能 太 高 30
為 什 麼 要 處 理 與 分 析 Big Data? 31
資 料 價 值 層 次 國 家 戰 略 價 值 社 會 價 值 商 業 價 值 個 人 價 值 32
資 料 價 值 的 國 家 層 次 資 料 是 國 家 戰 略 物 資 ( 無 誤 ) 33
稜 鏡 好 好 用 34
目 標 : 商 業 層 次 的 資 料 價 值 提 高 營 運 效 能 降 低 成 本 與 風 險 節 省 時 間 用 戶 自 我 服 務 降 低 複 雜 度 增 加 營 收 導 購 : 個 人 化 精 準 推 薦 微 型 趨 勢 銷 售 改 善 客 戶 體 驗 降 低 退 約 率 開 創 新 藍 海 策 購 : 競 爭 差 異 化 提 供 新 服 務 掌 握 市 占 率 育 成 新 事 業 35
誰 來 處 理 與 分 析 Big Data? 36
資 料 科 學, 我 們 是 要 仰 仗 這 位 性 感 的 傢 伙 嗎? Harvard Business Review October 2012 http://cromi.org/main/wp-content/uploads/2012/10/davenport-2012-data-scientist.pdf 37
No one person can be the perfect data scientist, so we need teams Data Science Profiles Source: Next-Gen Data Scientist, Dr. Rachel Schutt 38
科 學 團 隊? 39
Monetize Data ( 資 料 變 現 )! 資 料 價 值 驅 動! 分 析 策 略 Action Insight Knowledge 暑 假 計 畫 要 從 台 灣 南 騎 到 北, 目 標 在 3 天 內 完 成 台 灣 夏 季 由 北 騎 到 南, 一 般 人 不 可 能 達 到 平 均 時 速 15 公 里 一 般 人 騎 單 車 的 時 速 約 15 公 里 ; 台 灣 夏 季 吹 南 風, 冬 季 吹 東 北 風 處 理 Information 台 灣 南 北 全 長 394 公 里 Data 394 公 里 詳 情 參 見 : http://fredbigdata.blogspot.tw/2013/05/big-data.html 40
Monetize Data ( 資 料 科 學 ) End-to-End 流 程 處 理 者 70% 85% 的 工 作 時 間 策 略 者 策 略 者 分 析 者 Source: Next-Gen Data Scientist, Dr. Rachel Schutt 41
Big Data 的 行 業 應 用 42
探 索 Big Data, 創 新 行 業 價 值 產 業 應 用 方 向 跨 業 需 求 電 信 * TelecommunicaAon 金 融 * Financial*Service 服 務 業 * Service 線 上 服 務 * Online*Service 品 牌 業 者 * Brand 電 子 商 務 * E8Commerce 製 造 * Manufacturing 健 康 醫 療 * Health*&*Life*Sciences 客 戶 服 務 安 全 管 控 * 法 規 遵 從 * CDR* 分 析 * 網 路 效 能 與 最 佳 化 * 行 動 用 戶 行 為 分 析 信 用 評 等 與 分 析 * 交 易 監 控 行 銷 活 動 管 理 與 客 戶 紅 利 計 畫 * 市 場 與 消 費 者 區 隔 分 析 * 使 用 者 行 為 分 析 ( 精 準 行 銷 )* 客 戶 洞 察 品 牌 與 競 品 觀 察 產 品 銷 售 分 析 * 商 品 關 聯 推 薦 (Ranking*base/*Browsing*base)* 客 戶 行 為 分 析 * 研 發 工 程 技 術 製 程 資 料 整 合, 提 高 良 率 縮 短 產 品 上 市 時 間 * 病 人 照 護 品 質 分 析 * 藥 品 發 覺 與 發 展 分 析 43
現 階 段 的 市 場 是 企 業 Big Data 應 用 需 求 多 樣 化 即 使 是 同 一 行 業, 不 同 公 司 想 要 的 Big Data 應 用 也 可 能 不 同 44
Etu 的 市 場 經 驗 分 享 行 業 台 灣 1. 電 信 2. 零 售 ( 含 EC) 3. 政 府 4. 數 位 媒 體 5. 線 上 遊 戲 6. 電 力 能 源 7. 高 科 技 製 造 8. 氣 象 9. 金 融 - 證 期 大 陸 1. 電 信 2. 零 售 ( 含 EC) 3. 政 府 4. 數 位 媒 體 5. 線 上 遊 戲 6. 電 力 能 源 7. 商 業 地 產 8. 金 融 - 保 險 45
行 業 / 應 用 類 型 眾 多 經 營 分 析 DPI 預 處 理 DW Offload 遊 戲 客 服 查 詢 EC 精 準 推 薦 零 售 氣 象 保 險 海 量 小 圖 檔 客 服 查 詢 電 信 CDR 查 詢 集 團 大 數 據 平 台 門 市 補 貨 系 統 Hado op 資 源 池 政 府 與 情 分 析 金 融 程 式 交 易 DNS 查 詢 傅 立 葉 轉 換 製 程 / 良 率 分 析 製 造 電 力 電 網 RDB/ DW Offload 商 業 地 產 媒 體 格 式 轉 換 EC 精 準 推 薦 數 位 媒 體 新 聞 推 薦 46
Big Data 處 理 與 分 析 學 習 地 圖 47
Etu Training 全 員 分 進 合 擊, 加 速 抵 達 http://www.etusolution.com/training L1-B 全 員 的 Big Data 第 一 天 L1-R 行 銷 者 的 精 準 推 薦 第 一 天 L1-A 技 術 人 員 的 Etu Appliance 第 一 天 L1-D 軟 體 開 發 者 的 Hadoop 第 一 天 L1-H 軟 體 開 發 者 的 NoSQL-HBase 第 一 天 L1-M 軟 體 開 發 者 的 MapReduce 第 一 天 L1-V 資 料 分 析 者 的 Visualization 第 一 天 L1-L 資 料 分 析 者 的 RHadoop 第 一 天 L2-P 軟 體 開 發 者 前 進 Pig L2-I 軟 體 開 發 者 前 進 Hive L2-H 軟 體 開 發 者 前 進 NoSQL-HBase L2-V 資 料 分 析 者 前 進 Visualization L2-L 資 料 分 析 者 前 進 RHadoop 48
資 料 科 學 團 隊 養 成 計 畫 Data Science Program (DSP) 人 才 為 本 應 用 為 價 值 在 3 年 內, 為 台 灣 培 養 300 位 資 料 科 學 團 隊 成 員 49
http://www.etusolution.com/dsp/edm_dsp2.html 50
專 業 分 工 組 隊 Campaigner Analyst Hygienist Designer 51
52
53
[ 心 法 傳 授 範 例 1] 54
[ 心 法 傳 授 範 例 2] 55
[ 心 法 傳 授 範 例 3] 56
Dataset 1: 內 政 部 不 動 產 實 價 登 錄 資 料 民 國 101.08 ~ 102.09 全 台 灣 租 賃 買 賣 預 售 約 47 萬 筆 資 料 57
Dataset 2:PIXNET Hackathon 開 放 資 料 1. 熱 門 照 片 的 相 關 資 料 (metadata) 2. 相 片 的 EXIF 資 料 3. 人 氣 部 落 格 的 詮 釋 資 料 (metadata) 4. 人 氣 部 落 格 的 訪 客 記 錄 (visitor logs) * 部 落 格 與 相 片 的 內 容 資 料, 可 以 透 過 PIXNET API 取 得 58
Data Fiesta:DSP 結 訓 成 果 交 流 59
Team Project #1 #2 #3 #4 #5 團 訓 班 第 1 期 我 要 成 為 天 聾 人 股 份 有 限 公 司 Bargaining Power 遊 戲 茄 子 驚 爆 房 地 產 逆 轉 人 生 全 球 顧 問 股 份 有 限 公 司 小 資 男 女 翻 身 計 畫 光 點 選 址 服 務 小 火 鍋 創 業 選 址 模 型 財 團 法 人 避 稅 剋 星 土 地 買 賣 稅 費 異 常 資 料 查 詢 平 台 第 2 期 無 殼 蝸 牛 聯 盟 房 價 正 義 航 海 王 部 落 客 銀 行 愛 住 易 找 尋 銀 髮 幸 福 宅 小 資 救 世 組 千 金 買 房 萬 金 買 鄰 Captain Hot Zone 60
愛 住 易 - 找 尋 銀 髮 幸 福 宅 Infographic download: http://goo.gl/fkdxxi 61
多 與 少 DSP 教 我 的 事 1. 多 一 點 生 活, 少 一 點 憤 義 2. 多 一 點 策 略, 少 一 點 包 裝 3. 多 一 點 資 料, 少 一 點 想 像 4. 多 一 點 關 聯, 少 一 點 加 總 5. 多 一 點 跨 界, 少 一 點 純 粹 62
http://www.etusolution.com/dsp/edm_dsp_etl.html 63
DSP Roadmap Fellowship Program CfT.io Pixnet 資 料 爬 理 析 Python 實 戰 班 :5/10-11 7 64
結 論 1. 當 Small Data 都 不 想 玩 玩 不 起 來 的 時 候, 要 Big Data 何 用? 2. 對 資 料 有 感, 讓 應 用 有 感, 是 資 料 科 學 訓 練 的 成 功 關 鍵 要 素 3. 資 料 科 學 是 一 個 連 續 的 End-to-End 的 資 料 科 學 過 程, 跨 界 專 業 分 工 團 隊, 是 萃 取 資 料 價 值 的 必 要 實 踐 4. 工 具 跟 方 法 很 多, 持 有 心 法, 才 可 長 可 久 65
Big Data, 從 一 組 Hadoop Cluster 開 始 Hadoop 部 署 大 賽 : ehc.etusolution.com 66
For more information Website - www.etusolution.com Fans Page - Etu Taiwan 67
Contact www.etusolution.com info@etusolution.com Taipei, Taiwan 318, Rueiguang Rd., Taipei 114, Taiwan T: +886 2 7720 1888 F: +886 2 8798 6069