出 國 報 告 ( 出 國 類 別 : 國 際 會 議 ) 參 加 2014 年 SAS 全 球 論 壇 會 議 (SAS GLOBAL FORUM) 出 國 報 告 服 務 機 關 : 行 政 院 主 計 總 處 姓 名 職 稱 : 任 晶 蓉 分 析 師 派 赴 國 家 : 美 國 出 國 期 間 :103/3/21~103/3/27 報 告 日 期 :103/05/27
摘 要 SAS 全 球 論 壇 會 議 (SAS GLOBAL FORUM) 係 由 非 營 利 組 織 SAS 軟 體 全 球 用 戶 社 群 (SAS GLOBAL USERS GROUP) 舉 辦 之 年 度 國 際 研 習 會, 主 要 探 討 SAS 在 金 融 醫 藥 衛 生 生 產 運 輸 通 訊 科 學 研 究 政 府 及 教 育 等 各 領 域 之 應 用 實 務 與 最 新 研 究, 讓 全 球 SAS 使 用 者 藉 此 會 議 相 互 交 流 獲 取 SAS 新 知 及 解 決 方 案 強 化 SAS 使 用 能 力 與 技 巧 激 盪 創 意 2014 年 SAS GLOBAL FORUM 會 議 期 間 邀 請 各 國 學 者 專 家 產 業 實 務 專 家 研 究 員 顧 問 資 深 使 用 者 分 別 就 1. 專 業 技 能 (Skill Level) 2. 工 作 角 色 (Job Roles): 分 析 師 商 業 分 析 師 IT 人 員 統 計 人 員 等 3. 行 業 (Industry): 製 造 業 銀 行 業 通 訊 業 教 育 界 政 府 部 門 醫 療 照 護 保 險 業 等 4.SAS 產 品 (Product): 網 格 運 算 管 理 商 業 智 慧 分 析 詐 欺 偵 測 管 理 企 業 風 險 管 理 資 料 探 勘 視 覺 化 分 析 預 測 等, 四 個 面 向 以 Breakout Session Hands-On Workshop Quick Tips Panel Live Stream 方 式 開 辦 384 場 議 程 巨 量 資 料 引 發 資 料 探 索 與 關 鍵 變 數 挖 掘, 對 總 處 埋 首 於 多 年 公 務 統 計 或 調 查 統 計 資 料 之 統 計 分 析 人 員 們, 感 受 其 工 作 的 辛 勞 與 重 要 性 如 何 在 此 排 山 倒 海 而 來 的 資 料 中 找 到 重 要 問 題 答 案 協 助 決 策, 需 仰 賴 資 料 科 學 家 的 協 助, 因 此, 強 化 總 處 既 有 分 析 人 員 的 功 力, 由 分 析 家 躍 進 為 資 料 探 勘 家 是 可 以 考 慮 的 ; 若 能 再 導 入 高 效 分 析 軟 體 或 工 具, 對 提 昇 總 處 的 競 爭 力 必 有 幫 助
目 次 壹 目 的...1 貳 過 程...1 參 會 議 內 容 摘 錄...6 一 巨 量 資 料 分 析 義 涵 與 發 展 概 況...6 巨 量 資 料 之 分 析...7 巨 量 資 料 之 下 新 興 的 IT 技 術..7 Hadoop- 巨 量 資 料 分 析 平 台 的 最 佳 選 擇 之 一...8 二 統 計 方 法 與 資 料 分 析...9 資 料 探 勘 (data mining)...10 三 SAS 軟 體 在 巨 量 資 料 分 析 的 做 法...12 SAS Analytics Pro( 本 處 有 其 產 品 )...12 SAS Enterprise Guide( 本 處 有 其 產 品 )...13 SAS 巨 量 資 料 視 覺 化 分 析 平 台...15 SAS 高 效 能 運 算 分 析...16 SAS Mobile BI...17 肆 心 得 與 建 議...19 一 資 料 科 學 與 資 料 科 學 家...19 二 大 資 料 需 要 大 分 析 (Big Data need Big Analytics)...21 三 將 資 料 當 做 策 略 性 核 心 資 產 來 管 理...23 四 地 理 視 覺 化 報 表...23 伍 結 語...25 陸 參 考 資 料...26 柒 附 錄...27
壹 目 的 鑑 於 近 來 政 府 資 料 開 放 (Open Data) 及 巨 量 資 料 (Big Data) 分 析 漸 為 我 國 政 府 重 要 資 訊 發 展 範 疇, 為 提 升 巨 量 資 料 應 用 與 強 化 統 計 分 析 服 務 效 能, 參 加 非 營 利 組 織 SAS 軟 體 全 球 用 戶 社 群 (SAS GLOBAL USERS GROUP) 於 美 國 華 盛 頓 特 區 舉 辦 之 2014 年 SAS 全 球 論 壇 會 議 (SAS GLOBAL FROUM), 會 期 自 3 月 23 日 至 26 日 為 期 4 天 [1] 希 望 藉 由 本 次 會 議 研 習 經 驗 交 流, 有 助 強 化 本 總 處 統 計 分 析 資 料 探 勘 與 資 料 應 用 等 技 術 能 量 貳 過 程 此 次 參 加 的 SAS 全 球 論 壇 會 議 Potential of One, Power of All, 是 由 SAS 全 球 用 戶 社 群 每 年 於 美 國 不 同 地 點 舉 辦 之 會 議, 今 年 於 3 月 23 日 至 26 日 在 華 盛 頓 特 區 南 部 8 英 里 (13 公 里 ) 的 國 家 港 灣 水 濱 蓋 洛 度 假 村 酒 店 及 會 議 中 心 (Gaylord National Resort & Convention Center) 舉 行, 參 與 人 次 超 過 4500 位, 打 破 歷 年 記 錄, 不 但 是 SAS 軟 體 公 司 的 年 度 盛 典, 也 是 全 球 SAS 使 用 者 時 時 關 切 的 焦 點, 以 下 是 會 議 的 官 網 : https://support.sas.com/events/sasglobalforum/2014/ 1
開 幕 式 SAS 總 裁 Jim Goodnight 博 士 提 及 2014 年 大 眾 頻 頻 接 觸 到 雲 端 (Cloud) 社 交 媒 體 (Social Media) 社 交 社 群 (Social Network) 行 動 化 (Mobility) 大 資 料 (Big Data) Cyber Fraud 等 名 詞, 與 這 些 辭 彙 關 聯 的 分 析 (Analytics) 決 策 (Make Decision) 已 經 遍 佈 全 世 界, 使 得 人 們 不 得 不 體 認 資 料 探 索 與 關 鍵 變 數 發 掘, 在 資 料 解 析 過 程 中 扮 演 不 可 或 缺 的 角 色 SAS 不 斷 地 與 各 行 各 業 共 同 發 展 商 業 資 料 分 析 與 預 測 技 術, 應 用 領 域 涵 蓋 政 府 的 經 濟 決 策 與 企 業 的 決 策 支 援 應 用 等, 因 應 現 代 化 (Modernization) 的 Grid Manager Visual Analytics Cloud Analytics Text Analytics 等 技 術 就 是 為 解 決 大 資 料 分 析 所 在 意 的 高 效 能 與 視 覺 化 而 興 起 的 解 決 手 法 SAS Lasr 分 析 伺 服 器 打 造 優 越 的 運 算 環 境, 不 但 加 速 分 析 運 算 速 度 並 可 與 Hadoop 分 布 式 檔 案 系 統 完 美 結 合, 讓 企 業 能 兼 顧 龐 大 資 料 儲 存 與 平 行 運 算 在 因 大 數 據 成 長 與 應 用 層 面 所 迫 切 需 要 的 資 料 科 學 家 的 養 成 上 也 不 缺 席 : 除 了 引 入 SAS University Edition Software 外 也 積 極 參 與 各 行 各 業 的 資 料 解 析 方 法 建 置 SAS Fraud & Security Solution Overview Stu Bradley(Director of Financial Crimes Practice with SAS) SAS 面 對 近 年 來 盛 行 之 Cybersecurity and Fraud 事 件 以 Visaul Analytics Fraud Detection and Prevention Consistent 2
Monitoring 整 合 詐 騙 偵 測 警 示 管 理 社 交 網 路 分 析 及 案 件 管 理 的 技 術 基 礎 結 構, 即 時 迅 速 的 地 圖 上, 以 可 視 化 的 方 式 及 早 偵 測 可 疑 活 動 得 以 掌 控 與 偵 測 位 於 任 何 接 觸 點 的 詐 騙 Modernizing Analytics Jim Davis(SAS Senior Vice President and Chief Marketing Officer) 現 代 化 (modernize) 是 因 應 現 代 行 為 或 需 求 所 建 置 的 設 備 想 法 或 解 決 手 法 SAS 在 因 應 巨 量 資 料 (Big Data) 分 析 (Analytics) 快 速 決 策 (fast-make-decision) 等 現 代 化 需 求 所 作 的 解 決 方 案 包 括 商 業 智 慧 (BI) 平 台 Enterprise Guide Hadoop 可 視 化 (Visual) 導 入 記 憶 體 (In-Memory) 雲 端 (Cloud) LASR Server( 高 速 大 量 資 料 分 析 伺 服 器 無 不 竭 盡 所 能 滿 足 客 戶 期 望 3
Keynote Speech: Remembering Not to Forget Nelson Dellis (USA Memory Champion and Founder and CEO of Climb for Memory); 3/23 如 何 經 由 長 期 訓 練 成 為 記 憶 專 家 Big Data, IT Issues Thornton May(Futurist and Executive Director at the IT Leadershipt Academy) 以 集 體 討 論 的 方 式 結 論 出. 1. The hero of the next age will be the person who effectively "Monetizes Meaning" Via Mastery of Big data/big Analytics. 2. The "with-data" aggressive & confident problem solver w will be to the Age of Big Data what the Astronaut was to the Space Age. Statistically valid suggestions for 2015 Sebastian Wernicke (Statistics Whiz) Schedule prolblem are easy. Providing 50% in-database performance Highlight: language quality 4
TECH Talk: SAS Visual Statistics and SAS In-Memory, Statistics for Hadoop SAS and the Cloud, SAS Visual Analytics Graph Builder, SAS/IML and R SAS Studio, SAS Add-In for Microsoft Office, Using SAS Text Analytics to Analyze Medical Reports, New ODS destinations: HTML5, EPUB, PPT, EXCEL 議 程 : 共 計 384 場 [2] 5
參 會 議 內 容 摘 錄 一 巨 量 資 料 分 析 義 涵 與 發 展 概 況 當 資 訊 計 量 單 位 由 MB ( MegaByte=1000Byte ) GB ( GigaByte ) TB (TeraByte) 到 PB(PetaByte,) EB(ExaByte) ReheB YottaB [3] 時, 意 味 者 資 訊 爆 炸 時 代 的 來 臨 大 資 料 (Big data)[4], 或 稱 巨 量 資 料 海 量 資 料 大 數 據, 是 指 所 涉 及 的 資 料 量 規 模 巨 大 到 無 法 透 過 人 工, 在 合 理 時 間 內 達 到 擷 取 管 理 處 理 並 整 理 成 為 人 類 所 能 解 讀 的 資 訊 數 據 資 料 量 與 種 類 快 速 成 長 的 驅 動 力, 主 要 是 來 自 於 越 來 越 多 且 便 宜 的 電 腦 儲 存 設 備, 及 資 訊 持 續 從 各 種 來 源 被 廣 泛 收 集 ( 感 應 器 測 量 器 追 蹤 器 等 設 備 以 每 年 30% 以 上 的 成 長 速 度 激 增 ), 且 90% 以 上 的 資 料 將 會 以 數 位 的 方 式 來 處 理 [5]; 加 上 社 群 媒 體 行 動 網 路 及 物 聯 網 的 推 波 助 瀾 數 據 資 料 的 變 化, 包 括 多 媒 體 資 料 檔 案 高 量 成 長 個 人 數 位 裝 置 的 暴 增, 導 致 使 用 與 互 動 方 式 的 改 變 : 大 型 綜 合 巡 天 望 遠 鏡 (Large Synoptic Survey Telescope, LSST) 計 畫, 每 晚 可 收 集 約 20 TB (1 TB=1000 GB) 的 天 文 資 料 ; 網 路 公 司, 像 Google 每 天 得 處 理 超 過 24 PB (1 PB=1000 TB) 的 資 料 ;Facebook 每 小 時 會 收 到 超 過 1 千 萬 張 新 照 片 30 億 次 的 留 言 ;YouTube 用 戶 每 秒 上 傳 的 影 片 總 長 度 超 過 1 小 時 ; 隨 者 資 料 愈 趨 龐 大, 花 費 在 彙 整 與 分 析 的 時 間 愈 多, 導 致 愈 無 法 再 度 重 覆 執 行 或 溯 及 既 往 的 追 溯, 以 及 資 料 流 動 過 快, 不 知 如 何 處 理 的 非 結 構 化 資 料 等 議 題 出 現 的 窘 境 資 料 獲 取 及 創 建 的 技 術 來 源 既 多 且 廣, 且 資 料 之 間 的 關 係 繁 複, 導 致 創 建 資 料 的 速 度 分 享 也 變 得 更 加 容 易, 廉 價 的 儲 存 成 本, 更 讓 資 料 保 存 的 時 間 也 相 對 拉 長, 成 為 驅 動 巨 量 資 料 成 長 的 重 要 因 素 根 據 國 際 數 據 中 心 IDC 統 計, 數 位 世 界 的 資 訊 容 量 不 斷 成 長, 將 會 從 2009 年 的 0.8ZB, 在 2020 年 成 長 到 40ZB( 相 當 於 1 兆 GB), 等 於 每 15 秒 就 成 長 1PB, 年 複 合 成 長 率 高 達 40%, 在 爆 炸 性 的 資 料 增 長 過 程 中, 結 構 性 資 料 的 成 長 相 當 緩 慢, 非 結 構 性 的 資 料, 包 括 視 訊 網 頁 6
智 慧 型 手 機 消 費 資 料 位 置 資 料 財 務 服 務 資 料, 以 及 社 會 媒 體 資 料 等, 至 少 有 80% 的 數 據, 屬 於 非 結 構 化 資 料 爆 炸 性 的 資 料 流 動 令 使 用 者 頻 頻 更 新 資 料, 且 資 訊 系 統 也 日 趨 複 雜, 促 使 巨 量 資 料 (Big Data) 的 分 析 應 用 成 了 當 前 最 重 要 的 課 題 對 於 資 料 量 的 爆 增, 企 業 除 了 需 要 從 龐 大 且 複 雜 的 資 料 中 整 理 出 有 效 的 訊 息 之 外, 大 資 料 正 驅 動 我 們 到 一 個 轉 捩 點 : 及 時 的 資 料 形 成 多 樣 的 資 料 型 態 資 料 的 量 變 大 使 用 者 的 期 望 硬 體 與 儲 存 的 成 本 經 濟 行 動 性 巨 量 資 料 之 分 析 巨 量 資 料 的 分 析 多 用 在 三 種 行 為, 分 別 是 評 估 即 時 決 策 以 及 預 測 企 業 資 料 就 像 冰 山 一 樣, 看 得 到 的 部 分 往 往 只 有 浮 在 表 面 的 10%, 看 不 到 的 約 90%, 過 去 習 慣 處 理 的 資 料, 其 實 只 佔 海 量 資 料 的 15%, 往 往 是 表 面 資 料 出 問 題 時, 才 會 去 檢 視 後 台 的 底 層 資 料 (Row DATA) 這 是 一 種 被 動 解 決 問 題 的 態 度, 企 業 如 果 能 在 平 常 就 將 底 層 資 料 分 析 好, 才 有 可 能 事 先 找 到 機 會, 而 非 事 後 解 決 問 題 看 似 垃 圾 的 龐 雜 資 料, 只 要 經 過 巨 量 資 料 技 術 分 析, 透 過 細 微 的 觀 察 分 析 及 萃 取, 從 資 料 中 發 掘 有 價 值 的 知 識, 才 算 是 發 掘 到 金 礦 想 從 巨 量 資 料 煉 金, 第 一 種 思 維 是 用 方 法 去 找 問 題, 第 二 種 思 維 是 依 問 題 來 找 方 法, 前 者 是 提 供 眾 多 產 品, 後 者 則 是 專 精 特 定 領 域, 兩 者 各 有 價 值 巨 量 資 料 下 新 興 的 I T 技 術 在 資 料 增 長 過 程 中, 結 構 性 資 料 的 成 長 往 往 相 當 緩 慢, 但 非 結 構 性 的 資 料, 包 括 視 訊 網 頁 智 慧 型 手 機 消 費 資 料 位 置 資 料 財 務 服 務 資 料, 及 社 群 媒 體 資 料 等, 至 少 有 80% 的 數 據, 屬 於 非 結 構 化 資 料, 已 經 超 越 傳 統 資 料 庫 或 現 有 資 料 管 理 工 具 能 夠 處 裡 的 範 圍 目 前 的 資 料 庫 解 決 方 案, 主 要 是 用 來 設 計 儲 存 結 構 化 資 料, 能 對 已 知 問 題 的 回 答 速 度 進 行 優 化, 並 且 資 料 架 構 本 身 往 往 就 決 定 了 內 容 形 式, 對 於 新 資 料 型 態 與 新 問 題, 都 有 適 應 上 的 困 難, 加 上 擴 展 成 本 高 昂, 7
企 業 勢 必 得 尋 求 不 同 以 往 的 資 料 處 理 解 決 方 案, 才 能 面 對 爆 炸 性 的 資 料 增 長 如 何 優 化 資 料, 方 便 且 容 易 的 搜 尋 到 所 需 要 的 資 訊, 也 變 得 更 加 困 難, 因 此 各 種 新 技 術 也 如 雨 後 春 筍 般 冒 出 來 ::IN-Memory Computing NOSQL DB Visual Discovery Grid and Clustering Hadoop MapReduce EDW Scale-out Streaming Data Technology Predictive Analytics 等 等 H a d o o p - 巨 量 資 料 分 析 平 台 的 最 佳 選 擇 之 一 大 資 料 必 須 藉 由 電 腦 進 行 統 計 比 對 解 析 方 能 導 出 客 觀 結 果, 但 因 資 料 巨 大 幾 乎 無 法 使 用 大 多 數 的 資 料 庫 管 理 系 統 處 理, 而 必 須 使 用 在 數 十 數 百 甚 至 數 千 台 伺 服 器 上 同 時 平 行 運 行 的 軟 體 最 早 碰 到 巨 量 資 料 問 題 的 業 者 就 是 Google, 根 據 Google 在 2006 年 發 表 的 資 料 所 建 構 而 成 的 Hadoop 資 料 儲 存 與 計 算 平 台, 就 成 為 有 意 強 化 巨 量 分 析 的 企 業 IT 架 構, 最 適 合 的 選 擇 之 一 Hadoop 是 一 種 分 散 式 的 資 料 處 理 架 構, 使 用 者 可 以 在 不 了 解 分 散 式 底 層 細 節 的 情 況 下, 開 發 分 散 式 程 式 Hadoop 尤 其 擅 長 複 雜 的 分 析, 可 充 分 利 用 集 群 的 威 力, 高 速 運 算 和 儲 存, 並 有 著 高 容 錯 的 特 點 Hadoop 更 實 現 了 分 散 式 檔 案 系 統 (Hadoop Distributed File Syste;HDFS) 架 構, 可 以 部 署 在 低 廉 的 硬 體 上, 並 且 可 提 供 高 傳 輸 率, 來 查 詢 應 用 程 式 的 資 料, 適 合 有 著 巨 量 資 料 集 的 應 用 程 式 使 用 由 於 Hadoop 主 要 是 適 用 於 非 結 構 化 或 半 結 構 化 資 料, 與 適 用 於 結 構 化 資 料 歷 史 性 交 易 資 料 的 關 聯 式 資 料 庫, 其 實 有 相 輔 相 成 的 效 果,Hadoop 與 資 料 倉 儲 的 應 用 特 性 並 不 同, 所 擅 長 處 理 的 資 料 類 型 也 不 同, 在 Hadoop 的 實 務 應 用 面, 絕 對 不 可 能 替 代 既 有 的 資 料 倉 儲 想 要 駕 馭 巨 量 資 料, 企 業 必 須 要 能 針 對 特 別 龐 大 的 資 料 進 行 分 析, 擁 有 能 處 理 密 集 數 據 的 工 作 負 載 能 力, 並 保 證 無 限 量 的 資 料 儲 存 能 力, 因 此, 巨 量 資 料 解 決 方 案 的 需 求, 必 須 要 具 備 成 本 優 勢 來 管 理 資 料 的 數 量 創 建 速 度 與 種 類, 並 能 夠 處 理 與 分 析 極 大 複 雜 的 資 料, 同 時 快 速 地 進 行, 8
且 能 彈 性 的 適 應 環 境 變 化 與 新 資 料 的 類 型, 企 業 IT 架 構 勢 必 也 要 因 應 巨 量 資 料, 而 有 所 變 革 二 統 計 方 法 與 資 料 分 析 現 代 的 企 業 經 常 需 要 蒐 集 大 量 資 料 或 多 維 度 資 料, 包 括 市 場 客 戶 供 應 商 競 爭 對 手 及 未 來 趨 勢 等 重 要 資 訊 但 資 料 超 載 與 無 結 構 化, 使 得 企 業 決 策 單 位 無 法 有 效 利 用 現 存 的 資 訊, 若 能 透 過 有 效 的 資 料 探 索 技 術 或 預 測 型 資 料 探 索, 從 大 量 的 資 料 中 採 集 不 同 的 資 訊 與 知 識 出 來, 作 為 決 策 支 援 之 用, 必 能 產 生 企 業 的 競 爭 優 勢 大 資 料 應 用 興 起, 除 了 傳 統 的 報 表 OLAP 分 析, 也 開 始 有 企 業 運 用 數 學 統 計 機 器 學 習 等 方 式 來 分 析 企 業 既 有 資 料 與 外 部 資 料, 透 過 數 據 來 發 掘 企 業 還 沒 發 現 到 的 問 題, 預 測 未 來 趨 勢 將 不 再 是 夢 想 統 計 是 從 複 雜 數 據 中 萃 取 出 有 用 資 訊 的 學 問, 因 此 在 分 析 巨 量 資 料 這 件 工 作 上, 便 扮 演 了 舉 足 輕 重 的 角 色 統 計 技 術 與 非 統 計 技 術 的 差 異, 主 要 在 於 是 否 考 量 隨 機 因 素 母 數 如 果 太 大, 就 需 要 統 計 技 術, 透 過 機 率 分 配, 用 樣 本 回 推 母 體 一 般 人 所 熟 知 的 統 計, 多 半 是 敘 述 統 計, 非 統 計 專 業 的 人 也 可 以 去 做, 特 色 是 可 以 使 用 全 部 資 料, 但 是 要 花 費 大 量 的 金 錢 時 間 及 人 力 因 此, 可 以 從 較 小 的 樣 本 反 推 母 體 特 徵 的 推 論 統 計, 也 開 始 得 到 重 視, 所 涉 及 的 風 險 有 抽 樣 誤 差 決 策 錯 誤, 但 在 統 計 理 論 中, 均 能 將 這 些 風 險 控 制 降 至 最 小 甚 至 可 忽 略 雖 然 從 學 理 來 說, 統 計 抽 樣 只 要 有 一 定 的 樣 本, 而 且 樣 本 身 沒 有 問 題 就 具 有 代 表 性, 但 相 較 之 下, 大 多 數 人 寧 可 相 信 從 完 整 的 資 料 所 分 析 的 結 果 比 抽 樣 的 效 果 更 精 確 面 對 巨 量 資 料, 有 無 必 要 使 用 全 部 資 料, 是 許 多 欲 在 資 料 中 挖 掘 有 用 資 訊 時 可 以 思 考 的 議 題 會 有 這 種 想 法 起 因 於 成 本, 而 且 除 了 有 形 的 金 錢 成 本 外, 時 間 及 人 力 資 源 等 無 形 成 本, 也 都 需 要 一 併 考 量 ; 其 次 是 精 確 度 會 受 到 多 少 影 響, 造 成 的 決 策 風 險 會 有 多 高, 最 後 則 是 軟 硬 體 方 面 的 限 制, 是 否 真 的 有 足 夠 的 能 力 使 9
用 全 部 資 料, 進 行 統 計 分 析 常 見 的 資 料 分 析 類 型 為 例, 使 用 頻 率 最 高 的 就 是 計 數, 也 就 是 個 數 計 算, 如 某 篇 網 路 文 章 有 幾 個 人 按 讚, 有 70% 以 上 的 分 析, 都 屬 於 這 一 類 分 析 其 次 是 敘 述 統 計 及 一 般 統 計 分 析, 如 平 均 數 標 準 差 比 例 迴 歸 實 踐 設 計 時 間 數 列 多 變 量 分 析 等, 大 約 佔 20% 資 料 探 勘 ( d a t a m i n i n g ) 資 料 探 勘 是 在 探 討 解 析 大 資 料 的 方 法, 是 一 個 從 複 雜 資 料 中 挖 掘, 被 隱 藏 且 具 有 價 值 之 型 式 與 關 係 (hidden pattern and relationship) 的 過 程 資 料 採 礦 的 功 能 : (1) 分 類 (Classification) (2) 預 測 (Prediction) (3) 關 聯 分 組 (Affinity Group) (4) 群 集 化 (Clustering) (5) 敘 述 (Description) 其 實 是 一 種 進 階 統 計 技 術, 可 以 用 自 動 或 半 自 動 方 式, 將 人 力 無 法 或 忘 了 注 意 的 資 料 找 出 來 資 料 採 礦 領 域 最 常 用 的 四 大 技 術 有 : (1) 分 類 (Classification): 預 測 資 料 所 屬 的 類 別 (2) 預 測 (Prediction): 預 測 資 料 所 對 應 的 數 值 (3) 分 群 (Clustering): 發 掘 資 料 間 的 內 部 結 構 (4) 關 聯 (Association): 找 出 那 些 事 件 常 常 一 起 出 現 10
應 用 在 實 務 方 面 常 見 如 下 : (1) 描 述 型 資 料 探 勘, 目 標 在 找 出 趨 勢, 所 用 的 分 析 技 術 : (A). 推 估 (Estimation): 預 測 資 料 所 屬 的 類 別, 根 據 既 有 連 續 性 數 值 之 相 關 屬 性 資 料, 以 獲 致 某 一 屬 性 未 知 之 值 (B). 關 聯 分 組 (Affinity Grouping): 找 出 那 些 事 件 常 常 一 起 出 現, 從 所 有 物 件 決 定 那 些 相 關 物 件 應 該 放 在 一 起 (C). 同 質 分 組 (Clustering): 發 掘 資 料 間 的 內 部 結 構, 將 異 質 母 體 中 區 隔 為 較 具 同 質 性 之 群 組 (Clusters) 關 聯 分 組 (2) 預 測 型 資 料 探 索 技 術 ( 分 類 及 預 測 ): 預 測 資 料 所 對 應 的 數 值, 目 標 在 預 測 / 估 計 及 異 狀 偵 測 資 料 探 勘 的 應 用 俯 拾 即 是, 如 應 用 在 消 費 市 場 就 有 購 物 籃 分 析, 用 來 作 為 行 銷 活 動 規 劃 ; 客 戶 關 係 管 理 則 可 以 將 資 料 探 勘 用 來 尋 找 潛 在 客 戶, 提 升 客 戶 終 生 身 價, 進 而 保 持 客 戶 忠 誠 度 ; 其 他 如 保 險 詐 欺 偵 測 客 戶 信 用 風 險 評 比 電 信 盜 打, 甚 至 NBA 球 賽 球 員 攻 守 強 弱 分 析, 也 都 用 得 上 資 料 探 勘 一 般 資 料 採 礦 的 建 模 方 式 大 都 遵 循 CRISP-DM 的 標 準 流 程 : 由 商 業 理 解 資 料 理 解 資 料 準 備 建 立 模 型 效 能 評 估 上 線 實 施 為 了 達 成 CRISP-DM 的 各 個 階 段, 許 多 廠 商 紛 紛 推 出 許 多 資 料 採 礦 的 工 具, 較 為 知 名 的 有 IBM Intelligent Miner SAS Enterprise Miner SPSS Modeler ( 己 被 IBM 所 併 購 ) 11
在 Data Mining 的 整 個 運 作 過 程, 資 料 前 處 理 是 最 重 要 的 一 個 步 驟, 資 料 前 處 理 得 當, 對 後 續 資 料 探 勘 過 程 是 否 有 效 和 質 量 的 好 壞 有 重 要 的 影 響, 其 重 要 性 和 所 花 費 的 時 間, 均 位 居 其 他 步 驟 的 首 位 SAS 工 具 在 這 個 領 域 確 為 翹 楚, 由 外 部 資 料 的 資 料 編 碼 資 料 轉 換 資 料 精 簡 記 錄 精 簡 域 值 精 簡 欄 位 精 簡 到 資 料 選 擇 數 據 整 合 數 據 過 濾 資 料 清 理 錯 誤 值 離 群 值 空 值 欄 位 擴 充 等 等 無 不 提 供 各 種 方 法 以 達 目 地 資 料 探 勘 技 術 雖 然 早 已 成 熟, 採 礦 軟 體 多 能 提 供 建 立 探 勘 模 型 所 需 的 元 件, 然 而 資 料 分 析 人 員 需 將 資 料 採 礦 流 程 及 分 類 的 詳 細 步 驟 熟 記 於 腦 海 中, 再 根 據 腦 海 中 的 記 憶 一 步 步 完 成 分 類 模 型 的 建 置, 故 優 秀 的 資 料 分 析 人 才 是 資 料 採 礦 成 敗 的 關 鍵 三 SAS 軟 體 在 巨 量 資 料 分 析 的 做 法 SAS Analytics Pro( 本 處 有 其 產 品 ) 在 這 個 資 料 即 一 切 的 時 代, 企 業 政 府 或 學 術 界, 組 織 無 時 無 刻 被 資 料 壓 得 喘 不 過 氣, 挑 戰 在 於 能 否 達 到 隔 天 就 分 析 完 畢 並 以 可 視 化 的 方 式 呈 現 結 果 資 料 來 源 極 為 龐 雜, 多 數 的 統 計 軟 體 無 法 處 理 : 此 外, 為 配 合 政 府 法 規 與 標 準, 必 需 採 用 越 來 越 先 進 的 統 計 方 法, 進 行 可 驗 證 和 記 錄 的 分 析 SAS Analytics Pro 結 合 SAS 最 熱 門 的 三 種 軟 體 產 品 :Base SAS SAS/STAT 與 SAS/GRAPH 為 一 完 備 的 整 合 式 套 裝 工 具 集, 讓 使 用 者 對 資 料 進 行 處 理 儲 存 分 析, 將 資 料 轉 換 為 具 意 義 的 實 用 資 訊, 以 說 服 力 強 的 視 覺 化 效 果 呈 現, 協 助 決 策 者 快 速 瞭 解 問 題, 並 可 在 桌 上 型 電 腦 上 布 署 與 執 行, 不 論 是 分 析 家 研 究 人 員 統 計 人 員 工 程 師 或 科 學 家, 可 以 用 簡 單 明 瞭 的 方 式 瀏 覽 檢 驗 與 呈 現 資 料, 更 可 以 用 各 種 格 式 發 布 自 己 的 成 果 12
SAS Analytics Pro 提 供 具 高 度 彈 性 且 便 於 擴 充 的 第 四 代 程 式 設 計 語 言, 語 法 簡 單 易 學, 包 含 可 協 助 進 行 程 式 設 計 的 數 百 種 語 言 元 素 與 功 能, 涵 蓋 由 資 料 擷 取 格 式 化 與 清 除, 到 資 料 分 析 報 告 及 資 訊 除 存, 並 預 先 撰 寫 的 SAS 程 序 以 處 理 許 多 常 見 的 作 業, 包 括 資 料 處 理 與 管 理 資 訊 儲 存 統 計 分 析 與 報 表 撰 寫, 這 些 程 序 封 裝 並 提 供 重 要 的 功 能, 只 需 幾 個 簡 單 的 指 令 即 能 執 行, 讓 程 式 社 計 人 員 更 具 效 率 及 生 產 力 SAS/BASE: 一 個 專 門 設 計 之 可 擴 展 整 合 的 軟 體 環 境, 滿 足 讀 取 資 料 轉 換 資 料 和 編 製 告 等 工 作, 支 援 所 有 主 要 的 計 算 平 台, 可 顯 著 減 少 程 式 編 撰 與 維 護 時 間, 讓 使 用 者 能 快 速 的 產 製 決 策 者 偏 愛 格 式 的 結 果 與 報 告 SAS/STAT: 提 供 專 業 化 且 廣 泛 的 統 計 分 析 方 法 及 程 序, 從 傳 統 的 描 述 型 分 析 與 預 測 建 模 到 精 密 方 法 與 可 視 化 技 術, 是 企 業 級 的 分 析 需 求 工 具 可 處 理 大 部 分 統 計 分 析, 計 有 變 異 數 分 析 迴 歸 分 析 類 別 資 料 分 析 多 變 量 分 析 存 活 分 析 心 理 計 量 分 析 長 期 資 料 分 析 集 群 分 析 無 母 數 分 析 貝 氏 分 析, 並 有 正 規 化 線 型 化 與 非 線 型 化 等 變 數 轉 換 功 能 這 些 功 能 均 可 產 生 可 重 覆 程 式 碼, 便 於 文 件 建 立 與 驗 證, 從 而 符 合 公 司 與 政 府 規 範 ; 並 且 SAS 公 司 在 開 發 分 析 軟 體 方 面 有 30 年 以 上 的 經 驗, 在 提 供 高 級 可 靠 結 果 方 面 有 很 高 的 學 術 聲 望 SAS/GRAPH: 提 供 可 視 化 及 圖 形 呈 現 物 件, 可 繪 製 豐 富 的 圖 表 及 圖 形, 建 立 客 製 不 同 的 圖 形 類 型, 並 可 與 其 他 資 料 聯 結 製 作 靜 態 或 交 互 式 可 視 內 容 ; 更 透 過 SAS ODS 輸 出 交 付 系 統, 將 圖 形 結 果 以 ActiveX control Java Applet GIF PNG JPG 多 樣 面 貌 呈 現 在 網 頁 瀏 覽 器 中 或 發 送 至 報 表 或 電 子 郵 件 SAS Enterprise Guide( 本 處 有 其 產 品 ) 整 合 有 效 率 且 友 善 的 圖 形 化 介 面, 以 點 選 式 選 單 與 精 靈 驅 動 的 工 具, 提 供 程 式 設 計 人 員 統 計 與 分 析 人 員 等 符 合 其 工 作 需 求 13
的 自 助 式 環 境, 以 引 導 的 方 式, 執 行 簡 單 或 複 雜 的 統 計 分 析 或 報 表 編 製, 一 目 了 然 的 SAS 資 料 與 外 部 資 料 存 取, 可 將 最 新 的 結 果 匯 至 其 他 Windows 伺 服 器 應 用 程 式 或 使 用 者, 讓 管 理 部 門 得 以 制 定 正 確 的 決 策 以 集 中 化 及 以 角 色 為 基 礎 的 安 全 性 管 理 機 制, 管 理 組 織 內 資 料 的 存 取 確 保 使 用 者 擁 有 合 適 的 權 利, 尚 有 程 序 流 程 圖 工 具, 讓 使 用 者 清 楚 專 案 內 容 與 步 驟, 支 援 許 多 立 即 可 用 的 分 析 任 務 (task): 如 預 測 相 關 性 分 析 或 精 靈 ( 計 90 餘 個 ), 讓 使 用 者 輕 鬆 使 用 特 定 功 能 即 可 自 動 產 生 程 式 碼, 初 學 者 或 進 階 使 用 者 可 省 下 程 式 設 計 時 間 更 甚 者, 客 製 化 精 靈 製 作 可 讓 進 階 使 用 者 結 合 精 靈 與 程 式 設 計, 製 作 特 定 且 自 訂 的 任 務 精 靈, 引 導 較 資 淺 的 使 用 者 一 步 步 完 成 較 複 雜 的 程 序, 延 伸 產 品 的 核 心 功 能 並 可 與 網 路 上 其 他 Enterprise Guid 使 用 者 分 享, 或 者 可 透 過 其 他 的 SAS 商 業 智 慧 應 用 程 式 與 Microsoft Office 分 享 圖 形 化 使 用 者 介 面 直 覺 且 具 有 彈 性 的 精 靈 可 提 供 報 表 製 作 分 析 與 資 料 存 取, 伴 隨 產 生 記 錄 檔, 警 訊 及 錯 誤 處 理, 結 果 可 以 HTML RTF PDF SAS 報 表 及 文 字 檔 輸 出, 可 將 大 部 分 的 結 果 另 存 為 SAS 資 料 集, 與 其 他 任 務 (task) 一 併 用 於 後 續 分 析, 也 可 製 作 為 ActiveX 動 態 圖 像 之 Jav Applet GIF 或 JPEG, 並 有 直 覺 式 程 序 流 程 圖 介 面, 可 一 目 了 然 各 種 工 作 程 序 資 料 存 取 與 管 理 方 面, 不 但 擅 長 存 取 任 何 SAS 支 援 的 資 料 類 型, 並 可 透 過 ODBC OLE DB OLAP 等 功 能 存 取 原 生 的 W indows 資 料 類 型 ( 計 有 Microsoft Word 文 件 Excel 檔 HML Access Paradox TXT 檔 ASC 檔 TAB 分 隔 檔 及 以 逗 號 分 隔 之 CSV 檔 ),OLAP 分 析 器 提 供 專 門 且 可 進 階 分 析 儲 存 於 OLAP 資 料 方 塊 (cube) 的 資 訊, 並 能 瀏 覽 擷 取 多 維 度 資 料, 透 過 進 階 統 計 程 序 譖 進 行 資 料 探 勘 分 析 圖 形 化 查 詢 產 生 器 (Query Builder), 可 讓 使 用 者 在 沒 有 IT 人 14
員 的 協 助 下, 建 立 更 新 各 種 查 詢 或 子 查 詢 ( 可 預 覽 產 生 的 查 詢 程 式 碼, 藉 以 學 習 或 強 化 查 詢 語 法 的 能 力 ), 連 結 資 料 庫 表 格, 即 使 非 SQL 專 家 也 能 輕 鬆 操 作 資 料, 完 成 資 料 轉 置 排 序 標 準 化 等 資 料 整 理 工 作, 並 可 存 取 其 他 SAS 產 品 所 建 立 的 資 訊 報 表 製 作 與 分 析 任 務 的 廣 泛 與 周 延, 舉 凡 清 單 式 報 表 摘 要 式 統 計 表 單 因 子 次 數 統 計 表 (one-way frequence table) 關 聯 表 圖 形 方 面 則 有 區 域 圖 長 條 圖 盒 型 圖 氣 泡 圖 環 形 圖 折 線 圖 地 圖 圖 表 圓 形 圖 雷 達 圖 散 佈 圖 曲 面 圖 及 等 高 線 圖 等, 分 析 任 務 有 變 異 數 分 析 ANOVA 預 測 模 型 (t 檢 定 單 因 子 ANOVA 無 母 數 單 因 子 ANOVA 線 性 模 型 及 混 合 模 型 ); 迴 歸 模 型 ( 線 性 迴 歸 羅 吉 斯 迴 歸 非 線 性 及 廣 義 線 性 模 型 ); 多 變 量 關 係 模 型 ( 群 集 分 析 因 子 分 析 主 成 分 分 析 正 準 相 關 及 判 別 分 析 ); 存 活 分 析 ; 功 能 分 析 ; 管 制 圖 ; 時 間 序 列 ; 表 格 分 析 等 不 勝 枚 舉. SAS 巨 量 資 料 視 覺 化 分 析 平 台 視 覺 化 及 高 效 能 分 析 巨 量 資 料 的 手 法, 搭 配 SAS 合 作 夥 伴 (EMC Greenlpum 或 Teradata) 的 Database appliance 解 決 方 案, 利 用 導 入 記 憶 體 式 資 料 庫 (In-Memory Database) 的 運 算 技 術, 迅 速 又 準 確 的 同 時 支 援 多 位 使 用 者 ( 不 論 是 決 策 者 分 析 師 統 計 人 員 或 資 料 科 學 家 ) 進 行 資 料 探 索 或 分 析, 再 經 由 網 路 或 行 動 裝 置 以 便 即 時 發 佈 結 果 IT 人 員 在 完 成 平 台 建 置 後 可 經 由 資 料 架 構 師 以 一 致 性 規 範 為 不 同 使 用 者 準 備 資 料, 留 給 使 用 者 自 行 運 用 的 空 間 且 又 可 掌 控 資 料 公 開 程 度 下 載 流 量 資 料 視 覺 化 介 面 : 不 論 資 料 多 寡 或 繁 簡,Web 型 態 的 互 動 式 資 料 探 索 模 式, 適 用 各 種 使 用 者 在 不 需 仰 賴 IT 部 門 下 取 用 資 料 自 動 化 圖 表 會 自 動 依 據 使 用 者 欲 分 析 的 資 料 項 目 選 取 最 適 合 的 圖 表 類 型 : 如 一 個 測 量 值 以 次 數 分 配 表 呈 現 兩 個 測 量 值 則 以 散 布 圖 表 示 三 個 以 上 的 測 量 值 以 氣 泡 圖 表 現 等 全 視 覺 化 地 理 空 間 視 圖, 對 地 理 空 間 資 料 一 目 了 然, 協 助 使 用 者 快 速 透 析 空 間 資 料 ; What does it 15
mean 對 話 視 窗 自 動 找 出 並 解 釋 參 數 間 關 係 ; 可 製 作 具 光 影 效 果 之 3D 圖 表 ; 自 動 繪 圖 功 能 會 呈 現 最 適 合 資 料 類 型 的 圖 表, 省 去 反 覆 嘗 試 的 步 驟 : 內 建 各 種 精 美 圖 表 如 盒 形 圖 熱 圖 氣 泡 圖 ; 工 具 面 板 中 的 各 種 圖 示 可 讓 使 用 者 變 更 查 詢 或 自 由 篩 選 分 類 資 料 ; 敘 述 性 統 計 選 單 : 如 最 大 值 最 小 值 平 均 數 等 可 輕 鬆 掌 握 特 定 測 量 值, 使 用 者 可 自 行 依 其 需 求 自 選 功 能 服 務 即 時 性 的 視 覺 化 資 料 探 索 和 瀏 覽 功 能, 能 夠 快 速 判 讀 資 料 的 重 要 意 義 使 用 者 自 主 分 析 :SAS 巨 量 資 料 視 覺 分 析 平 台, 整 合 了 先 進 分 析 技 術 和 各 種 實 用 功 能, 如 快 速 預 測 功 能 自 動 繪 圖 功 能 詞 彙 說 明 話 框 提 示 滑 鼠 拖 曳 等 功 能 不 論 是 否 具 備 統 計 知 識, 是 否 為 統 計 分 析 人 員 或 者 具 有 分 析 技 術 背 景, 都 能 透 過 功 能 選 單, 藉 此 理 解 複 雜 的 資 料, 執 行 強 大 的 資 料 分 析 可 篩 選 各 層 資 料 進 行 多 維 度 交 叉 分 析 ;In-Memory SAS LASR 分 析 伺 服 器 運 算 技 術 可 分 析 巨 量 資 料, 解 讀 大 量 變 數 間 之 關 聯 度, 任 意 彙 總 或 探 鑽 資 料 及 執 行 切 割 運 算 行 動 智 慧 支 援 ipad 與 Android 原 生 手 勢 功 能 ( 如 拉 近 / 拉 遠 輕 掃 功 能 ) 貼 近 使 用 者 使 用 習 慣 ; 其 彈 性 排 版 功 能 為 不 同 需 求 者 量 身 打 造 報 表 內 容 ; 依 連 結 指 標 圖 出 定 義 建 立 報 表 或 依 選 取 指 標 符 號 做 為 篩 選 標 準 ; 支 援 安 全 的 上 線 / 離 線 模 式 瀏 覽 報 表 ; 報 表 可 添 加 註 解 協 助 瞭 解 內 容 也 可 依 電 子 郵 件 信 箱 附 加 註 解 的 報 表 傳 送 其 他 相 關 人 員 ; 報 表 變 更 時 能 推 送 至 行 動 裝 置 SAS 高 效 能 運 算 分 析 SAS 高 效 能 分 析 產 品 (SAS BASE SAS/ETS SAS/STAT SAS Enterprise Miner) 搭 配 SAS 合 作 夥 伴 (EMC Greenlpum 或 Teradata) 的 Database appliance 解 決 方 案, 利 用 In-Memory 處 理 資 源, 將 資 料 庫 系 統 視 為 分 享 記 憶 體 的 網 格 運 算, 可 大 量 平 行 運 算 SAS 程 式 碼 及 分 析 過 程, 快 速 移 動 大 量 In-Memory 資 料, 以 即 時 產 出 分 析 結 果 16
SAS 高 效 能 運 算 分 析, 不 但 能 執 行 高 效 能 資 料 探 高 效 能 變 數 簡 化 並 可 做 高 效 能 線 性 迴 歸 分 析 高 效 能 羅 吉 斯 迴 歸 分 析 高 效 能 非 線 性 迴 歸 分 析 甚 至 高 效 能 混 合 線 性 迴 歸 模 型 高 效 能 資 料 採 礦 高 效 能 神 經 網 路 以 及 隨 機 森 林 決 策 樹 高 效 能 計 數 迴 歸 分 析 高 效 能 嚴 重 程 度 模 型 其 原 理 是 透 過 一 連 串 的 平 行 程 序 提 供 大 規 模 資 料 探 索, 藉 由 此 探 所 能 力, 可 由 巨 量 資 料 快 速 得 到 敘 述 統 計 : 如 平 均 值 最 大 值 最 小 植 全 距 離 散 程 度 集 中 程 度 等, 以 利 集 合 彙 總 及 各 層 級 變 數 一 併 產 出 以 其 高 效 能 變 數 縮 減 特 性, 找 出 解 釋 最 大 量 資 料 變 異 的 變 數, 並 選 擇 非 監 督 式 變 數 此 外, HPREDUCEY 程 序, 可 選 出 影 響 整 體 資 料 變 異 甚 鉅 的 原 始 變 術 子 集, 執 行 變 異 數 分 析 並 簡 化 變 數 維 度 在 處 理 巨 量 資 料 與 複 雜 運 算 時 系 統 會 擷 取 資 料 並 重 新 配 置 於 精 密 的 資 料 庫 記 憶 體 的 手 法, 使 得 資 料 不 受 結 構 限 制, 快 速 置 入 記 憶 體, 快 速 處 理 新 情 境 案 例 或 新 運 算, 可 幫 助 運 用 大 量 資 料 及 複 雜 分 析, 解 決 困 難 的 問 題 或 過 去 認 為 無 法 做 的 窘 境 有 了 此 種 高 效 能 運 算 分 析 技 術, 無 需 使 用 子 資 料 集, 可 一 次 使 用 全 部 的 資 料 應 用 在 多 情 境 案 例 下 進 行 資 料 準 備 探 索 與 建 立 模 型, 並 即 時 回 應, 以 利 更 快 速 做 出 高 精 準 度 的 分 析 見 解 或 關 鑑 決 策 SAS Mobile BI 平 板 電 腦 與 智 慧 手 機 的 廣 泛 使 用, 使 得 組 織 需 要 採 用 和 支 援 行 動 裝 置,IT 人 員 必 需 為 商 務 使 用 者 和 管 理 階 層 提 供 最 新 的 相 關 資 訊, 隨 時 將 資 訊 送 到 使 用 者 的 行 動 裝 置 中 SAS Mobile 是 SAS Visual Analytics 解 決 方 案 的 重 要 元 件, 利 用 Visual Analytics 易 於 使 用 的 報 表 設 計 工 具, 可 快 速 的 建 立 管 理 層 級 的 報 表 視 覺 化 資 訊, 透 過 Web 發 布 (Adobe PDF 檔 或 發 布 至 ipad 或 Android 行 動 裝 置, 大 幅 加 快 中 要 資 訊 的 發 送, 促 進 知 識 分 享 和 決 策, 並 提 供 安 全 (VPN SLL HTTPS 黑 名 單 與 遠 端 擦 除 ) 的 互 動 資 訊, 讓 行 動 決 策 者 能 夠 快 速 取 得 深 入 分 析 後 的 資 訊 17
報 表 物 件 的 豐 富 互 動 功 能, 提 供 報 表 設 計 與 資 料 使 用 的 無 限 可 能, 使 用 者 只 需 利 用 行 動 裝 置 中 內 建 的 互 動 功 能 ( 如 縮 放 滑 動 內 容 分 組 單 擊 瀏 覽 ) 可 瀏 覽 鑽 探 篩 選 報 表 物 件 等 進 行 互 動 SAS Mobile BI 具 備 離 線 功 能, 即 使 沒 有 網 路 連 線, 也 可 以 隨 時 隨 地 存 取 : 此 外 可 顯 示 SAS Stored Process 的 輸 出, 不 需 存 取 SAS 應 用 程 式 : 使 用 現 有 的 資 料, 依 據 最 新 的 資 訊, 為 使 用 者 提 供 即 時 分 析 18
肆 心 得 與 建 議 一 資 料 科 學 與 資 料 科 學 家 資 料 本 身 告 訴 我 們 發 生 了 什 麼 (WHAT), 而 我 們 必 需 能 夠 由 資 料 中 發 現 為 什 麼 (WHY) 以 往, 如 何 去 統 計 和 整 合 不 同 來 源 的 資 料 一 直 是 我 們 最 大 的 挑 戰, 有 太 多 的 資 訊 我 們 無 法 掌 握, 使 得 我 們 不 得 不 倚 賴 過 去 的 經 驗 來 做 判 斷 如 今, 使 用 全 部 的 資 料 做 分 析 已 不 成 問 題, 許 多 原 來 需 要 投 入 的 軟 硬 體 成 本 已 經 大 大 降 低, 技 術 發 展 上 也 已 經 成 熟 不 少, 甚 至 有 許 多 非 常 經 典 的 實 例 已 經 出 現 例 如 :Amazon 的 書 籍 推 薦 系 統 Wallmart 懂 得 在 颶 風 前 促 銷 小 甜 點 IT 應 用 系 統 既 然 已 經 可 以 負 荷 得 了 越 來 越 多 的 資 料, 接 下 來 要 思 考 的 是, 在 分 析 作 業 上 是 否 更 趨 於 主 動, 提 供 更 深 入 的 分 析 結 果, 不 只 是 告 訴 人 們 What, 而 且 更 有 機 會 回 答 How 和 Why 等 問 題 資 料 科 學 是 指 在 資 料 庫 中 利 用 各 種 分 析 方 法 與 技 術, 將 過 去 所 累 積 的 大 量 繁 雜 歷 史 資 料, 結 合 即 時 的 外 部 或 非 結 構 資 料, 進 行 分 析 歸 納 與 整 合 等 工 作, 萃 取 出 有 用 的 資 訊, 找 出 有 意 義 且 使 用 者 有 興 趣 的 樣 式 (pattern), 提 供 企 業 管 理 階 層 在 進 行 決 策 時 的 參 考 依 據 資 料 科 學 應 用 不 只 是 清 理 資 料 建 立 分 析 模 型, 應 包 含 資 料 清 理 前 的 收 集 資 料 及 處 理 資 料 流 程, 清 理 資 料 後 之 探 索 式 分 析 機 器 學 習 建 立 資 料 產 品 資 料 科 學 家 (Data scientist) 是 集 合 業 務 分 析 產 業 顧 問 溝 通 協 調 及 資 料 科 學 專 業 於 一 身 的 人, 並 懂 得 從 當 今 巨 量 排 山 倒 海 而 來 的 非 結 構 性 資 訊 當 中, 抽 絲 剝 繭, 找 到 重 要 問 題 的 答 案 據 全 球 最 具 影 響 力 的 商 業 雜 誌 財 富 報 導, 資 料 科 學 家 是 未 來 十 年 最 具 前 瞻 性 的 工 作 ; 全 球 專 業 經 理 人 及 工 商 管 理 者 都 要 閱 讀 的 哈 佛 商 業 評 論 雜 誌 甚 至 在 2012 年 10 月 號 指 出 : 資 料 科 學 家 是 企 業 最 誘 人 的 職 缺 因 此, 資 料 科 學 家 絕 對 是 未 來 19
職 場 中 最 炙 手 可 熱 的 明 星 職 位 自 2012 年 起, 巨 量 資 料 的 應 用, 已 然 成 為 全 球 科 技 趨 勢 的 主 角, 而 擁 有 高 效 能 的 商 業 分 析 平 台 及 優 質 的 資 料 科 學 家 人 才, 幫 助 企 業 快 速 作 出 正 確 決 策, 成 為 企 業 決 戰 商 場 的 兩 大 利 器 2013 年 IDC 台 灣 巨 量 資 料 分 析 市 場 調 查 報 告 中 顯 示, 台 灣 企 業 對 巨 量 資 料 分 析 的 需 求 在 未 來 3 年 內 將 有 更 顯 著 的 成 長 研 究 機 構 Gartner 預 測, 2015 年 全 球 將 有 440 萬 個 海 量 資 料 相 關 的 IT 工 作 職 缺, 唯 目 前 尚 未 有 真 正 以 巨 量 資 料 為 背 景 的 學 科, 因 此 人 才 缺 口 恐 達 3 分 之 2 分 析 能 力 是 一 種 結 合 科 技 數 據 及 經 驗 的 整 合 有 機 體, 資 料 科 學 家 的 養 成 需 整 合 多 方 面 的 基 礎 能 力, 包 含 商 業 觀 念 統 計 資 訊 管 理 邏 輯 分 析 等 而 為 了 結 合 技 術 資 料, 以 及 應 用 分 析 與 服 務 等 三 方 面 的 功 能, 增 強 巨 量 資 料 分 析 之 跨 領 域 整 合 人 才 培 訓 以 及 相 關 國 際 學 術 交 流, 並 透 過 結 合 跨 領 域 研 究 人 力 資 源, 提 升 研 究 能 量 成 功 的 巨 量 資 料 分 析 人 員, 除 須 對 統 計 方 法 有 廣 泛 的 了 解 外, 還 須 要 :1. 在 某 些 科 學 領 域 有 深 厚 的 專 業 知 識, 因 而 能 將 要 解 決 的 問 題, 分 解 成 一 組 明 確 且 可 測 試 的 假 設 2. 具 備 足 夠 的 電 腦 知 識 與 程 式 能 力, 以 利 於 使 用 最 有 效 率 的 電 腦 處 理 技 術, 來 管 理 與 分 析 比 先 前 更 大 的 資 料 量 3. 能 夠 以 非 技 術 性 的 語 言, 來 解 釋 分 析 結 果, 以 達 成 有 效 率 的 溝 通 故 如 何 整 合 統 計 分 析 資 訊 科 學 資 料 視 覺 化 的 跨 領 域 專 業, 建 立 巨 量 資 料 分 析 人 才 是 刻 不 容 緩 的 事 情 很 多 公 司 其 實 本 身 都 有 一 些 人 員 在 分 析 資 料, 這 些 資 料 分 析 員 表 面 上 擔 任 分 析 的 角 色, 但 實 際 上 只 是 在 製 作 報 表, 他 們 是 資 料 科 學 家 嗎? 或 者 可 能 進 階 成 為 資 料 科 學 家 嗎? 科 學 家 這 樣 的 工 作, 本 來 就 有 探 索 研 究 的 特 質, 若 一 直 期 待 別 人 指 示 去 作 分 析 發 掘 問 題, 沒 辦 法 產 生 新 的 價 值 但 具 有 這 種 能 力 或 專 業 的 人 才 太 難 找 尋, 因 為 資 料 科 學 面 對 的 範 疇 複 雜, 不 是 人 人 都 有 辦 法 同 時 精 通 資 料 採 礦 機 器 學 習 等 技 術, 單 靠 一 個 人 要 具 備 這 麼 多 不 同 能 力, 也 不 容 易, 因 此 需 透 過 團 隊 合 作 的 方 式 ( 該 業 務 領 域 20
的 專 家 資 料 科 學 工 程 師 (Data Science Engineer) 統 計 學 家 或 分 析 師 ): 讓 每 個 人 在 一 個 領 域 很 專 精, 其 他 人 也 涉 獵 一 些 這 個 領 域 的 相 關 知 識, 彼 此 互 補 早 在 2012 年 台 灣 微 軟 瞄 準 此 需 求, 和 中 華 資 料 採 礦 協 會 合 作, 提 供 微 軟 的 分 析 工 具, 並 結 合 學 界 專 家 師 資, 成 立 微 軟 資 料 科 學 研 究 院, 課 程 內 容 包 括 資 料 科 學 基 礎 企 業 資 訊 整 合 資 料 探 索 數 據 挖 掘 應 用 等 等, 透 過 產 學 合 作, 落 實 企 業 社 會 責 任, 希 望 及 早 在 台 培 育 更 多 資 料 科 學 人 才, 提 升 台 灣 在 全 球 巨 量 資 料 分 析 環 境 的 競 爭 力 2012 年 起,SAS 臺 灣 分 公 司 的 校 園 資 料 科 學 家 育 才 計 畫, 藉 由 SAS 商 業 分 析 領 域 的 深 厚 經 驗 與 專 業 的 分 析 技 術, 與 全 台 逾 50 多 間 頂 尖 大 學 合 作, 啟 動 資 料 科 學 家 培 訓 課 程 計 畫, 透 過 產 學 合 作, 孕 育 資 料 分 析 人 才 提 升 台 灣 在 全 球 巨 量 資 料 分 析 環 境 的 競 爭 力 並 且 舉 辦 SAS 校 園 資 料 採 礦 競 賽 - 高 手 高 手 高 高 手, 透 過 提 供 企 業 去 識 別 化 資 料 庫 實 例 方 式, 各 參 賽 團 隊 在 學 校 師 長 指 導 下, 應 用 SAS 的 分 析 軟 體, 由 學 生 團 隊 提 出 創 意 的 資 料 採 礦 運 用 提 案, 參 加 競 賽 透 過 此 一 全 國 性 比 賽, 集 合 各 校 優 秀 學 子 交 流 切 磋, 互 相 激 盪, 增 加 資 料 庫 採 礦 運 用 的 實 力, 這 也 是 開 放 資 料 (open data) 倡 導 讓 大 眾 將 資 料 加 值 的 作 法 之 一 二 大 資 料 需 要 大 分 析 (Big Data need Big Analytics) 大 資 料 與 資 料 處 理 資 料 分 析 有 關, 可 以 說 是 一 個 偏 技 術 性 的 議 題, 因 MapReduce, Hadoop 等 分 散 式 巨 量 資 料 處 理 的 問 世, 讓 人 們 在 資 料 處 理 上 躍 進 了 許 多, 但 是 有 了 這 些 新 的 處 理 技 術, 並 不 會 讓 空 有 巨 量 資 料 的 擁 有 者 突 然 變 得 比 較 聰 明 或 能 有 嶄 新 的 見 解, 商 業 智 慧 需 經 下 列 八 種 演 進 階 段, 才 能 將 資 料 轉 化 為 資 訊 由 挖 掘 知 識 到 洞 見 決 策 (1) 標 準 報 表 What happened? When did it happened? 21
(2) 隨 選 報 表 How ofen? How many? Where? (3) OLAP 查 詢 Where exactly? How to find answer? (4) 警 示 When should I act? What actions? (5) 統 計 式 分 析 Why is it happened? What opportunities am I missing? (6) 預 測 What if? How much? When? (7) 預 測 建 模 What will next happen? (8) 最 佳 化 Best decision? 若 沒 有 明 確 的 目 標 與 應 用, 巨 量 資 料 不 會 有 任 何 價 值, 長 期 以 來, 總 處 負 責 各 項 數 據 的 蒐 集 分 析 彙 編 和 公 布, 由 於 是 官 方 的 統 計 發 布 窗 口, 因 此 這 些 資 料 必 需 全 面 可 靠, 同 時 具 有 國 際 性 參 考 價 值 但 統 計 報 表 僅 意 味 提 供 事 實, 累 積 了 多 年 的 歷 史 資 料, 看 得 見 的 問 題 容 易 被 正 視, 對 於 看 不 見 的 問 題, 就 需 要 透 過 資 料 分 析 來 突 顯 如 何 由 這 些 大 量 資 料 中 找 到 有 意 義 的 資 訊, 快 速 地 洞 悉 完 整 的 決 策 資 訊, 勢 必 得 尋 求 不 同 已 往 的 資 料 處 理 解 決 方 案 例 如 :Google 工 程 師 發 表 的 以 資 料 分 析 技 術 預 測 流 感 趨 勢 的 研 究 (Flu Trends), 僅 靠 分 析 人 們 在 網 路 世 界 中 搜 尋 引 擎 上 的 用 字 而 不 靠 基 層 醫 師 回 報 的 流 感 案 例, 的 確 令 學 者 專 家 跌 破 眼 鏡, 這 種 另 類 的 分 析 用 法 可 能 不 是 僅 靠 運 氣 即 可 做 得 到, 必 需 像 採 挖 石 油 般 探 勘 多 次 才 能 找 到 有 產 值 的 油 井, 若 枯 竭 時, 也 需 要 判 斷 是 否 繼 續 採 挖 或 放 棄 而 尋 找 另 一 處 油 井 在 這 巨 量 資 料 的 時 代 裡, 不 但 許 多 技 術 在 改 變, 連 觀 念 與 做 法 也 必 需 時 時 調 整 如 何 達 標 所 涉 及 的 技 術 問 題, 理 應 由 資 訊 部 門 來 負 責 相 關 的 儲 存 設 備 與 網 路 等 後 端 系 統, 甚 至 基 礎 設 備 ; 如 何 活 用 資 料 以 助 於 改 善 決 策 22
勢 必 也 不 能 不 正 視 ; 人 腦 固 然 厲 害, 卻 獨 缺 電 腦 的 擴 充 力 善 用 工 具 以 強 化 能 力, 製 作 應 用 程 式, 讓 人 們 看 了 能 直 覺 瞭 解 的 可 視 化 作 業, 藉 由 可 視 化 直 覺 地 掌 握 趨 勢, 由 動 態 進 展 到 即 時 甚 而 到 互 動, 適 時 的 引 進 可 視 化 分 析 (Visual Analytics) 以 便 看 到 以 往 忽 略 的 狀 況 互 動 交 談 式 分 析, 則 允 許 各 種 模 型 的 試 誤 資 料 採 礦 分 析 預 測 分 析 是 以 更 客 觀 的 理 論 導 出 模 型 在 日 常 的 資 料 彙 整 外, 可 否 根 據 歷 史 資 料 找 出 規 則, 設 計 出 一 系 列 的 統 計 模 型 有 新 的 資 料 時, 套 用 到 模 型 裡, 接 著 模 型 就 會 顯 示 出 一 個 可 接 受 的 範 圍, 如 果 超 過 範 圍, 可 計 算 差 值 判 斷 是 否 異 常, 以 檢 測 工 作 中 潛 藏 的 瑕 疵 或 失 誤, 降 低 有 誤 資 料 導 致 錯 誤 的 結 論, 由 一 般 的 資 料 分 析 進 展 到 趨 勢 分 析 似 乎 是 可 以 考 慮 的 手 法 三 將 資 料 當 做 策 略 性 核 心 資 產 來 管 理 總 處 不 論 是 公 務 統 計 或 調 查 統 計 業 務, 累 積 了 多 年 的 各 種 資 料, 可 否 將 資 料 當 做 重 要 資 產 來 管 理, 藉 由 資 料 整 合, 改 善 整 個 組 織 的 精 確 資 訊 流 程 ; 透 過 資 料 生 命 週 期 管 理, 確 保 資 料 品 質 良 好 : 建 立 單 一 精 確 且 統 一 的 資 料 檢 視 機 制, 將 資 料 整 合 資 料 品 質 與 管 理 合 併 為 統 一 的 開 發 與 遞 送 環 境, 組 織 可 充 分 運 用 資 料 管 理 程 序 的 每 一 個 階 段, 將 一 致 精 確 且 即 時 的 資 料 提 供 給 組 織, 讓 分 析 人 員 不 用 再 費 力 連 結 散 落 各 伺 服 器 各 儲 存 體 的 各 種 結 構 的 資 料, 專 心 致 力 於 其 統 計 分 析 領 域, 建 立 及 分 享 深 度 資 訊 四 地 理 視 覺 化 報 表 資 料 無 處 不 在 : 所 有 數 據 的 產 製, 或 多 或 少 都 與 地 理 位 置 有 密 切 的 關 係, 如 商 圈 分 析 銷 售 據 點 分 析 Location-Based Service App 地 圖 報 表 是 商 業 趨 勢 與 地 理 資 訊 的 完 美 結 合, 也 就 是 地 理 資 料 視 覺 化 藉 由 資 料 驅 動 圖 形 的 行 為 與 屬 性 善 用 圖 形 (Shape) 的 行 為 進 行 資 料 視 覺 化, 在 圖 形 中 建 立 行 為 模 式, 讓 圖 形 資 料 有 所 異 動 時 改 變 圖 形 的 外 觀 面 貌 與 23
行 為 地 理 視 覺 化 報 表, 透 過 地 圖 幫 助 人 們 更 容 易 理 解 空 間 資 訊, 則 總 處 多 年 來 以 文 字 處 理 模 式 企 圖 解 譯 全 國 門 牌 位 置 空 間 資 訊 的 無 力 感, 將 能 有 所 改 善 24
伍 結 語 國 際 專 家 2014 年 預 測 IT 趨 勢 的 五 大 面 向 :1. 行 動 化 趨 勢 後 的 企 業 重 心 調 整 2. 大 數 據 成 長 與 應 用 層 面 3. 傳 統 IT 基 礎 建 設 (Infrastructure) 的 重 新 定 義 4 企 業 流 程 優 化 與 管 理 5. 資 訊 安 全 新 型 態 威 脅 與 防 禦 巨 量 資 料 是 下 世 代 最 重 要 的 五 大 趨 勢 之 一, 資 料 科 學 家 更 是 因 此 趨 勢 而 產 生 的 新 機 會 不 記 得 在 哪 個 場 合 聽 過 頗 精 闢 的 見 解 : 由 知 其 然 ( 資 訊 報 表 ) 到 知 其 所 以 然 ( 行 為 ), 由 結 構 性 資 料 ( 資 訊 ) 到 凡 走 過 必 留 下 痕 跡 ( 訊 息 ), 由 事 後 聰 明 ( 資 訊 統 計 ) 到 事 前 預 測 ( 訊 息 預 測 ), 由 市 場 區 隔 ( 企 業 資 訊 ) 到 建 構 網 路 ( 消 費 者 訊 息 ), 由 數 據 分 析 ( 資 訊 ) 到 視 覺 化 ( 圖 像 訊 息 ), 由 多 樣 性 ( 分 散 資 料 ) 到 整 合 性 ( 大 數 據 ), 以 上 這 幾 種 趨 勢 點 出 資 訊 即 行 為, 瞭 解 體 驗 到 知 的 力 量, 大 分 析 的 時 代 就 是 由 知 獲 利 借 用 謝 邦 昌 教 授 的 名 言 : 未 來 的 世 界 除 了 軟 體 即 服 務 外, 更 多 了 資 訊 / 智 能 即 服 務 (Information & Intelligent as a service) 但 SAS 公 司 其 商 業 標 語 更 精 準 的 指 出 : 優 越 的 分 析 技 術, 幫 助 人 們 快 速 獲 得 深 度 資 訊 ; 資 料 視 覺 化, 看 到 以 往 忽 略 的 現 象 ; 行 動 商 業 智 慧, 在 移 動 中 即 時 獲 取 資 訊 的 能 力 巨 量 資 料 的 時 代 已 然 來 臨, 如 何 不 在 資 料 的 洪 流 中 沒 頂, 挖 掘 出 有 價 值 的 金 礦 是 頗 值 得 深 思 的 議 題 25
陸 參 考 資 料 1. http://www.sas.com/offices/asiapacific/taiwan/ 臺 灣 賽 仕 電 腦 2. http://www.ithome.com.tw/tech/ 3. http://www.microsoft.com/taiwan/newsletter/library/edm2013/1003_sqle DM/ 微 軟 資 料 科 學 研 究 院 4. 維 基 百 科 26
柒 附 錄 27