國 立 高 雄 大 學 資 訊 管 理 學 系 ( 研 究 所 ) 碩 士 論 文 應 用 模 糊 增 強 式 學 習 技 術 於 數 位 遊 戲 之 研 究 Applying Fuzzy Reinforcement Learning in Digital Games 研 究 生 : 方 永 平 撰 指 導 教 授 : 丁 一 賢 博 士 中 華 民 國 99年 7月
誌 謝 碩 士 班 兩 年 的 時 間 過 得 很 快, 在 這 兩 年 間 我 學 到 很 多 事 情, 也 失 去 很 多 東 西, 我 覺 得 這 兩 年 是 我 人 生 轉 變 最 大 的 時 期, 面 臨 了 許 多 困 擾 自 己 的 問 題, 也 因 此 改 變 我 面 對 事 情 的 態 度, 並 且 在 這 段 時 間 找 到 了 我 的 人 生 目 標 與 努 力 的 方 向 在 這 段 時 間 中, 最 想 感 謝 的 是 我 的 指 導 教 授 丁 一 賢 老 師, 從 我 一 開 始 完 全 不 知 道 要 做 什 麼, 慢 慢 的 引 導 我 找 到 研 究 的 方 向, 最 終 寫 出 論 文, 過 程 中 我 有 許 多 時 候 都 想 要 放 棄, 但 是 老 師 總 是 及 時 的 拉 我 一 把, 讓 我 可 以 完 成 我 的 學 業, 在 此 我 想 由 衷 的 感 謝 老 師, 謝 謝 您 此 外 我 也 要 感 謝 所 有 幫 助 過 我 的 同 學 學 長 姐 學 弟 妹 以 及 朋 友 們 阿 晟 科 科 瑋 哥 譬 司 哥 大 卜 大 蘇 兄, 我 很 開 心 可 以 在 求 學 的 過 程 認 識 你 們, 當 我 有 什 麼 困 難 時 你 們 都 不 吝 給 予 幫 助, 希 望 在 往 後 的 人 生 路 途 中, 我 們 還 可 以 互 相 扶 持 努 力 也 特 別 感 謝 綠 茶 與 阿 珊, 在 我 口 試 當 天 忙 得 不 可 開 交 時 伸 出 援 手, 讓 口 試 可 以 順 利 進 行, 謝 謝 你 們 而 最 感 謝 的 朋 友 則 是 我 的 戰 友 們, 小 狗 小 朱 書 賓 子 勛 思 齊 肥 與 J-Pow 的 各 位, 在 我 人 生 最 痛 苦 難 熬 的 階 段, 有 你 們 的 嘴 砲 與 陪 伴, 讓 我 每 天 都 過 得 很 開 心, 也 才 能 專 心 的 面 對 許 多 生 活 上 的 問 題, 也 許 大 家 都 因 為 工 作 而 慢 慢 疏 遠, 但 我 知 道 這 份 友 誼 是 不 會 因 此 被 忽 略 的, 你 們 永 遠 是 我 最 重 要 的 朋 友 最 後 則 是 要 感 謝 我 的 家 人, 父 母 親 與 哥 哥, 雖 然 每 次 事 情 很 多 而 讓 我 心 情 不 好 時, 對 你 們 的 態 度 都 很 不 好, 但 是 你 們 還 是 包 容 我, 為 我 打 理 一 切, 給 予 我 家 庭 的 溫 暖, 鼓 勵 支 持 我 讓 我 可 以 無 後 顧 之 憂 的 完 成 學 業, 這 份 親 情 是 我 可 以 勇 敢 面 對 人 生 的 最 大 原 因 最 後 再 次 感 謝 所 有 老 師 朋 友 與 家 人, 沒 有 你 們 的 幫 忙, 我 無 法 完 成 學 業 與 這 篇 論 文, 謝 謝! 方 永 平 僅 誌 於 國 立 高 雄 大 學 資 訊 管 理 學 系 中 華 民 國 九 十 九 年 七 月 I
摘 要 遊 戲 是 人 類 生 活 上 不 可 或 缺 的 一 項 活 動, 近 年 來 科 技 的 蓬 勃 發 展 也 帶 起 了 數 位 遊 戲 產 業 的 龐 大 市 場, 數 位 遊 戲 會 吸 引 人 的 原 因 除 了 其 聲 光 效 果 之 外, 遊 戲 中 玩 家 與 非 玩 家 角 色 的 互 動 也 是 一 個 非 常 重 要 的 因 素, 為 遊 戲 中 的 非 玩 家 角 色 加 入 人 工 智 慧 技 術 可 以 讓 這 些 非 玩 家 角 色 具 有 人 類 的 思 考 能 力, 也 因 此 可 以 讓 遊 戲 與 玩 家 的 互 動 性 更 佳 數 位 遊 戲 中 的 環 境 是 不 斷 在 改 變 的, 因 此 要 為 非 玩 家 角 色 加 入 人 工 智 慧 通 常 會 是 一 個 具 有 挑 戰 性 的 問 題 在 本 研 究 中 要 將 增 強 式 學 習 技 術 應 用 在 數 位 遊 戲 的 非 玩 家 角 色 中, 增 強 式 學 習 技 術 是 一 種 非 監 督 式 的 學 習 方 式, 通 常 用 於 機 械 的 自 動 化 學 習 過 程 中, 增 強 式 學 習 技 術 是 一 個 不 斷 的 試 誤 的 學 習 過 程, 並 且 代 理 人 會 藉 由 去 探 索 新 環 境 來 改 變 其 行 為, 是 一 種 適 用 於 未 知 環 境 下 的 學 習 方 法 要 將 增 強 式 學 習 技 術 應 用 在 數 位 遊 戲 的 非 玩 家 角 色 中, 其 中 最 大 的 困 難 就 在 於 增 強 式 學 習 必 須 要 經 過 一 段 很 久 的 時 間 去 試 誤 學 習, 因 此 本 研 究 利 用 模 糊 理 論 去 改 善 傳 統 增 強 式 學 習 的 效 率, 在 實 驗 的 過 程 中, 成 功 的 用 模 糊 獎 懲 取 代 固 定 獎 懲, 讓 學 習 的 速 度 加 快, 從 實 驗 結 果 中 也 可 以 看 出 獎 懲 機 制 對 於 增 強 式 學 習 結 果 的 好 壞 有 很 大 的 影 響, 不 同 類 型 的 遊 戲 會 需 要 不 同 的 獎 懲 設 定, 找 到 適 合 的 獎 懲 機 制 就 能 讓 數 位 遊 戲 實 際 應 用 的 可 能 性 提 高 關 鍵 字 : 數 位 遊 戲 遊 戲 人 工 智 慧 增 強 式 學 習 模 糊 理 論 II
Abstract Game is one of the indispensable activities for humanity lives. In recent years, the development of technology also brought huge market to game industry. One of the appealing reasons in game is that the player can interact with the non-player-characters in game. Artificial intelligence is very important for these non-player-characters due to Artificial intelligence can let non-player-characters have more interactions with players. The environment in digital games is changing continuously, so it is a challenge to add artificial intelligence in non-player-characters. In this research, we would like to use reinforcement learning in non-player-characters artificial intelligence. Reinforcement learning is a un-supervise learning method, and it is usually used in automatic machine learning process. Reinforcement learning is a trial-and-error process, and the agent will change his actions by exploring the new environment. The most difficult to apply Reinforcement learning in digital games is that the method requires a long learning time. In this research, we use fuzzy theory to increase the learning efficiency. The results of this research experiment also prove the improvement of learning efficiency through using fuzzy reward to replace fixed reward. Different types of game need different settings of reward. In practice, the probability to apply reinforcement learning in digital games can be enhanced once the suitable reward mechanism has been found out. key word:digital games artificial intelligence for games reinforcement learning fuzzy theory III
論 文 目 錄 第 1 章 緒 論... 1 1.1 背 景... 1 1.2 動 機 與 目 的... 6 1.3 研 究 假 設... 7 1.4 研 究 流 程 與 論 文 架 構... 8 第 2 章 文 獻 探 討... 11 2.1 數 位 遊 戲... 11 2.2 遊 戲 人 工 智 慧... 13 2.3 增 強 式 學 習... 15 2.4 本 章 小 結... 19 第 3 章 模 糊 增 強 式 學 習... 20 3.1 傳 統 增 強 式 學 習 的 缺 點... 20 3.2 應 用 模 糊 理 論 於 增 強 式 學 習 之 中... 22 3.3 模 糊 增 強 式 學 習 之 運 算... 23 第 4 章 實 驗 設 計 與 實 驗 結 果... 25 4.1 實 驗 設 計... 25 4.2 實 驗 環 境 與 遊 戲 設 計... 27 4.4 前 導 實 驗... 28 4.5 實 驗 結 果... 38 4.6 遊 戲 呈 現 與 遊 戲 結 果... 40 4.7 如 何 實 際 應 用 模 糊 增 強 式 學 習... 45 4.8 本 章 小 結... 48 第 5 章 結 論... 49 5.1 摘 要... 49 5.2 結 論... 50 5.3 研 究 限 制 與 未 來 研 究... 52 IV
圖 目 錄 圖 一 全 球 遊 戲 市 場 產 值 圖...2 圖 二 增 強 式 學 習 示 意 圖...5 圖 三 坦 克 大 戰 遊 戲 畫 面 圖...6 圖 四 研 究 流 程 圖...9 圖 五 增 強 式 學 習 示 意 圖...15 圖 六 黑 與 白 遊 戲 畫 面...18 圖 七 實 驗 架 構 圖...25 圖 八 遊 戲 概 念 圖...27 圖 九 前 導 實 驗 圖...28 圖 十 增 強 式 學 習 失 敗 圖...31 圖 十 一 三 角 隸 屬 函 數 圖...32 圖 十 二 前 導 實 驗 結 果 圖...33 圖 十 三 高 斯 隸 屬 函 數 圖...35 圖 十 四 模 糊 隸 屬 函 數 圖 (s 不 同 )...36 圖 十 五 模 糊 隸 屬 函 數 圖 (m 不 同 )...37 圖 十 六 模 糊 函 數 實 驗 結 果 圖...38 圖 十 七 遊 戲 編 輯 器...40 圖 十 八 戰 網 示 意 圖...41 圖 十 九 遊 戲 畫 面 圖...42 圖 二 十 遊 戲 進 行 流 程 圖...43 圖 二 十 一 實 驗 環 境 改 變 坦 克 學 習 圖...50 V
表 目 錄 表 一 遊 戲 分 類 表...2 表 二 國 內 遊 戲 相 關 議 題 一 覽 表...11 表 三 遊 戲 人 工 智 慧 方 法 比 較...14 表 四 獎 懲 函 數...24 表 五 模 糊 獎 懲 函 數...24 表 六 坦 克 移 動 策 略 表...29 表 七 獎 懲 函 數...30 表 八 失 敗 的 獎 懲 函 數...30 表 九 危 險 變 數 例 子...32 表 十 模 糊 獎 懲 函 數...33 表 十 一 實 驗 結 果 數 據...34 表 十 二 成 功 次 數 表...34 表 十 三 實 驗 結 果 表...51 VI
1.1 背 景 第 1 章 緒 論 遊 戲 是 人 類 社 會 中 深 受 喜 愛 的 一 種 活 動, 自 古 以 來 人 類 一 直 將 遊 戲 視 為 一 項 重 要 娛 樂 項 目, 蔡 淑 苓 (2004) 在 遊 戲 理 論 與 應 用 : 以 幼 兒 遊 戲 與 幼 兒 教 師 教 學 為 例 一 書 中 提 到, 遊 戲 是 非 常 古 老 且 普 遍 的 人 類 活 動 行 為, 並 且 受 到 中 今 中 外 的 哲 學 家 與 教 育 學 家 所 重 視, 不 論 是 幼 兒 時 期 或 是 學 生 時 期, 遊 戲 都 扮 演 著 成 人 活 動 的 一 種 練 習 準 備, 在 遊 戲 中 學 習 成 長 讓 人 格 更 具 完 善 長 久 發 展 以 來, 遊 戲 不 再 是 只 有 幼 年 時 期 所 需 求, 有 更 多 各 種 不 同 的 類 型 的 遊 戲 來 滿 足 不 同 年 齡 層 的 需 求, 如 團 康 遊 戲 桌 上 型 紙 牌 遊 戲 數 位 遊 戲 等 等 總 而 言 之, 不 論 是 什 麼 類 型 的 遊 戲, 都 是 一 種 吸 引 人 且 重 要 的 人 類 行 為 表 現 遊 戲 吸 引 人 的 原 因 有 很 多, 其 中 有 學 者 認 為 是 因 為 遊 戲 可 以 達 到 放 鬆 與 休 閒 的 原 因 (Epstein,1999), 另 外 有 一 個 很 大 的 原 因 是 因 為 透 過 遊 戲 可 以 與 人 互 動 交 流 競 賽, 藉 由 遊 戲 的 過 程 與 同 好 交 流 溝 通, 達 到 舒 解 壓 力 與 取 得 娛 樂 感 由 遊 戲 的 本 質 來 看, 遊 戲 的 過 程 代 表 著 一 種 邏 輯 思 考 的 過 程, 通 常 可 以 將 遊 戲 求 勝 的 過 程 公 式 化 成 難 解 的 數 學 邏 輯 問 題, 因 此 如 果 解 開 遊 戲 中 的 各 種 問 題, 就 代 表 著 解 開 了 一 些 數 學 邏 輯 上 的 問 題, 也 因 此 越 來 越 多 的 許 多 學 者 在 研 究 遊 戲 相 關 的 議 題 近 年 來 由 於 科 技 的 蓬 勃 發 展, 數 位 遊 戲 (digital games) 也 成 為 人 類 生 活 中 一 個 很 重 要 的 娛 樂 項 目, 數 位 遊 戲 以 遊 戲 平 台 來 分 的 話, 大 致 可 以 分 成 電 視 遊 戲 (TV game) 電 腦 遊 戲 (PC game) 手 機 遊 戲 (Mobile game) 等 三 種, 若 以 遊 戲 型 態 來 分, 則 可 以 分 成 單 機 或 線 上 兩 種 遊 戲 型 態 目 前 而 言, 以 線 上 遊 戲 為 大 宗 根 據 資 策 會 資 訊 市 場 情 報 中 心 ( MIC ) 預 估 (2008), 台 灣 線 上 遊 戲 市 場 規 模 在 2008 年 將 超 過 新 台 幣 100 億 元, 且 每 年 仍 將 維 持 8 至 9% 的 成 長 率, 且 預 估 在 2010 年 時 規 模 將 可 達 到 120 億 元 左 右 就 全 球 市 場 而 言, 台 灣 經 濟 研 究 院 產 經 資 料 庫 研 究 (2008年 12 月 ) 指 出 ( 圖 一 ), 全 球 的 線 上 遊 戲 產 值 高 達 54.11 億 美 金, 並 逐 年 上 升 中, 又 以 中 國 地 區 成 長 最 大 行 政 院 (2009) 也 視 數 位 內 容 產 業 為 文 化 產 業 中 的 一 塊 重 要 拼 圖, 為 近 年 來 非 常 重 視 的 一 個 產 業 方 1
圖 一 全 球 遊 戲 市 場 產 值 圖 ( 資 料 來 源 : 台 灣 經 濟 研 究 院 產 經 資 料 庫, 2008年 12 月 ) 數 位 遊 戲 可 以 除 了 帶 來 許 多 感 官 的 刺 激, 也 讓 遊 戲 更 具 多 樣 性, 每 一 種 不 同 的 遊 戲 類 型 都 有 不 同 的 玩 家 所 喜 好, 遊 戲 公 司 為 了 迎 合 玩 家 的 胃 口, 同 時 也 創 造 出 許 多 不 同 的 數 位 遊 戲 類 型 若 要 以 遊 戲 內 容 來 做 分 類 的 話,Aha等 學 者 在 2005年 將 數 位 遊 戲 簡 單 的 分 類 為 冒 險 遊 戲 (adventure) 即 時 戰 略 遊 戲 (real-time strategy) 團 隊 運 動 遊 戲 (team sports) 等 七 種 類 型, 如 表 一 所 示 表 一 遊 戲 分 類 表 ( 資 料 來 源 :Aha,2005) 類 別 代 表 遊 戲 描 述 桌 上 型 西 洋 棋 象 棋 五 子 棋 等 棋 類 或 牌 類 通 常 為 n*n的 地 圖 冒 險 猴 島 小 英 雄 解 題 類 型 團 隊 運 動 足 球 遊 戲 籃 球 遊 戲 等 即 時 或 多 人 合 作 經 營 模 擬 城 市 城 市 或 團 隊 管 理 角 色 扮 演 太 空 侵 略 者 即 時 單 人 角 色 回 合 式 文 明 帝 國 回 合 基 礎 遊 戲 即 時 戰 略 魔 獸 爭 霸 即 時 經 營 2
數 位 遊 戲 吸 引 人 的 因 素 除 了 聲 光 效 果 之 外, 最 主 要 的 原 因 還 是 玩 家 可 以 在 遊 戲 互 動 中 得 到 娛 樂 的 效 果, 通 常 稱 這 些 在 遊 戲 中 與 玩 家 互 動 的 非 玩 家 角 色 為 NPCs(non-player characters), NPCs可 以 是 玩 家 的 敵 人 或 朋 友, 但 是 不 管 如 何, 要 是 這 些 NPCs 反 應 不 合 理, 或 是 單 調 無 趣, 玩 家 因 此 失 去 耐 心, 玩 過 一 兩 次 之 後 就 不 會 有 新 鮮 感, 甚 至 會 成 為 一 個 公 式 化 的 行 為, 也 就 會 讓 遊 戲 失 去 遊 戲 性, 如 早 期 任 天 堂 公 司 於 1985 年 發 行 的 著 名 的 遊 戲 瑪 俐 歐 ( 日 文 :マリオ; 英 文 : Mario; 或 中 文 譯 : 馬 力 歐 瑪 莉 瑪 俐 歐 等 等 ), 遊 戲 中 的 怪 物 (NPCs) 行 動 模 式 是 不 變 的, 當 玩 家 玩 過 多 次 以 後 就 會 知 道 要 如 何 閃 避 敵 人, 久 而 久 之 就 會 開 始 覺 得 厭 倦, 進 而 對 這 款 遊 戲 不 感 興 趣 許 多 研 究 因 此 就 會 想 為 這 些 NPCs 建 置 人 工 智 慧, 讓 NPCs具 備 自 行 思 考 的 能 力, 也 就 是 說 讓 NPCs會 根 據 玩 家 的 行 為 做 出 一 些 合 理 的 反 應, 當 玩 家 與 NPCs產 生 互 動 時, NPCs就 會 有 更 人 性 化 的 表 現, 增 加 遊 戲 的 樂 趣 與 耐 玩 性 早 期 的 遊 戲 人 工 智 慧 研 究 大 部 份 致 力 於 桌 上 型 遊 戲 (board game) 上, 例 如 研 發 可 以 與 玩 家 對 戰 的 西 洋 棋 或 象 棋 的 NPCs 等, 這 樣 的 人 工 智 慧 發 展 的 結 果 是 為 了 挑 戰 人 類, 如 IBM 的 深 藍 (Deep Blue), 可 以 打 敗 世 界 西 洋 棋 的 冠 軍, 因 此 追 求 的 是 可 以 和 玩 家 有 同 等 級 的 思 考 能 力, 追 求 的 是 一 種 且 完 美 不 會 失 敗 的 人 工 智 慧 (Ghory,2004) 但 在 目 前 數 位 遊 戲 中 的 人 工 智 慧 大 部 份 尋 求 的 並 非 永 遠 無 法 擊 敗 的 人 工 智 慧, 而 是 想 讓 NPCs 具 有 人 類 思 考 模 式 的 行 為 (Livingstone,2004), 因 此 玩 家 才 可 以 與 其 互 動, 從 中 得 到 樂 趣, 如 果 一 個 無 法 擊 敗 的 NPCs 反 而 會 讓 玩 家 失 去 信 心, 使 玩 家 覺 得 遊 戲 太 過 困 難 且 不 有 趣, 數 位 遊 戲 需 要 的 是 有 能 夠 適 應 環 境, 能 與 玩 家 之 互 動 的 人 工 智 慧, 因 此 本 研 究 想 要 建 置 在 NPCs 上 的 人 工 智 慧 是 一 種 可 以 依 據 目 前 狀 態 而 改 變 的 學 習 模 式, 玩 家 在 遊 戲 中 改 變 不 同 的 玩 法 時,NPCs 也 會 做 出 相 對 應 的 對 策 3
數 位 遊 戲 的 人 工 智 慧 都 在 早 期 都 是 以 規 則 基 礎 (rule-based) 的 方 式 來 建 置 (Bourg, 2004), 例 如 以 第 一 人 稱 射 擊 遊 戲 來 做 例 子, 當 玩 家 走 到 NPCs一 定 範 圍 時, NPCs 就 會 開 槍 反 擊, 像 這 樣 一 條 一 條 的 規 則 去 定 下 所 有 NPCs會 做 出 的 行 為, 因 此 要 寫 出 一 個 非 常 人 性 化 的 NPCs 人 工 智 慧, 可 能 需 要 上 萬 行 的 程 式 碼, 在 某 些 情 況 下, 玩 家 可 能 會 覺 得 NPCs 的 行 為 是 不 合 理 的 (Spronck 等 人,2006), 這 樣 的 人 工 智 慧 也 就 被 稱 為 弱 的 人 工 智 慧 (weak AI) 強 的 遊 戲 人 工 智 慧 (strong AI) 如 基 因 演 算 法 或 類 神 經 網 路 等 (Buckland,2005), 可 以 讓 NPCs做 出 更 多 合 理 化 的 行 為, 但 是 大 部 份 這 類 型 的 方 法 都 需 要 在 環 境 已 經 給 定 的 基 礎 之 下, 並 無 法 在 一 個 未 知 的 環 境 下 使 用, 但 是 遊 戲 的 環 境 卻 常 常 在 改 變, 對 NPCs 來 說, 玩 家 不 同 的 行 為 讓 遊 戲 環 境 變 得 不 可 預 測, 如 果 要 讓 NPCs 能 夠 隨 環 境 改 變 而 跟 著 做 出 反 應, 需 要 能 夠 在 未 知 環 境 下 運 行 的 演 算 法, 因 此 在 眾 多 的 人 工 智 慧 技 術 中, 增 強 式 學 習 可 說 是 最 適 合 NPCs 的 一 種 (Szita,2007) 增 強 式 學 習 (reinforcement learning) 為 一 種 非 監 督 式 學 習 (unsupervised learning), 所 謂 的 非 監 督 式 學 習 是 一 種 機 器 學 習 方 式, 非 監 督 式 學 習 法 則 的 特 色 是 在 訓 練 過 程 只 需 提 供 輸 入 資 料, 而 期 望 的 輸 出 理 想 值 卻 不 需 要 設 定, 代 理 人 會 自 去 學 習 調 整 (Sutton and Barto 1998) 增 強 式 學 習 通 常 用 在 未 知 的 環 境 之 下, 利 用 試 誤 (trial-and-error) 與 延 遲 獎 懲 (delay reward) 的 機 制, 不 斷 的 去 探 索 環 境 來 找 到 最 佳 解, 其 學 習 的 流 程 如 圖 二, 增 強 式 學 習 通 常 包 含 兩 個 角 色, 環 境 (environment) 代 表 需 要 解 決 問 題 的 所 有 外 在 因 子, 而 代 理 人 (agent) 則 負 責 與 環 境 互 動 學 習, 代 理 人 所 做 出 的 行 動 (action) 會 改 變 整 體 環 境 的 狀 態 (state), 在 不 同 的 狀 態 下 代 理 人 會 依 照 獎 懲 (reward) 去 做 出 應 對 的 行 動, 在 多 次 學 習 過 程 中 學 習 到 最 佳 策 略 的 方 法 (Sutton and Barto,1998) 4
圖 二 中 的 t 代 表 時 間,st 代 表 目 前 時 間 點 的 狀 態,st+1 代 表 下 一 時 間 點 的 狀 態, rt 代 表 目 前 時 間 點 的 獎 懲 值,rt+1 代 表 下 一 時 間 點 的 獎 懲 值, 本 示 意 圖 將 會 在 本 論 文 的 2.3 節 之 中 詳 細 介 紹 通 常 將 增 強 式 學 習 公 式 化 成 馬 可 決 策 過 程 (Markov decision process ) 問 題 增 強 式 學 習 的 精 神 為 如 同 人 類 小 時 候 試 誤 學 習 時 的 過 程, 利 用 過 去 的 經 驗 來 做 判 斷, 進 而 達 到 學 習 的 效 果 圖 二 增 強 式 學 習 示 意 圖 t: 時 間 當 遊 戲 中 NPCs加 入 增 強 式 學 習 的 人 工 智 慧 技 術 後, 就 可 藉 由 一 次 又 一 次 與 玩 家 互 動 經 驗 中, 瞭 解 玩 家 的 習 性, 藉 此 學 習 到 如 何 反 應 玩 家 的 行 為, 增 強 式 學 習 同 時 是 一 種 漸 進 式 的 學 習, 不 會 讓 遊 戲 初 始 的 難 度 太 高, 玩 家 也 不 會 感 到 太 大 壓 力, 進 而 提 高 遊 戲 的 吸 引 力 5
1.2 動 機 與 目 的 由 前 一 節 的 研 究 背 景 中 提 到, 數 位 遊 戲 中 NPCs 的 人 工 智 慧 是 遊 戲 非 常 重 要 的 一 環, 有 好 的 人 工 智 慧 技 術 就 可 以 讓 遊 戲 與 玩 家 更 具 互 動 性, 本 研 究 期 待 將 增 強 式 學 習 技 術 加 入 數 位 遊 戲 的 人 工 智 慧 中, 讓 NPCs 可 以 藉 由 經 驗 來 學 習, 並 做 出 應 對 的 行 動 NPCs的 行 動 路 線 在 遊 戲 中 是 一 個 很 重 要 的 因 素, 在 許 多 類 型 的 遊 戲 中, NPCs都 必 須 要 藉 由 移 動 路 徑 來 跟 玩 家 互 動, 如 : 戰 略 型 遊 戲, 不 論 是 回 合 制 或 是 即 時 制, NPCs 都 要 藉 由 接 近 或 遠 離 玩 家 來 達 成 他 的 目 標 ( 攻 擊 或 逃 跑 ); 第 一 人 稱 射 擊 遊 戲 中, NPCs 也 要 有 避 開 玩 家 攻 擊 與 利 用 阻 礙 物 的 能 力, 藉 由 不 同 的 路 線 移 動 來 達 到 他 的 目 標 ; 角 色 扮 演 類 型 遊 戲 的 NPCs 如 果 只 會 在 地 圖 上 隨 機 亂 走, 玩 家 也 會 因 此 感 到 無 趣 能 夠 讓 NPCs 有 聰 明 的 行 動 路 線, 對 於 遊 戲 來 說 是 一 個 非 常 重 要 因 素, 並 且 可 以 應 用 到 許 多 類 型 的 遊 戲 上 本 研 究 將 以 坦 克 類 型 遊 戲 來 做 實 驗, 坦 克 類 型 遊 戲 是 一 個 傳 統 的 射 擊 遊 戲 類 型, 最 早 為 發 表 於 1985 年 任 天 堂 主 機 上 的 遊 戲 ( 圖 三 ) 圖 三 坦 克 大 戰 遊 戲 畫 面 圖 ( 資 料 來 源 :http://zh.wikipedia.org/ 遊 戲 製 作 發 行 : 南 宮 夢, 1985) 在 遊 戲 中 玩 家 需 要 控 制 玩 家 坦 克 去 對 抗 電 腦 的 坦 克 (NPCs), 在 射 擊 類 型 遊 戲 中, 往 往 會 有 許 多 危 險 區 塊 或 路 線, 如 果 可 以 定 義 其 危 險 的 程 度, 當 連 續 多 次 走 到 特 定 的 危 險 區 塊 時 就 提 高 該 地 區 的 危 險 程 度, 讓 NPCs 快 速 的 理 解 到 該 地 區 是 非 常 危 險 的, 不 6
NPCs學 習 時 間, 讓 NPCs行 動 表 現 的 更 具 智 慧, 所 以 本 研 究 將 利 用 模 糊 函 數 來 表 示 危 險 程 度, 讓 NPCs 可 以 利 用 快 速 的 學 習 與 反 應, 同 時 利 用 模 糊 函 數 的 定 義, 也 可 以 控 制 NPCs 學 習 的 速 度, 讓 遊 戲 具 有 難 度 調 整 的 功 能, 讓 玩 家 依 自 己 程 度 來 調 整 或 挑 戰, 增 加 遊 戲 的 耐 玩 性 總 而 言 之, 本 研 究 的 動 機 希 望 能 夠 將 增 強 式 學 習 應 用 在 數 位 遊 戲 NPCs的 人 工 智 慧 中, 並 且 改 善 其 效 率, 具 體 而 言 本 研 究 的 目 的 為 : I. 應 用 增 強 式 學 習 技 術 於 數 位 遊 戲 的 NPCs之 中 本 研 究 將 利 用 遊 戲 編 輯 器 製 作 出 坦 克 對 戰 類 型 的 遊 戲 環 境, 並 在 遊 戲 中 加 入 增 強 式 學 習 機 制 的 NPCs, 並 探 討 其 成 效 II. 利 用 模 糊 理 論 提 昇 增 強 式 學 習 效 率 將 模 糊 邏 輯 理 論 應 用 在 改 善 增 強 式 學 習 的 效 率 上, 並 且 期 望 能 夠 利 用 模 糊 邏 輯 理 論 來 達 成 數 位 遊 戲 調 整 難 度 的 機 制 1.3 研 究 假 設 根 據 之 前 的 探 討, 本 研 究 提 出 以 下 幾 點 的 研 究 假 設 : I. 本 研 究 假 設 在 傳 統 數 位 遊 戲 中 加 入 增 強 式 學 習 技 術 可 以 讓 遊 戲 中 的 NPCs具 有 學 習 的 能 力, 會 依 據 玩 家 不 同 的 行 為 來 做 出 不 同 的 反 應, 並 可 適 應 遊 戲 環 境 的 改 變 進 行 調 整 II. 本 研 究 假 設 在 傳 統 的 增 強 式 學 習 技 術 中 加 入 模 糊 理 論 可 以 提 高 其 學 習 效 率 7
1.4 研 究 流 程 與 論 文 架 構 本 研 究 流 程 如 圖 四 本 論 文 想 要 將 增 強 式 學 習 應 用 在 遊 戲 之 中, 並 且 改 善 它 的 效 率, 因 此 研 究 的 流 程 為 : 1. 首 先 在 背 景 與 動 機 下 界 定 研 究 範 圍 2. 在 界 定 的 研 究 範 圍 中, 進 行 相 關 文 獻 的 蒐 集, 並 針 對 所 得 的 文 獻 的 探 討, 文 獻 共 分 成 遊 戲 遊 戲 人 工 智 慧 與 增 強 式 學 習 的 文 獻 三 部 份 3. 從 文 獻 探 討 中 確 定 本 研 究 目 標 4. 用 實 驗 來 印 證 研 究 假 設, 實 驗 共 分 成 兩 部 份 為 前 導 實 驗 與 遊 戲 實 驗, 實 驗 的 內 容 主 要 在 於 應 用 增 強 式 學 習 技 術 在 數 位 遊 戲, 以 及 應 用 模 糊 理 論 來 提 高 增 強 式 學 習 技 術 效 率 5. 透 過 結 果 與 討 論 來 修 改 實 驗 中 所 建 置 的 各 個 參 數, 反 覆 的 調 整 不 同 的 參 數 來 應 用 在 遊 戲 之 中, 並 找 出 最 適 合 本 研 究 的 數 值 6. 最 後 再 綜 合 所 有 實 驗 結 果 做 出 結 論, 並 探 討 本 研 究 的 實 際 應 用 在 數 位 遊 戲 上 的 可 行 性 與 策 略, 以 及 未 來 進 行 研 究 的 建 議 8
圖 四 研 究 流 程 圖 9
本 論 文 架 構 如 下, 第 一 章 緒 論 : 從 遊 戲 的 本 質 探 討 瞭 解 到 互 動 性 對 於 遊 戲 是 非 常 重 要 的, 而 人 工 智 慧 技 術 是 讓 數 位 遊 戲 增 強 互 動 性 的 一 個 方 法, 從 此 一 背 景 下 界 定 研 究 的 範 圍, 並 提 出 研 究 的 假 設, 確 定 研 究 流 程 第 二 章 文 獻 探 討 : 對 過 去 的 研 究 文 獻 做 統 整, 探 討 在 遊 戲 方 面 目 前 學 者 的 研 究 成 果, 以 及 目 前 與 遊 戲 相 關 的 人 工 智 慧 之 研 究, 與 增 強 式 學 習 方 面 的 研 究 成 果, 以 及 增 強 式 學 習 應 用 在 遊 戲 的 研 究 探 討 第 三 章 模 糊 增 強 式 學 習 : 對 於 模 糊 增 強 式 學 習 的 深 入 研 究, 包 括 傳 統 增 強 式 學 習 的 缺 點 與 解 決 方 法, 模 糊 理 論 如 何 應 用 在 增 強 式 學 習 之 中, 以 及 既 有 的 模 糊 理 論 應 用 探 討, 最 後 是 本 研 究 中 如 何 將 模 糊 理 論 實 際 應 用 第 四 章 實 驗 設 計 與 實 驗 結 果 : 為 本 研 究 實 驗 部 份, 內 容 包 括 了 整 體 遊 戲 的 設 計 概 念, 模 糊 增 強 式 學 習 如 何 應 用 在 本 論 文 的 遊 戲 之 中, 與 前 導 實 驗 所 做 出 的 參 數 值 設 定, 與 前 導 實 驗 結 果 的 探 討, 以 及 本 研 究 所 做 出 的 遊 戲 實 際 情 形, 與 應 用 增 強 式 學 習 技 術 在 此 遊 戲 的 結 果 及 討 論 第 五 章 結 論 : 結 論 與 未 來 研 究, 討 論 本 研 究 實 驗 所 呈 現 的 結 果, 並 探 討 如 何 應 用 本 研 究 之 結 果 到 實 際 的 數 位 遊 戲 之 中, 最 後 提 出 未 來 可 進 行 之 研 究 10
第 2 章 文 獻 探 討 本 章 將 討 論 數 位 遊 戲 遊 戲 人 工 智 慧 與 增 強 式 學 習 技 術 的 文 獻, 目 前 與 數 位 遊 戲 有 關 的 研 究 中, 大 多 數 文 獻 主 要 在 研 究 數 位 教 學 與 遊 戲 中 玩 家 行 為, 但 也 有 少 部 份 的 研 究 在 探 討 遊 戲 中 的 人 工 智 慧, 在 遊 戲 的 人 工 智 慧 方 面, 也 有 不 少 研 究 在 於 如 何 應 用 增 強 式 學 習 技 術 於 數 位 遊 戲 的 人 工 智 慧 中, 以 下 各 節 將 依 序 詳 細 討 論 2.1 數 位 遊 戲 簡 國 斌 (2010) 在 其 碩 士 論 文 中 整 理 了 國 內 碩 士 論 文 對 於 數 位 遊 戲 相 關 的 研 究 結 果 ( 表 二 ) 表 二 國 內 遊 戲 相 關 議 題 一 覽 表 ( 資 料 來 源 : 簡 國 斌 碩 士 論 文,2010) 學 年 研 究 生 學 校 系 所 論 文 名 稱 研 究 方 法 90 陳 慶 峰 南 華 大 學 資 訊 管 理 所 碩 士 論 文 從 心 流 (flow) 理 論 探 討 線 上 遊 戲 個 案 訪 談 法 文 獻 分 析 參 與 者 之 網 路 使 用 行 為 法 問 卷 調 查 法 91 林 青 嵐 靜 宜 大 學 資 訊 管 理 所 碩 士 論 文 玩 家 對 多 人 線 上 角 色 扮 演 遊 戲 產 文 獻 分 析 法 問 卷 調 查 法 品 屬 性 偏 好 之 研 究 91 張 武 成 淡 江 大 學 資 訊 管 理 所 碩 士 論 文 線 上 遊 戲 軟 體 設 計 因 素 與 使 用 者 文 獻 分 析 法 問 卷 調 查 法 滿 意 度 相 關 聯 之 研 究 93 楊 斐 羽 元 智 大 學 資 訊 傳 播 所 碩 士 論 文 將 傳 統 遊 戲 的 玩 性 因 素 導 入 電 子 焦 點 團 體 訪 談 專 家 訪 談 遊 戲 設 計 之 研 究 法 95 李 豐 良 國 立 交 通 大 學 工 業 工 程 與 管 理 所 動 作 型 電 腦 遊 戲 設 計 因 素 探 討 問 卷 調 查 法 類 神 經 網 博 士 論 文 路 基 因 演 算 法 95 李 炯 龍 國 立 臺 北 教 育 大 學 玩 家 與 遊 戲 設 集 換 式 牌 類 遊 戲 之 遊 藝 功 能 要 素 文 獻 分 析 法 專 家 訪 談 計 所 碩 士 論 文 分 析 以 魔 法 風 雲 會 為 例 96 曾 世 绮 佛 光 大 學 資 訊 教 育 所 碩 士 論 文 驗 證 遊 戲 吸 引 人 之 要 素 : 內 容 分 內 容 分 析 參 與 觀 察 法 析 魔 獸 世 界 96 蘇 榮 章 國 立 政 治 大 學 資 訊 管 理 所 碩 士 論 數 位 教 育 遊 戲 設 計 與 評 估 指 標 之 文 獻 分 析 法 問 卷 調 查 法 文 研 究 97 鄭 羽 汎 開 南 大 學 資 訊 管 理 所 碩 士 論 文 線 上 遊 戲 設 計 : 個 案 探 討 與 內 容 個 案 研 究 內 容 分 析 分 析 97 陳 亭 光 國 立 臺 灣 大 學 資 訊 管 理 所 碩 士 論 基 於 使 用 者 經 驗 之 多 準 則 評 分 遊 文 獻 分 析 法 多 穩 額 評 文 戲 推 薦 系 統 分 協 同 過 濾 97 蔣 昱 雯 國 立 臺 北 教 育 大 學 傳 播 與 科 技 所 數 位 遊 戲 學 習 教 材 評 鑑 指 標 之 研 文 獻 分 析 法 德 懷 術 碩 士 論 文 究 11
從 表 中 可 以 看 出, 以 往 與 遊 戲 相 關 的 研 究 大 部 份 著 重 在 於 遊 戲 的 本 質 與 數 位 教 學 為 主, 且 目 標 大 部 份 探 討 的 是 以 幼 兒 為 主, 如 遊 戲 理 論 與 應 用 : 以 幼 兒 遊 戲 與 幼 兒 教 師 教 學 為 例 ( 蔡 淑 苓,2004) 幼 兒 遊 戲 - 以 0~8 歲 幼 兒 園 實 務 為 導 向 (James E. Johnson, 2005) 幼 兒 教 育 ( 朱 敬 先,2005) 等 書, 皆 是 由 幼 兒 時 期 的 遊 戲 行 為 來 探 討 遊 戲 對 於 正 常 人 成 長 過 程 的 影 響 在 朱 敬 先 幼 兒 教 育 一 書 中 提 到, 遊 戲 理 論 又 可 以 分 成 精 力 過 剩 論 鬆 弛 論 本 能 實 踐 論 復 演 論 生 活 實 踐 論 自 我 表 現 論 學 習 論 心 理 分 析 論 等 八 種 論 點, 但 不 管 那 一 種 論 點 都 是 支 持 遊 戲 對 於 人 成 長 是 有 正 向 的 影 響, 因 此 也 就 會 有 研 究 探 討 怎 樣 的 遊 戲 會 吸 引 人 去 玩, 在 遊 戲 理 論 與 應 用 : 以 幼 兒 遊 戲 與 幼 兒 教 師 教 學 為 例 ( 蔡 淑 苓,2004) 一 書 中 提 到, 遊 戲 可 以 吸 引 人 的 原 因 不 外 乎 遊 戲 是 一 個 社 交 行 為 的 縮 影, 在 遊 戲 中 可 以 與 人 交 流 互 動, 並 從 遊 戲 中 學 習 到 如 何 應 對 近 年 來 電 腦 技 術 的 成 長 快 速, 也 帶 動 了 數 位 遊 戲 的 發 展 ( 詳 細 介 紹 請 見 第 一 章 ), 數 位 遊 戲 吸 引 人 的 地 方 不 只 是 其 聲 光 效 果 佳, 同 時 也 未 脫 離 遊 戲 的 本 質, 因 此 遊 戲 的 互 動 仍 然 是 很 重 要 的 一 個 因 素, 除 了 玩 家 與 玩 家 的 互 動 外, 玩 家 在 數 位 遊 戲 中 也 會 與 許 多 非 玩 家 角 色 NPCs 互 動, 這 些 NPCs 的 行 為 模 式 也 就 顯 的 格 外 重 要, 例 如 角 色 扮 演 遊 戲 中, 劇 情 的 發 展 就 是 一 個 非 常 重 要 的 因 素, 如 果 可 以 藉 由 玩 家 與 遊 戲 中 的 NPCs 互 動 情 形 來 決 定 不 同 的 遊 戲 內 容, 就 可 以 大 幅 的 提 高 遊 戲 的 吸 引 力, 在 這 方 面,Barber 和 Kudenko(2001) 就 做 過 自 動 劇 情 產 生 器, 在 這 篇 研 究 中, 他 們 成 功 的 創 造 一 個 自 動 劇 情 產 生 器, 讓 遊 戲 會 依 照 玩 家 不 同 的 行 為 產 生 不 同 的 劇 情, 就 可 以 讓 每 個 人 遊 戲 的 過 程 不 一 樣, 藉 此 讓 遊 戲 可 以 有 無 限 多 的 內 容, 增 強 遊 戲 的 耐 玩 性 除 了 遊 戲 內 容 之 外,NPCs 的 行 為 表 現 也 是 一 個 重 要 的 因 素, 如 果 NPCs 表 現 不 合 常 理 或 是 非 常 單 調, 就 會 大 幅 降 低 遊 戲 的 吸 引 力, 在 遊 戲 中 加 入 簡 單 的 在 因 此 就 需 要 遊 戲 的 人 工 智 慧 讓 NPCs 更 具 人 性 化 的 行 為 表 現 12
2.2 遊 戲 人 工 智 慧 在 過 去 遊 戲 人 工 智 慧 的 相 關 研 究 中, 以 研 究 桌 上 型 遊 戲 (board game) 與 猜 謎 (puzzle) 為 最 多, 桌 上 型 遊 戲 如 西 洋 棋 象 棋 圈 圈 叉 叉 等, 這 類 型 的 遊 戲 通 常 不 可 能 全 用 暴 力 法 將 所 有 狀 態 空 間 計 算 出 來, 當 找 出 較 好 的 演 算 法 代 表 著 解 決 一 個 難 解 的 數 學 問 題, 也 因 此 有 許 多 的 學 者 在 研 究 (Epstein,1999) 而 Ghory(2004) 試 圖 對 增 強 式 學 習 應 用 在 桌 上 型 遊 戲 做 一 個 公 式 化 的 研 究, 其 結 果 讓 許 多 研 究 應 用 在 各 種 不 同 的 桌 上 型 遊 戲 上 在 數 位 遊 戲 上 通 常 是 用 規 則 基 礎 (rule-based) 的 方 式 去 寫 入 NPCs的 人 工 智 慧, 但 如 此 一 來 則 需 要 大 量 的 程 式 碼 來 完 成 許 多 複 雜 的 行 為, 且 會 有 許 多 不 合 理 的 行 為 發 生, 因 此 也 有 許 多 學 者 在 這 方 面 在 研 究,Aha (2003) 利 用 案 例 基 礎 (case-based) 方 式, 對 戰 略 類 型 遊 戲 魔 獸 爭 霸 二 做 一 個 更 佳 的 NPCs人 工 智 慧, 他 認 為 在 這 款 遊 戲 中 的 建 築 順 序 關 鍵, 因 此 將 所 有 可 能 的 建 築 順 序 排 成 一 個 階 層 結 構, 因 此 可 以 整 理 出 許 多 建 築 序 列, 不 同 的 序 列 就 可 以 當 成 不 同 的 案 例, 因 此 根 據 案 例 就 可 以 寫 出 許 多 條 規 則, 最 後 就 讓 NPCs 依 照 案 例 規 則 來 建 築, 擊 敗 玩 家, 雖 然 此 一 方 法 效 果 卓 越, 但 是 卻 被 玩 家 的 一 些 特 例 所 擊 敗, 比 如 說 玩 家 一 開 始 不 蓋 任 何 建 築, 直 接 農 民 快 攻 等 等 不 合 常 理 的 玩 法 因 此, 在 同 一 款 遊 戲 之 下, Ponson(2004) 等 人 則 是 用 基 因 演 算 法 去 改 善 Aha研 究 的 缺 失 之 處, 就 可 以 有 效 的 解 決 這 些 特 例 情 形, 並 且 提 高 成 攻 率, 讓 NPCs 更 具 挑 戰 另 外 Jin(2008) 等 人 則 是 用 類 神 經 網 路 的 方 法 去 加 強 運 動 類 型 遊 戲 NPCs的 人 工 智 慧, 讓 複 雜 的 遊 戲 人 工 智 慧 簡 化 成 幾 個 不 同 的 行 為 模 式, 這 些 研 究 的 其 優 缺 點 如 表 三 這 些 方 法 的 共 通 缺 點 為 必 須 在 已 知 的 環 境 之 下, 事 先 設 定 好 許 多 環 境 的 因 素 才 能 執 行, 而 如 果 環 境 即 時 改 變, 如 果 玩 家 的 行 動 改 變 了 環 境 狀 態, 就 會 有 較 遭 的 結 果 產 生, 增 強 式 學 習 可 以 讓 代 理 人 (agent) 在 未 知 的 環 境 下 學 習, 但 目 前 用 在 數 位 遊 戲 中 的 研 究 並 不 多,McPartland(2008) 將 增 強 式 學 習 利 用 在 第 三 人 稱 的 射 擊 遊 戲 之 中, 讓 NPCs可 以 學 習 到 最 佳 的 行 動 路 線, 以 及 攻 擊 玩 家 的 時 機 與 地 點 另 外, Wender(2008) 等 人 則 是 將 增 強 式 學 習 利 用 在 策 略 遊 戲 之 中, 讓 NPCs選 擇 啟 始 點 時 適 應 不 同 的 環 境 與 玩 家 的 行 動, 讓 NPCs的 行 為 更 聰 明 而 Björnsson(2004) 等 人 則 是 將 增 強 式 學 習 應 用 在 養 成 策 略 遊 戲 之 中, 且 讓 玩 家 可 以 直 接 對 NPCs 做 一 些 簡 單 的 控 制, 縮 短 學 習 的 時 間 13
表 三 遊 戲 人 工 智 慧 方 法 比 較 ( 資 料 來 源 : 本 研 究 整 理 ) 方 法 文 獻 優 點 缺 點 Case-Based Learning to Win: 利 用 不 同 的 案 例 來 環 境 需 要 控 制 Case-Based Plan Selection in a Real-Time Strategy 控 制 NPCs 的 行 動 選 擇, 方 法 簡 單 且 實 用 無 法 解 決 特 定 情 況 Game Genetic Improving Adaptive 可 調 適 性, 因 此 可 以 基 因 演 算 法 不 保 Algorithm Game AI with Evolutionary Learning 提 高 NPCs 勝 率 且 解 決 特 定 情 形 證 最 適 化, 每 次 演 化 後 的 結 果 不 一 定 是 最 佳 的 結 果 Neural Evolving Game 將 複 雜 的 運 動 類 型 雖 然 有 一 定 的 成 Network NPCs Based on Concurrent Evolutionary Neural Networks 遊 戲 簡 化, 使 目 標 明 確 而 可 以 應 用 類 神 經 網 路 解 決 問 題 果, 但 在 結 果 部 份 並 非 有 原 本 期 望 的 好 結 果 14
2.3 增 強 式 學 習 增 強 式 學 習 是 種 與 環 境 互 動 中, 不 斷 的 嘗 試 不 同 的 行 動, 找 尋 最 佳 策 略 的 一 種 學 習 方 法 增 強 式 學 習 通 常 包 含 兩 個 角 色, 環 境 (environment) 代 表 需 要 解 決 問 題 的 所 有 外 在 因 子, 而 代 理 人 (agent) 則 負 責 與 環 境 互 動 學 習, 代 理 人 所 做 出 的 行 動 (action) 會 改 變 整 體 環 境 的 狀 態 (state), 在 不 同 的 狀 態 下 代 理 人 會 依 照 獎 懲 (reward) 去 做 出 應 對 的 行 動, 在 多 次 學 習 過 程 中 學 習 到 最 佳 策 略 的 方 法, 其 流 程 就 如 之 前 所 看 過 的 圖 五,t 代 表 時 間, 當 代 理 人 感 知 到 環 境 ( 目 前 狀 態 ) 時, 選 擇 不 同 的 動 作, 動 作 又 會 改 變 環 境, 並 得 到 獎 懲, 進 入 到 下 一 個 時 間 點, 代 理 人 感 知 到 下 一 時 間 點 狀 態, 並 且 選 擇 動 作 得 到 下 一 時 間 點 的 獎 懲 圖 五 增 強 式 學 習 示 意 圖 增 強 式 學 習 其 實 就 是 模 擬 生 物 在 學 習 事 物 的 情 形, 比 如 說 小 孩 子 剛 開 始 學 騎 腳 踏 車, 一 開 始 會 不 知 道 怎 樣 驅 動, 也 不 知 道 傾 斜 多 少 度 會 跌 倒, 但 是 每 次 失 敗 跌 倒 後, 自 然 後 吸 取 教 訓, 再 反 覆 的 練 習, 跌 倒 了 許 多 次 之 後, 就 知 道 該 如 何 平 衡, 也 知 道 如 何 轉 彎 而 不 會 跌 倒, 藉 由 過 去 的 經 驗 不 斷 的 強 化 自 身 的 能 力, 就 是 增 強 式 學 習 技 術 的 主 要 精 神 15
增 強 式 學 習 通 常 可 以 公 式 化 為 馬 可 決 策 過 程, 增 強 式 學 習 又 可 以 分 成 主 動 式 (active) 增 強 式 學 習 與 被 動 式 (passive) 增 強 式 學 習, 其 主 要 的 差 別 在 於, 被 動 式 增 強 式 學 習 的 代 理 人 用 固 定 的 策 略 (fixed policy) 去 學 習 其 效 用 值 (utility value), 效 用 值 所 代 表 的 意 義 為 在 該 狀 態 下 達 到 目 標 與 其 他 狀 態 的 相 對 比 較 值, 通 常 值 越 大 代 表 此 一 狀 態 離 目 標 越 接 近, 選 擇 到 此 一 狀 態 的 機 率 也 越 大 主 動 式 學 習 則 是 需 要 不 停 的 探 索 環 境 去 找 到 其 策 略 (Melenchuk,2000) 被 動 式 學 習 的 方 法 通 常 分 成 三 種, LMS(least mean squares) ADP(adaptive dynamic programming) 與 TD(temporal difference learning) 三 種, 這 三 種 方 法 中 最 佳 的 是 TD方 法 (Russell and Norvig,2003) LMS方 法 為 隨 機 選 取 行 動, 再 計 算 到 達 目 標 的 所 有 獎 懲 值, 然 後 再 算 出 其 各 個 狀 態 下 達 到 目 標 的 效 用 值 平 均 數, 其 缺 點 為 需 要 非 常 久 的 計 算 時 間 (Russell and Norvig,2003) ; ADP方 法 則 是 在 給 定 特 定 估 計 模 式 之 下, 每 次 行 動 後 重 覆 的 計 算 每 一 個 狀 態 的 效 用 值, 但 在 狀 態 空 間 大 的 情 形 下 會 難 以 計 算 (Russell and Norvig,2003) ; TD 方 法 結 合 了 蒙 地 卡 羅 方 法 (Monte Carlo ) 與 動 態 規 劃 方 法 (dynamic programming) 的 概 念, 其 公 式 如 公 式 一 : V(s) V(s ) + α(r(s)+ γv(s') - V(s) ) (1) V(s) 代 表 效 用 值, α是 學 習 函 數, γ是 獎 賞 折 扣 值,s 代 表 狀 態,R(s) 為 在 此 狀 態 的 獎 懲 值, 其 主 要 概 念 為 藉 由 過 去 的 經 驗 去 調 整 預 期 可 以 到 達 目 標 的 效 用 值 (Russell and Norvig,2003) 16
主 動 式 增 強 式 學 習 最 有 名 的 演 算 法 為 Q-Learning與 SARSA algorithm兩 種, 兩 種 演 算 法 皆 是 建 立 在 TD 方 法 基 礎 之 上 的 演 算 法, 藉 由 試 誤 與 延 遲 獎 懲 來 不 斷 的 重 複 計 算 Q-value(state-action value), Q-value 是 在 某 一 狀 態 與 行 動 對 (State -Action pairs) 到 達 目 標 之 相 對 比 較 值,Q-value 越 大 代 表 選 擇 此 一 狀 態 與 行 動 對 於 達 到 目 標 的 機 會 越 大, 因 此 以 Q-value 大 小 來 決 定 各 個 狀 態 與 行 動 的 機 率 值, 讓 代 理 人 可 以 藉 由 過 往 經 驗 選 擇 目 前 環 境 下 最 佳 的 行 動 Q-Learning 是 由 Watkins 在 1989 年 提 出, 是 一 種 無 策 略 演 算 法 (off-policy) 的 演 算 法, 而 其 公 式 如 公 式 二 (Sutton and Barto,1998) : Q(s, a) Q(s,a ) + α(r(s) + γmaxq(s',a' ) - Q(s,a) ) (2) SARSA是 State-Action-Reward-State-Action的 縮 寫, 在 1994年 的 Rummery提 出, 是 一 種 有 策 略 性 (on-policy) 的 演 算 法, 其 公 式 如 公 式 三 : Q(s, a) Q(s,a ) + α(r(s) + γq(s',a' ) - Q(s,a) ) (3) s代 表 現 在 環 境 狀 態, a代 表 代 理 人 的 行 動, s 是 下 一 時 間 點 的 狀 態, a 是 下 一 時 間 點 的 動 作, 因 此 Q(a,s) 代 表 在 狀 態 s下 進 行 行 動 a的 期 望 價 值, R(s) 是 在 狀 態 s下 的 實 際 價 值,maxQ(a,s ) 代 表 著 在 所 有 下 一 時 間 點 預 期 的 Q-value最 大 值, α是 學 習 函 數, 用 於 控 制 學 習 收 斂 速 度, 一 般 會 將 此 值 預 設 為 1, γ是 獎 懲 的 折 扣 值, 通 常 是 一 個 小 於 1的 常 數 而 Q-Learning與 SARSA最 大 的 差 別 在 於 SARSA是 在 某 些 特 定 的 策 略 下 執 行, 而 Q-Learning 則 是 完 全 沒 有 任 何 策 略 的 運 用, 因 此 必 需 要 計 算 下 一 次 行 動 中 最 大 的 Q-value(Sutton and Barto,1998) 17
增 強 式 學 習 的 學 習 方 式 是 去 找 到 每 個 狀 態 的 最 佳 行 動, 因 此 需 要 多 方 嘗 試, 但 是 如 果 隨 機 去 嘗 試, 就 等 同 於 不 去 選 擇 已 知 的 最 佳 行 動, 這 樣 隨 機 的 行 為 就 與 基 本 精 神 相 違 背, 因 此 解 決 問 題 與 探 索 新 知 (exploitation and exploration) 就 成 為 增 強 式 學 習 的 兩 難 問 題, 通 常 會 運 用 ε-greedy演 算 法 來 解 決, ε-greedy也 是 greedy演 算 法 的 一 種, 只 是 在 其 過 程 中 會 有 一 定 機 率 利 用 隨 機 的 方 式 去 探 索, 這 樣 不 但 可 以 符 合 找 最 佳 行 動 的 基 本 精 神, 也 會 試 圖 的 去 探 索 是 否 有 更 佳 的 行 動 (Bianchi, 2007) 例 如, 設 定 另 一 參 數 p=0.5, 而 代 理 人 在 每 一 次 決 定 行 動 時, 會 隨 機 決 定 一 個 0~1 的 變 數 q, 當 q>p=0.5 時, 就 選 擇 隨 機 探 索 產 生 行 動, 反 之, 當 q p=0.5 時 就 從 之 前 經 驗 算 出 最 佳 的 行 動 增 強 式 學 習 已 經 有 許 多 應 用 與 研 究, 比 較 常 看 到 應 用 在 機 械 的 學 習 與 控 制, 也 有 一 些 研 究 是 應 用 在 遊 戲 之 中, 目 前 應 用 增 強 式 學 習 最 有 名 的 遊 戲 為 善 與 惡 (Black & White) 這 款 遊 戲, 善 與 惡 是 由 Lionhead Studios在 2001年 所 研 發 製 作, 是 一 款 經 營 類 型 的 遊 戲, 在 善 與 惡 這 款 遊 戲 中 玩 家 伴 演 造 物 者 的 角 色, 而 玩 家 可 以 控 制 一 名 神 祇 生 物, 此 生 物 會 跟 著 玩 家 所 做 出 的 不 同 決 定, 而 改 變 其 行 為 跟 長 相, 這 樣 的 一 個 機 制 受 到 玩 家 的 好 評, 也 因 此 這 一 款 遊 戲 在 2005 年 推 出 續 作 善 與 惡 二 代, 圖 六 為 該 遊 戲 二 代 之 畫 面 圖 六 黑 與 白 遊 戲 畫 面 ( 資 料 來 源 : http://lionhead.com/jobs.aspx) 18
2.4 本 章 小 結 由 以 上 三 節 得 知, 數 位 遊 戲 最 吸 引 人 的 地 方 不 單 單 只 是 其 聲 光 效 果, 如 果 可 以 增 加 遊 戲 與 玩 家 的 互 動 性, 就 可 以 讓 遊 戲 更 具 可 玩 性 在 遊 戲 人 工 智 慧 的 發 展 中, 大 部 份 的 遊 戲 都 已 經 具 備 基 本 的 人 工 智 慧, 如 路 徑 搜 尋 或 是 碰 撞 偵 測 等, 或 是 用 條 件 規 則 基 礎 來 為 遊 戲 的 NPCs 加 入 人 工 智 慧, 但 是 這 樣 的 遊 戲 並 不 能 滿 足 目 前 玩 家 的 需 求, 如 果 可 以 用 強 的 人 工 智 慧 讓 NPCs 行 對 更 人 性 化, 就 能 讓 遊 戲 更 吸 引 玩 家 強 的 人 工 智 慧 如 基 因 演 算 法 及 類 神 經 網 路 等, 有 許 多 的 研 究 已 經 有 效 的 將 此 類 方 法 應 用 在 數 位 遊 戲 之 中, 可 是 在 市 面 的 遊 戲 中 仍 不 常 見, 最 主 要 的 問 題 如 之 前 幾 節 所 論, 數 位 遊 戲 中 的 環 境 變 化 太 大, 因 為 玩 家 特 性 而 存 在 著 許 多 需 要 考 慮 的 因 素, 如 果 沒 辦 法 有 效 的 解 決 環 境 的 因 素, 建 置 強 的 人 工 智 慧 所 需 要 的 成 本 太 大, 反 而 不 實 用 但 是 由 文 獻 中 可 以 發 現, 數 位 遊 戲 的 NPCs需 要 的 人 工 智 慧, 並 非 是 無 懈 可 擊 的 人 工 智 慧, 一 個 不 犯 錯 的 NPC 只 會 降 低 玩 家 的 信 心, 而 不 能 為 遊 戲 加 值, 因 此 數 位 遊 戲 # 不 需 要 一 個 完 美 的 人 工 智 慧, 而 是 要 能 夠 學 習 互 動 的 人 工 智 慧, 並 且 是 可 以 因 應 遊 戲 環 境 的 需 求 來 做 調 整 學 習 的 人 工 智 慧, 增 強 式 學 習 正 好 具 備 以 上 的 特 性, 也 因 此 本 研 究 將 以 增 強 式 學 習 做 為 研 究 的 重 點 文 獻 中 也 可 以 看 出, 雖 然 增 強 式 學 習 在 許 多 領 域 已 經 被 廣 為 應 用, 但 是 在 數 位 遊 戲 之 中 仍 然 還 未 有 許 多 研 究, 其 最 主 要 的 問 題 就 是 因 為 傳 統 的 增 強 式 學 習 通 常 需 要 很 長 的 一 段 時 間 來 學 習, 這 樣 並 不 能 符 合 數 位 遊 戲 的 需 求, 因 此 本 研 究 將 設 法 改 進 此 一 缺 點, 下 一 章 將 探 討 本 研 究 如 何 解 決 這 問 題 以 及 如 何 應 用 在 遊 戲 之 中 19
第 3 章 模 糊 增 強 式 學 習 傳 統 增 強 式 學 習 已 經 在 各 個 領 域 廣 為 研 究, 但 其 效 率 不 好 的 缺 點 也 讓 增 強 式 學 習 技 術 常 常 無 法 被 實 際 應 用, 因 此 有 許 多 學 者 在 研 究 用 各 種 不 同 的 方 法 去 縮 短 增 強 式 學 習 的 學 習 時 間, 本 研 究 則 是 應 用 模 擬 理 論 來 提 高 傳 統 增 強 式 學 習 的 效 率, 以 下 各 節 將 會 詳 細 介 紹 傳 統 增 強 式 學 習 的 缺 點, 以 及 本 研 究 如 何 將 模 糊 理 論 運 用 在 增 強 式 學 習 技 術 之 中, 並 提 高 其 效 率 3.1 傳 統 增 強 式 學 習 的 缺 點 增 強 式 學 習 的 特 色 為 不 斷 的 試 誤 過 程 去 找 到 最 佳 解, 但 其 付 出 的 代 價 就 是 需 要 很 長 的 一 段 時 間 讓 代 理 人 去 學 習 (Epstein,2009), 有 許 多 學 者 研 究 如 何 去 縮 短 傳 統 增 強 式 學 習 的 學 習 時 間, 像 是 將 階 層 式 增 強 式 學 習, 將 所 有 狀 態 空 間 表 示 成 一 個 階 層 式 的 狀 態 空 間, 所 以 代 理 人 就 不 必 去 計 算 下 一 時 間 點 狀 態 所 對 應 的 所 有 Q-value 值, 先 從 下 一 階 層 中 的 狀 態 空 間 去 運 算, 藉 此 降 低 其 運 算 時 間, 讓 增 強 式 學 習 更 具 有 效 率 Ponsen(2006) 嘗 試 等 人 將 此 應 用 在 數 位 遊 戲 之 中, 將 代 理 人 的 移 動 先 分 成 達 到 目 標 或 遇 到 敵 人 此 一 階 層, 再 決 定 代 理 人 會 選 擇 移 動 的 方 位, 這 樣 的 方 法 有 效 的 提 高 學 習 的 效 率 也 有 研 究 利 用 模 糊 理 論 來 提 高 增 強 式 學 習 的 學 習 效 率 模 糊 理 論 是 利 用 數 學 模 式 去 解 決 人 類 語 言 學 中 語 義 不 清 的 問 題, 最 初 是 由 Lotfi Zadeh在 1965年 所 提 出, 例 如 溫 度 問 題, 當 有 人 表 示 天 氣 太 冷, 但 實 際 上 的 溫 度 度 數 卻 沒 有 明 確 的 表 達, 不 同 人 對 於 冷 熱 有 不 一 樣 的 概 念, 而 這 些 表 達 不 清 的 模 糊 區 域 就 無 法 以 傳 統 的 二 元 分 法 來 做 判 斷, 因 此 為 了 解 決 這 些 模 糊 的 灰 色 地 帶 問 題, 就 需 要 用 到 模 糊 集 合 理 論 (fuzzy set theory) 來 解 決 模 糊 集 合 理 論 捨 棄 原 本 二 元 的 分 法, 而 以 從 屬 度 (membership degree) 來 做 判 斷, 例 如 剛 剛 的 溫 度 問 題, 將 溫 度 表 達 成 冷 暖 等 等 區 間,10 在 冷 區 的 從 屬 度 為 0.9, 而 在 熱 區 的 從 屬 度 為 0.1 這 樣 的 方 式 來 對 溫 度 做 區 閣, 數 字 越 高 代 表 越 符 合 這 個 區 域 的 特 性, 而 這 些 數 值 則 形 成 所 謂 的 模 糊 從 屬 函 數 (fuzzy membership function ), 模 糊 理 論 常 常 應 20
Seo(2000) 等 人 做 過 將 模 糊 邏 輯 應 用 在 增 強 式 學 習 上 的 研 究, 在 該 研 究 中 是 將 狀 態 轉 換 成 模 糊 狀 態, 因 此 可 以 將 所 有 狀 態 分 成 許 多 狀 態 區 塊, 也 就 能 提 高 傳 統 增 強 式 學 習 的 學 習 效 率 這 些 研 究 都 有 效 改 善 增 強 式 學 習 效 率 不 佳 的 問 題, 但 是 其 學 習 過 程 卻 是 有 所 限 制, 因 為 在 增 強 式 學 習 的 過 程 中, 最 重 要 的 是 獎 懲 機 制 的 設 定, 就 算 有 效 的 降 低 狀 態 空 間 的 運 算, 沒 有 一 個 適 當 的 獎 懲 機 制 設 定, 傳 統 增 強 式 學 習 也 有 可 能 會 無 法 學 到 最 佳 策 略, 甚 至 是 一 個 發 散 的 結 果, 也 就 是 根 本 就 找 不 到 所 謂 的 最 佳 策 略, 因 此 增 強 式 學 習 在 獎 懲 的 設 定 通 常 會 需 要 依 照 不 同 的 需 求 來 制 定, 這 樣 的 限 制 也 限 制 的 增 強 式 學 習 研 究 的 一 般 化, 同 樣 的 結 果 在 另 外 的 研 究 中 因 為 獎 懲 的 問 題 可 能 就 不 適 用, 但 是 如 果 改 善 獎 懲 的 設 定, 或 許 可 以 造 成 不 同 的 學 習 效 果, 因 此 本 論 文 著 眼 於 獎 懲 機 制 上 的 改 變, 嘗 試 利 用 模 糊 邏 輯 理 論 於 獎 懲 機 制 之 中, 讓 原 本 固 定 的 獎 懲 變 成 模 糊 化 的 獎 懲, 不 再 是 固 定 的 獎 懲 數 值, 不 但 讓 學 習 速 度 更 快, 也 讓 學 習 更 加 合 理 如 果 可 以 讓 遊 戲 的 NPCs具 有 增 強 式 學 習 的 人 工 智 慧, 並 且 用 模 糊 邏 輯 理 論 去 改 善 其 效 率, 這 樣 一 來 可 以 讓 許 多 的 遊 戲 實 際 的 應 用, 也 使 遊 戲 NPCs 行 為 更 有 變 化, 如 此 一 來 不 但 簡 化 了 遊 戲 程 式 碼 的 複 雜 度, 還 可 以 讓 遊 戲 NPCs 行 為 更 人 性 化, 甚 至 因 應 不 同 玩 家 的 程 度 來 改 變 難 度, 讓 遊 戲 更 具 耐 玩 性 21
3.2 應 用 模 糊 理 論 於 增 強 式 學 習 之 中 如 上 一 節 所 討 論, 在 增 強 式 學 習 中 最 重 要 的 因 素 就 是 奨 懲 的 設 定, 所 以 本 研 究 將 原 本 固 定 的 獎 懲 改 成 模 糊 獎 懲 機 制, 在 傳 統 的 增 強 式 學 習 中, 原 本 獎 懲 的 設 定 會 給 一 個 基 本 的 固 定 值, 當 代 理 人 做 出 行 動 時 如 果 可 以 接 近 目 標, 就 給 予 獎 勵 值, 但 是 如 果 越 接 近 目 標 則 會 給 予 越 高 的 獎 勵 值 使 Q-value值 提 高, 反 之, 則 可 能 給 予 懲 罰, 讓 Q-value 降 低, 這 樣 的 機 制 考 慮 了 目 前 狀 態 與 目 標 狀 態 的 差 距, 獎 懲 值 的 大 小 會 直 接 影 響 到 學 習 的 結 果, 如 果 一 開 始 設 定 了 一 個 很 高 的 獎 勵 值, 代 理 人 可 能 會 因 為 獎 勵 值 過 高 而 快 速 學 到 某 條 策 略, 但 是 這 樣 卻 忽 略 了 其 他 可 能 的 策 略, 如 果 獎 勵 太 低 又 會 讓 代 理 人 學 習 的 曲 線 變 的 很 平 緩, 要 經 過 很 久 才 能 學 習 到 最 佳 的 策 略, 但 是 其 中 很 重 要 的 一 點 就 是 當 獎 勵 越 高, 對 於 學 習 的 效 率 是 有 正 向 影 響 的, 只 是 其 結 果 可 能 會 不 好 本 研 究 的 想 法 是 讓 獎 懲 的 機 制 不 再 是 由 固 定 的 數 值 去 做 調 整, 而 是 由 另 一 個 模 糊 隸 屬 函 數 來 控 制 加 入 了 模 糊 獎 懲 的 機 制 就 可 以 讓 代 理 人 在 學 習 的 過 程 中, 不 單 只 是 依 照 目 標 與 現 在 狀 態 差 距 而 去 調 整 獎 懲 值, 也 會 考 慮 到 策 略 在 不 同 情 形 下 的 獎 勵, 如 此 一 來 就 可 以 將 獎 懲 值 設 定 成 較 高 的 數 值, 再 將 獎 懲 值 乘 上 一 個 模 糊 值, 根 據 該 條 策 略 的 模 糊 隸 屬 程 度 來 改 變 獎 懲 值, 也 因 此 可 以 有 效 的 改 變 傳 統 增 強 式 學 習 的 效 率, 同 時 也 不 因 為 數 值 的 加 減 變 動 過 大, 最 後 導 致 無 法 學 習 到 最 佳 策 略 的 結 果 在 加 入 了 模 糊 函 數 之 後 還 可 以 利 用 模 糊 函 數 的 調 整, 來 達 成 不 同 的 學 習 行 為, 例 如 遊 戲 中 的 最 終 魔 王 可 能 就 會 需 要 快 速 學 習 能 力, 因 此 就 可 以 調 整 模 糊 函 數 讓 這 種 類 型 的 NPC 可 以 快 速 的 學 習, 而 其 他 像 是 魔 王 身 邊 的 小 兵 這 種 NPCs 可 能 就 不 能 有 那 麼 強 大 的 學 習 能 力, 除 此 之 外, 利 用 不 同 的 模 糊 函 數 或 許 可 以 用 來 調 整 難 度, 增 加 遊 戲 的 可 玩 性 22
3.3 模 糊 增 強 式 學 習 之 運 算 本 研 究 將 模 糊 獎 懲 取 代 傳 統 增 強 式 學 習 的 固 應 獎 懲, 以 下 本 論 文 就 以 坦 克 對 戰 遊 戲 為 例, 解 釋 如 何 將 固 定 的 獎 懲 值 換 成 模 糊 獎 懲 值, 在 坦 克 對 戰 遊 戲 中,NPC 坦 克 因 應 不 同 的 環 境 與 玩 家 的 行 動, 可 能 會 有 數 條 不 同 的 路 線 ( 策 略 ) 選 擇, 每 當 選 擇 一 條 路 徑 的 結 果 可 能 會 被 玩 家 擊 敗, 或 是 順 利 抵 達 目 標, 因 此 獎 懲 的 數 值 可 能 是 +1 與 -1, 但 是 當 NPC 坦 克 在 同 樣 的 情 形 下 不 斷 的 被 擊 敗 時, 可 能 因 為 狀 態 ( 玩 家 所 做 的 行 為 與 地 圖 的 所 有 因 素 ) 是 一 樣 的, 所 以 其 懲 罰 值 是 不 變 的, 但 是 這 樣 的 情 形 並 不 符 合 常 理, 連 續 的 在 某 條 路 線 上 被 擊 倒 應 該 要 有 更 大 的 懲 罰 值, 相 對 的, 連 續 成 功 的 達 到 目 標 也 應 該 有 更 大 的 獎 勵 值 因 此 如 果 可 以 給 每 個 策 略 不 同 的 模 糊 值, 而 這 個 模 糊 值 可 以 依 據 每 次 的 結 果 去 運 算, 就 可 以 避 免 以 上 的 問 題, 所 以 本 研 究 將 獎 懲 值 就 設 定 為 +10*F 或 -10*F,F 為 該 條 路 線 的 模 糊 隸 屬 值 (fuzzy membership value, 詳 細 介 紹 在 第 四 章 ), 為 範 圍 介 於 0~1 的 一 個 小 數 值, 如 此 一 來 當 F=1 時, 就 會 有 很 高 的 獎 懲 值, 讓 NPC 坦 克 可 以 很 快 的 學 習 到 該 條 路 線 是 否 危 險, 但 是 F=0 時, 將 不 會 有 任 何 獎 懲 值, 也 就 是 該 次 結 果 可 能 只 是 偶 然, 不 能 提 供 NPC 坦 克 做 為 學 習 的 參 考, 其 步 驟 如 下 所 示 : 1. 回 合 開 始 2. NPC 坦 克 根 據 各 路 線 的 Q-value 選 擇 此 回 合 之 路 線 3. NPC 坦 克 撞 到 炸 彈 或 順 利 走 到 終 點 4. 計 算 各 路 線 危 險 值 X, 並 轉 換 成 對 應 各 路 線 的 危 險 函 數 值 F 5. 將 獎 懲 值 乘 上 其 對 應 的 F 值 6. 重 新 計 算 各 條 路 線 的 Q-value 值 7. 回 合 結 束, 如 果 還 未 學 到 唯 一 一 條 路 線, 則 回 到 步 驟 1 23
以 本 研 究 的 實 驗 為 例 ( 詳 細 介 紹 請 見 第 四 章 ), 原 本 的 獎 懲 如 表 四, 如 果 將 其 模 糊 化 就 變 成 表 五 所 示 表 四 獎 懲 函 數 狀 態 s R(s) 坦 克 撞 到 炸 彈, 該 條 策 略 坦 克 撞 到 炸 彈, 別 條 策 略 坦 克 順 利 走 到 終 點, 該 條 策 略 坦 克 順 利 走 到 終 點, 別 條 策 略 -10 +5 +20-10 表 五 模 糊 獎 懲 函 數 狀 態 s R(s) 坦 克 撞 到 炸 彈, 該 條 策 略 坦 克 撞 到 炸 彈, 別 條 策 略 坦 克 順 利 走 到 終 點, 該 條 策 略 坦 克 順 利 走 到 終 點, 別 條 策 略 -20*F +10*F +40*F -20*F 接 著 下 一 章 將 詳 細 介 紹 完 整 實 驗 設 計 與 實 驗 結 果, 也 就 可 以 看 出 當 把 原 本 的 固 定 獎 懲 ( 表 四 ) 變 成 模 糊 獎 懲 ( 表 五 ) 後, 其 效 率 因 此 可 以 大 幅 提 升 24
第 4 章 實 驗 設 計 與 實 驗 結 果 本 章 將 介 紹 本 研 究 的 實 驗 部 份, 本 研 究 實 驗 共 分 成 兩 部 份, 第 一 部 份 是 前 導 實 驗, 在 前 導 實 驗 中 將 找 出 最 適 合 坦 克 對 戰 遊 戲 類 型 的 模 糊 增 強 式 學 習 參 數, 並 應 用 在 第 二 部 份 的 遊 戲 實 驗 中, 在 本 章 的 實 驗 中 可 以 看 出 應 用 模 糊 理 論 提 高 傳 統 增 強 式 學 習 的 效 率, 並 且 探 討 不 同 的 模 糊 隸 屬 函 數 在 於 不 同 類 型 遊 戲 的 應 用 4.1 實 驗 設 計 本 研 究 如 圖 七, 共 分 成 兩 部 份, 第 一 部 份 為 前 導 實 驗, 藉 由 簡 單 的 遊 戲 路 徑 行 為 模 擬, 找 出 最 適 合 此 遊 戲 的 增 強 式 學 習, 再 將 其 加 入 第 二 部 份 實 際 的 遊 戲 之 中 圖 七 實 驗 架 構 圖 25
前 導 實 驗 中 的 步 驟 如 下 : 1. 實 驗 平 台 : 開 發 實 驗 平 台, 前 導 實 驗 的 平 台 主 要 是 讓 本 研 究 可 以 測 試 增 強 式 學 習 在 坦 克 對 戰 類 型 遊 戲 中 的 應 用 情 形, 藉 由 路 線 的 選 擇 來 測 試 增 強 式 學 習 與 模 糊 理 論 的 實 用 性 2. 增 強 式 學 習 : 在 前 導 實 驗 平 台 上 的 NPC 坦 克 加 上 具 有 增 強 式 學 習 技 術 之 人 工 智 慧, 讓 NPC 坦 克 在 多 次 的 嘗 試 之 後, 可 以 經 由 經 驗 學 習 來 選 擇 路 線 避 開 炸 彈 3. 模 糊 理 論 : 在 增 強 式 學 習 中 加 上 模 糊 函 數 來 調 整 獎 懲 值 的 設 定, 使 原 本 的 固 定 獎 懲 變 成 模 糊 獎 懲 4. 數 據 分 析 : 實 驗 後 把 本 次 實 驗 所 得 到 的 結 果 回 饋 到 各 參 數 中, 不 斷 的 嘗 試 不 同 的 值 來 找 出 最 佳 函 數 26
4.2 實 驗 環 境 與 遊 戲 設 計 本 研 究 中 規 劃 設 計 出 一 個 坦 克 對 戰 射 擊 遊 戲, 遊 戲 中 有 玩 家 可 以 自 行 操 控 的 坦 克 以 及 具 有 模 糊 增 強 式 學 習 人 工 智 慧 的 NPC 坦 克, 其 遊 戲 規 則 如 下 : NPC 坦 克 要 從 任 意 大 小 的 地 圖 中 某 一 啟 始 點 出 現, 目 標 為 到 達 某 些 終 止 點, 玩 家 可 以 從 任 意 處 攻 擊 NPC 坦 克, 但 是 在 地 圖 中 會 有 些 玩 家 不 可 擊 破 的 牆 壁, 這 些 牆 壁 可 能 是 隨 機 產 生 或 是 玩 家 設 定, 因 此,NPC 坦 克 就 會 藉 由 這 些 牆 壁 來 躲 過 玩 家 的 攻 擊, 並 且 學 到 最 安 全 的 一 條 路 線 來 擊 敗 玩 家, 其 過 程 如 圖 八 所 示 圖 五 為 一 個 N*N 大 小 的 地 圖, 紅 色 框 框 所 示 就 是 NPC 坦 克, 而 玩 家 則 是 在 地 圖 下 方 黑 色 框 框 中 的 坦 克, 可 以 左 右 自 由 移 動, 紅 色 S 點 代 表 NPC 坦 克 的 初 始 出 現 地 點, A1~A5 代 表 可 以 阻 擋 玩 家 攻 擊 的 牆, 紅 色 箭 頭 代 表 NPC 坦 克 的 目 標, 只 要 移 動 通 過 最 下 面 的 底 線, 就 算 NPC 坦 克 勝 利 圖 八 遊 戲 概 念 圖 本 研 究 的 實 驗 平 台 的 軟 硬 體 設 備 如 下 : OS: Windows Vista Home Premium CPU:Intel Core 2 Duo processor T5500(1.6GHz,2MB L2 cache) RAM:2GB Software:Adobe Flash CS3 Pro 27
4.3 前 導 實 驗 1. 加 入 增 強 式 學 習 在 製 作 遊 戲 之 前, 本 研 究 先 做 了 一 個 前 導 實 驗, 想 利 用 的 簡 單 的 實 驗 平 台 來 找 出 最 適 的 函 數, 再 將 此 一 實 驗 結 果 運 用 在 實 際 製 作 的 遊 戲 之 中, 前 導 實 驗 利 用 flash 與 action script 2.0當 成 實 驗 平 台 設 計 工 具, 創 造 了 一 個 在 3*3地 圖 中 具 有 簡 化 SARSA演 算 法 學 習 能 力 的 NPC 坦 克, 如 圖 九 圖 九 前 導 實 驗 圖 在 此 實 驗 中 設 定 了 一 個 3*3的 地 圖, 在 地 圖 的 右 上 方 為 NPC坦 克 的 啟 始 點 ( 紅 色 框 白 色 S 字 處 ), 而 地 圖 的 左 下 方 則 是 終 止 點 ( 老 鷹 圖 處 ), NPC坦 克 只 能 往 左 或 往 下 走, 因 此 會 有 六 種 不 同 的 策 略, 如 表 六 28
表 六 坦 克 移 動 策 略 表 Step 1 Step2 Step 3 Step 4 Policy A left left down down Policy B left down Left down Policy C left down down left Policy D down left Left down Policy E down left down left Policy F down down Left left 同 時 在 地 圖 中 會 有 些 玩 家 可 以 自 由 設 定 位 置 的 炸 彈 ( 紅 色 與 黑 色 炸 彈 ), 當 NPC 坦 克 碰 撞 到 這 些 炸 彈 就 會 被 摧 毀, 該 回 合 即 結 束, 此 外, 若 NPC坦 克 走 到 終 止 點 也 算 一 回 合 結 束, 每 次 回 合 結 束 就 會 用 SARSA演 算 法 去 計 算 其 Q-value值, 當 坦 克 被 摧 毀 對 該 條 路 線 Q-value 值 就 會 給 予 懲 罰 降 低, 而 其 他 路 線 則 給 予 獎 勵 提 高, 反 之, 若 坦 克 走 到 終 點 時, 該 條 路 線 Q-value 值 則 會 得 到 獎 勵, 其 他 路 線 會 加 予 懲 罰, 將 各 個 Q-value值 的 大 小 計 來 算 出 不 同 條 路 線 的 選 取 機 率, Q-value值 越 大 則 會 代 表 著 選 到 該 路 線 的 機 會 越 大, 直 到 只 剩 下 一 條 路 線 時, 該 遊 戲 才 會 結 束, 再 將 其 數 據 紀 錄 之 SARSA 演 算 法 公 式 如 公 式 四 : Q(s, a) Q(s,a ) + α(r(s) + γq(s',a' ) - Q(s,a) ) (4) 設 定 α, γ =1. 並 將 此 實 驗 的 公 式 簡 化 如 公 式 五 : Q(s, a) Q(s',a' ) + R(s) (5) 29
而 在 此 實 驗 中 的 獎 懲 函 數 值 如 表 七, 其 中 各 值 大 小 為 本 研 究 自 訂, 因 應 本 實 驗 給 予 每 條 路 線 的 初 始 值 為 五 十, 因 此 在 設 定 函 數 數 值 時, 以 加 減 十 來 測 試, 在 多 次 實 驗 之 後, 發 現 對 於 撞 到 炸 彈 或 順 利 走 到 終 點 此 兩 種 狀 態 應 該 給 予 較 高 的 獎 懲 值, 相 對 的 其 他 兩 種 情 形 則 需 要 比 較 低 的 獎 懲 值, 因 此 在 本 實 驗 中 分 別 設 定 為 撞 到 炸 彈 或 走 到 終 點 之 獎 懲 值 的 一 半, 也 就 如 表 七 所 示 表 七 獎 懲 函 數 狀 態 s R(s) 1. 坦 克 撞 到 炸 彈, 該 條 策 略 -10 2. 坦 克 撞 到 炸 彈, 別 條 策 略 +5 3. 坦 克 順 利 走 到 終 點, 該 條 策 略 +20 4. 坦 克 順 利 走 到 終 點, 別 條 策 略 -10 在 實 驗 的 過 程 中, 本 研 究 發 現 講 懲 的 設 定 與 增 強 式 學 習 的 效 率 有 很 大 的 關 係, 如 果 提 高 獎 懲 值 將 對 提 高 效 率 有 正 向 的 影 響, 但 是 如 果 設 定 不 當, 將 造 成 無 法 學 習 到 最 佳 策 略 的 結 果, 如 表 八, 當 坦 克 順 利 撞 到 炸 彈 後 別 條 策 略 的 獎 懲 提 高 到 10, 就 會 造 成 如 圖 十 所 示, 當 回 合 數 非 常 大 時 仍 然 無 法 學 到 最 佳 策 略 ( 本 研 究 以 一 百 回 合 當 做 最 大 值, 超 過 則 認 為 此 設 定 失 敗 ) 表 八 失 敗 的 獎 懲 函 數 狀 態 s R(s) 1. 坦 克 撞 到 炸 彈, 該 條 策 略 -10 2. 坦 克 撞 到 炸 彈, 別 條 策 略 +10 3. 坦 克 順 利 走 到 終 點, 該 條 策 略 +20 4. 坦 克 順 利 走 到 終 點, 別 條 策 略 -10 30
圖 十 增 強 式 學 習 失 敗 圖 並 且 發 現 如 果 以 固 定 的 獎 懲 值, 將 無 法 表 現 出 路 線 的 危 險 程 度, 當 某 一 路 線 不 斷 的 撞 到 炸 彈 時, 增 加 固 定 的 值 並 不 合 理, 應 該 要 以 模 糊 函 數 來 計 算 獎 懲 值, 如 果 一 直 撞 到 炸 彈 時, 代 表 此 一 策 略 是 非 常 危 險 的, 應 該 要 給 予 更 高 的 懲 罰 2. 加 入 模 糊 理 論 經 由 實 驗 的 結 果, 本 研 究 用 模 糊 理 論 來 改 善 此 一 實 驗 首 先, 用 某 一 危 險 函 數 來 做 計 算,Xi為 該 條 路 線 的 危 險 變 數, 初 始 值 為 0, 當 碰 到 炸 彈 時 該 路 線 危 險 變 數 為 Xi=Xi+1, 若 連 續 碰 到 兩 次 則 Xi=Xi+2, 若 連 續 碰 到 三 次 則 Xi=Xi+3, 最 多 +3, 也 就 是 說 如 果 同 一 條 路 線 中 連 續 碰 撞 多 次 炸 彈, 就 代 表 該 路 線 非 常 危 險, 危 險 變 數 累 加 速 度 越 快, 反 之, 其 他 j=i條 路 線 的 危 險 變 數 Xj=Xj-1, 且 一 樣 有 累 加 的 效 果, 最 多 -3 31
舉 例 來 說, 選 擇 同 一 條 路 線 上 的 九 回 合 結 果 如 表 九 ( 炸 彈 可 移 動 所 以 同 條 路 線 會 有 碰 撞 或 沒 碰 撞 到 的 情 形 ) 表 九 危 險 變 數 例 子 回 合 1 2 3 4 5 6 7 8 9 結 果 + + + - - + - + + X 改 變 量 1 2 3 1 2 1 1 1 2 X總 量 1 3 6 5 3 4 3 4 6 +: 代 表 坦 克 撞 到 炸 彈 -: 代 表 坦 克 順 利 走 到 終 點 如 果 將 原 本 固 定 的 獎 懲 改 變 成 模 糊 獎 懲, 用 危 險 變 數 X來 代 表 危 險 程 度, 模 糊 隸 屬 函 數 (fuzzy membership function) 則 利 用 最 基 本 的 三 角 隸 屬 函 數 (Pieczy ski and Obuchowicz 2004)( 圖 十 一 ), 而 f=µ(x) 的 算 式 如 算 式 六 : 1, if x 10 10 x μ (x) =, if 0 < x < 10 (6) 10 0, if x = 0 圖 十 一 三 角 隸 屬 函 數 圖 32
此 一 算 式 所 計 算 出 來 的 危 險 模 糊 函 數 來 替 代 原 本 固 定 的 獎 懲 值, 新 的 模 糊 獎 懲 函 數 如 表 十, 因 為 f期 望 值 為 0.5, 所 以 新 的 模 糊 獎 懲 函 數 R 為 原 本 固 定 獎 懲 函 數 RR 二 倍 再 乘 上 f, 例 如 原 本 第 一 條 獎 懲 為 -10, 新 的 獎 懲 值 就 為 -20*f, 以 此 類 推 表 十 模 糊 獎 懲 函 數 狀 態 s R(s) 1. 坦 克 撞 到 炸 彈, 該 條 策 略 -20*f 2. 坦 克 撞 到 炸 彈, 別 條 策 略 +10*f 3. 坦 克 順 利 走 到 終 點, 該 條 策 略 +40*f 4. 坦 克 順 利 走 到 終 點, 別 條 策 略 -20*f 兩 個 實 驗 結 果 比 較 如 圖 十 二 及 表 十 一 可 以 看 出 加 入 模 糊 獎 懲 後,NPC 坦 克 只 要 約 26 回 合 就 可 以 學 到 唯 一 的 一 條 路 線, 比 起 原 本 未 加 入 前 的 固 定 獎 懲 快 了 約 20 回 合, 明 顯 的 提 高 學 習 效 率 圖 十 二 前 導 實 驗 結 果 圖 33
表 十 一 實 驗 結 果 數 據 ID E1 E2 1 58 29 2 52 28 3 54 24 4 59 25 5 55 26 6 52 32 7 56 27 8 54 28 9 47 30 10 59 23 mean 54.6 25.6667 success rate 0.56 0.67 E1: 固 定 獎 懲 E2: 模 糊 獎 懲 表 十 一 中 的 成 功 率 (success rate) 代 表 在 所 有 回 合 中, 成 功 走 到 終 點 的 機 率 ( 成 功 走 到 終 點 次 數 / 總 回 合 次 數 ), 如 果 以 每 十 回 合 來 看 E1 實 驗 的 成 功 次 數, 則 如 表 十 二 所 示 表 十 二 成 功 次 數 表 ID\ 回 合 1~10 11~20 21~30 31~40 41~50 51~60 61~70 1 5 5 6 8 10 10 10 2 3 2 5 5 8 10 10 3 1 3 4 4 10 10 10 4 2 6 4 6 8 10 10 5 2 2 3 4 9 10 10 6 2 2 5 7 9 10 10 7 3 2 7 5 8 9 10 8 3 4 3 5 10 9 10 9 2 3 3 7 9 10 10 10 3 4 3 6 10 10 10 mean 2.6 3.3 4.3 5.7 9.1 9.8 10 34
在 此 一 實 驗 中 可 以 看 出, 模 糊 理 論 確 實 可 以 明 顯 的 提 高 增 強 式 學 習 的 效 率, 而 且 不 只 是 提 高 效 率, 也 許 可 以 利 用 模 糊 邏 輯 來 控 制 其 難 易 度 的 調 整, 因 此 實 驗 除 了 使 用 基 本 的 三 角 隸 屬 模 糊 函 數, 也 利 用 了 高 斯 隸 屬 函 數 (Gaussian membership function ) 來 比 較 兩 者 的 差 別 (Pieczy ski and Obuchowicz 2004) 高 斯 隸 屬 函 數 算 式 如 公 式 七 : m 1 x c μ a ( x, c, s, m) = exp (7) 2 s x 為 危 險 函 數 值, c 為 中 央 值 (centre), s 為 寬 度 值 (width), m 為 模 糊 因 子 (fuzzification factor), 其 型 狀 如 圖 十 三 所 示 (c=5,s=2,m=2): 圖 十 三 高 斯 隸 屬 函 數 圖 在 此 實 驗 中 希 望 X的 值 不 要 超 過 5, 也 就 是 如 果 從 0開 始 計 算, 在 連 續 撞 到 第 三 次 時, 其 危 險 程 度 就 為 最 高, 因 此 固 定 中 央 值 c=5, 也 就 是 說 當 x 5其 危 險 函 數 值 f=µ(x)=1, 另 外 如 果 改 變 二 個 參 數 值 (s,m), 就 可 以 改 變, 隸 屬 函 數 的 圖 型, 如 果 只 改 變 s 的 話, 如 圖 十 四 所 示 ( 以 c=10, m=5, s=2,3,4,5,6,7) : 35
圖 十 四 模 糊 隸 屬 函 數 圖 (s 不 同 ) 36
如 果 只 改 變 m 的 話, 如 圖 十 五 所 示 ( 以 c=10, s=5, m=3,5,7) : 圖 十 五 模 糊 隸 屬 函 數 圖 (m 不 同 ) 高 斯 隸 屬 函 數 所 呈 現 的 表 現 較 符 合 本 研 究 所 期 望 的 智 能 表 現, 本 研 究 所 期 望 的 智 能 表 現 並 非 是 直 線 提 高 其 危 險 程 度, 而 是 要 根 據 不 同 的 需 求, 去 改 變 其 學 習 的 效 果, 例 如 如 果 目 前 希 望 一 個 後 知 後 覺 的 NPC, 那 應 該 要 如 圖 十 四 中 6 號 曲 線 ( 黃 色 ) 所 呈 現 的 結 果, 相 反 的 如 要 一 個 學 習 能 力 很 強 大 的 NPC, 就 要 s與 m兩 值 都 提 高, 如 圖 十 四 中 1 號 曲 線 的 結 果 ( 或 是 更 加 垂 直 ) 因 此 本 研 究 期 望 可 以 利 用 不 同 參 數 值 的 隸 屬 函 數, 可 以 用 來 做 為 調 整 難 度 的 機 制 37
4.5 實 驗 結 果 根 據 前 三 節 所 討 論, 本 研 究 想 探 討 不 同 模 糊 隸 屬 函 數 參 數 值 與 不 同 的 獎 懲 值 大 小 設 定 對 於 結 果 的 影 響, 將 不 同 的 值 代 入 實 驗 中, 並 紀 錄 NPCs 坦 克 需 要 多 少 回 合 才 能 學 到 唯 一 的 路 線, 得 到 的 結 果 中 發 現, 原 本 預 期 依 照 不 同 的 模 糊 參 數 值 (s與 m 值 ), NPCs會 有 不 同 的 行 為 模 式, 藉 此 可 以 調 整 遊 戲 的 難 度, 但 經 過 實 驗 發 現, 模 糊 參 數 值 的 調 整 並 不 能 達 到 原 本 的 預 期, 在 不 同 的 參 數 設 定 下, 只 會 影 響 數 據 的 穩 定 性, 而 不 會 形 成 不 同 的 行 為 表 現, 反 而 是 不 同 的 獎 懲 設 定 對 於 NPCs 行 為 模 式 影 響 程 度 較 大, 如 圖 十 六 所 示 及 說 明 圖 十 六 模 糊 函 數 實 驗 結 果 圖 圖 十 中, 從 所 有 結 果 挑 出 s=3,5與 m=3,5來 呈 現, 1 號 ( 藍 色 ) 線 條 代 表 模 糊 參 數 值 m=3 與 s=3的 四 種 不 同 獎 懲 值 下 的 結 果, 同 理, 2 號 ( 紅 色 ) 線 條 是 m=3與 s=5的 四 種 結 果,3 號 ( 綠 色 ) 線 條 是 m=5與 s=3的 四 種 結 果, 4 號 ( 黑 色 ) 線 條 是 m=5與 s=5的 四 種 結 果 而 A,B,C,D 四 點 則 是 代 表 在 該 模 糊 參 數 下 的 四 種 獎 懲 值 ( 參 考 4.3 節 ), 分 別 為 (40,20,20,10) (40,20,20,0) (40,15,20,10) 與 (40,20,20,5), 其 中 第 一 個 數 值 為 坦 克 順 利 走 到 終 點, 該 條 策 略 所 增 加 的 值, 第 二 個 數 值 為 坦 克 順 利 走 到 終 點, 別 條 策 略 所 減 少 38
,Y 軸 為 當 坦 克 學 到 唯 一 一 條 路 線 所 需 的 回 合 數 從 圖 中 可 以 看 出, 改 變 不 同 的 模 糊 函 數, 並 不 能 藉 由 函 數 的 改 變 來 改 變 學 習 的 模 式 的 不 同, 但 是 當 s 與 m 兩 者 參 數 都 增 加 的 情 型 下, 會 讓 NPCs 坦 克 的 學 習 效 果 越 一 致, 也 就 是 不 受 到 不 同 獎 懲 設 定 的 影 響 另 外, 改 變 獎 懲 的 大 小 會 直 接 影 響 學 習 的 表 現 ( 學 習 的 快 與 慢 ), 當 坦 克 撞 到 炸 彈, 別 條 策 略 所 增 加 的 值 越 少, 學 習 越 快, 這 也 是 合 理 的 行 為, 但 是 如 果 太 少 雖 然 學 的 比 較 快, 但 也 表 示 坦 克 就 會 減 少 嘗 試 其 他 路 線 的 機 會, 如 此 一 來 當 環 境 改 變 時 NPC 坦 克 可 能 就 不 懂 得 如 何 應 變, 因 此 從 以 上 結 果 可 以 看 出, 不 同 的 需 求 會 有 不 同 的 參 數 值, 換 句 話 說, 在 不 同 類 型 的 遊 戲 環 境 下, 會 有 不 同 的 參 數 設 定 雖 然 從 結 果 可 以 看 出 模 糊 函 數 並 不 能 改 變 行 為 模 式, 但 是 整 體 而 言, 模 糊 獎 懲 的 結 果 會 比 固 定 獎 懲 更 有 效 率 ( 學 習 的 回 合 數 較 少 ), 因 此 雖 然 從 實 驗 結 果 無 法 得 到 調 整 難 度 機 制 的 方 法, 但 是 利 用 模 糊 獎 懲 的 增 強 式 學 習 還 是 會 比 固 定 獎 懲 的 傳 統 增 強 式 學 習 更 有 效 率 此 外, 如 果 是 不 同 類 型 的 遊 戲, 可 能 需 要 不 同 的 學 習 曲 線, 像 是 第 一 人 稱 射 擊 遊 戲 與 即 時 戰 略 類 型 中,NPCs 需 要 的 可 能 是 比 較 穩 定 的 學 習 曲 線, 讓 NPCs 可 以 從 與 玩 家 互 動 中 穩 定 的 學 習, 不 會 讓 玩 家 突 然 覺 得 強 度 變 化 太 大, 不 可 預 測 ; 但 是 像 是 運 動 或 動 作 類 型 遊 戲 可 能 需 要 變 化 較 大 的 學 習 曲 線, 這 類 型 的 遊 戲 對 於 強 度 的 敏 感 度 較 低, 畢 竟 人 類 本 來 就 會 有 失 誤 的 情 形 產 生, 在 這 種 類 型 遊 戲 中, 如 果 NPCs 突 然 做 變 強 或 變 弱 並 不 會 讓 玩 家 覺 得 奇 怪, 反 而 只 會 覺 得 NPCs 只 是 產 生 失 誤, 但 是 整 體 而 言 並 不 會 造 成 影 響 39
4.6 遊 戲 呈 現 與 遊 戲 結 果 在 實 際 的 遊 戲 上, 本 研 究 利 用 魔 獸 爭 霸 三 的 編 輯 器 做 出 一 個 實 際 可 以 玩 的 遊 戲, 魔 獸 爭 霸 三 為 Blizzard 公 司 在 2000年 所 發 表 製 作 的 遊 戲, 遊 戲 中 附 有 遊 戲 編 輯 器 (world editor, 圖 十 七 ) 來 讓 玩 家 自 己 設 計 自 己 想 要 的 關 卡, 可 以 發 表 在 遊 戲 官 方 伺 服 器 戰 網 (Battle net, 圖 十 八 ) 之 上, 讓 所 有 玩 家 玩 到 自 己 設 計 的 圖, 因 為 其 功 能 非 常 齊 全, 因 此 受 到 玩 家 的 愛 戴, 創 造 出 許 多 小 遊 戲, 如 圖 如 當 下 很 紅 的 Dota TD等 等 小 遊 戲 都 是 從 玩 家 自 行 設 計 進 而 發 表 在 戰 網 上 面, 許 多 遊 戲 甚 至 成 為 經 典 且 被 視 為 一 種 新 的 遊 戲 類 型, 如 Dota 類 型 遊 戲, 原 是 為 Defend of the Ancient, 是 一 名 歐 洲 玩 家 eul 所 自 行 設 計 出 的 新 遊 戲 類 型, 玩 家 分 成 兩 邊 陣 營 控 制 英 雄 去 攻 打 對 方 軍 營, 該 遊 戲 融 合 了 許 多 要 素, 如 升 級 系 統 道 具 系 統 技 能 系 統 等, 擁 有 龐 大 的 玩 家 群, 雖 然 在 魔 獸 爭 霸 資 料 片 時 停 止 更 新, 但 是 因 此 有 非 常 多 的 玩 家 按 照 這 樣 此 類 型 設 計 去 研 發 新 圖, 像 是 國 外 的 Dota allstar 與 Dota chaos, 國 內 的 真 三 國 無 雙 信 長 的 野 望 等 等, 甚 至 還 有 遊 戲 公 司 專 門 獨 立 研 發 此 一 類 型 的 遊 戲, 如 League of Lengends(Riot games,2009) Heros of Newerth(S2 games,2010) 與 中 國 自 行 研 發 的 夢 三 國 ( 杭 州 電 魂,2010) 等 等 遊 戲 圖 十 七 遊 戲 編 輯 器 ( 資 料 來 源 : 魔 獸 爭 霸 III 截 圖, 版 權 所 有 :Blizzard) 40
圖 十 八 戰 網 示 意 圖 ( 資 料 來 源 : 魔 獸 爭 霸 III 截 圖, 版 權 所 有 :Blizzard) 根 據 之 前 所 提 的 遊 戲 概 念, 本 研 究 製 作 了 一 個 坦 克 對 戰 的 遊 戲 ( 如 圖 十 九 ), 在 這 一 遊 戲 中, 玩 家 可 以 控 制 在 下 方 的 玩 家 坦 克 移 動 且 攻 擊, 會 有 NPC 坦 克 從 上 面 出 現, 並 且 會 有 隨 機 的 牆 ( 圖 十 四 中 藍 色 的 橫 槓 ) 出 現 來 阻 擋 玩 家 的 攻 擊, NPC坦 克 會 利 用 模 糊 增 強 式 學 習 技 術 不 斷 的 學 習 到 玩 家 的 攻 擊 行 為, 進 而 利 用 牆 壁 來 躲 開 玩 家 的 攻 擊, 當 NPC 坦 克 往 下 走 到 玩 家 的 基 地 時, 玩 家 將 會 受 到 攻 擊, 並 降 低 生 命 值, 而 當 玩 家 成 功 擊 敗 NPC 坦 克 時 就 會 提 高 自 身 的 分 數, 當 玩 家 生 命 值 降 低 成 零 時 遊 戲 就 結 束, 分 數 最 高 的 玩 家 就 是 此 一 遊 戲 的 贏 家 41
圖 十 九 遊 戲 畫 面 圖 ( 資 料 來 源 : 魔 獸 爭 霸 III 截 圖, 版 權 所 有 :Blizzard) 本 實 驗 讓 NPC 坦 克 具 有 模 糊 增 強 式 學 習 的 人 工 智 慧, 一 開 始 NPC 坦 克 會 隨 機 選 擇 路 線 並 且 紀 錄 路 線 到 路 線 資 料 庫 內, 當 NPC 坦 克 被 玩 家 擊 敗 或 是 成 功 走 到 最 底 部, 就 算 本 回 合 結 束, 接 著 下 一 回 合 開 始 NPC 坦 克 會 從 隨 機 或 是 從 路 線 資 料 庫 中 選 擇 出 這 回 合 要 執 行 的 路 線, 如 果 是 由 隨 機 選 擇 路 線 的 話, 則 會 判 斷 是 否 是 一 條 新 的 路 線, 新 的 路 線 就 再 將 這 條 路 線 紀 錄 起 來 到 資 料 庫 內, 其 流 程 圖 如 圖 二 十 42
圖 二 十 遊 戲 進 行 流 程 圖 43
在 此 實 驗 中, 使 用 ε-greedy 演 算 法 來 決 定 NPC 是 否 決 定 探 索 新 路 線, 設 定 的 機 率 為 10%, 而 路 線 的 選 擇 機 制 則 是 利 用 前 導 實 驗 所 做 出 的 結 果, 使 用 SARSA 演 算 法 的 模 糊 增 強 式 學 習, 模 糊 隸 屬 函 數 是 使 用 高 斯 隸 屬 函 數, 參 數 為 c=10 s=5 以 及 m=5, 每 條 新 產 生 的 路 線 都 會 給 予 路 線 的 選 擇 值 t, 其 初 始 值 設 定 為 50, 每 回 合 結 束 後 都 會 做 重 複 運 算, 此 值 就 會 決 定 路 線 被 選 擇 出 來 的 機 率 大 小, 也 就 是 說 當 NPC 坦 克 在 此 條 路 線 被 擊 敗 時, 就 會 根 據 SARSA 演 算 法 去 懲 罰 此 條 路 線, 減 少 t 值, 反 之 則 會 增 加 t 值 NPC 坦 克 會 學 習 到 如 何 利 用 地 型 避 開 玩 家 的 攻 擊, 因 實 驗 需 求, 本 實 驗 設 定 一 面 牆 讓 NPC 坦 克 必 能 成 功 避 開 攻 擊 並 成 功 抵 達 目 標, 也 就 是 玩 家 一 定 會 因 為 生 命 被 扣 完 而 結 束 遊 戲, 最 後 再 以 玩 家 所 取 得 的 分 數 來 當 勝 負 的 判 別 遊 戲 完 成 之 後, 再 將 此 遊 戲 放 到 戰 網 上 讓 玩 家 下 載, 在 遊 戲 的 過 程 中 可 以 發 現, 玩 家 對 於 NPC 坦 克 會 避 開 攻 擊 感 到 很 有 趣, 且 為 了 取 得 更 高 分 會 想 盡 辦 法 去 擊 敗 NPC 坦 克, 如 果 想 要 挑 戰 不 同 的 難 度 或 玩 法, 也 可 以 藉 著 改 變 牆 的 位 置 或 是 改 變 增 強 式 學 習 的 獎 懲 值 設 定, 讓 NPC 坦 克 可 以 有 不 同 的 表 現, 玩 家 因 此 可 以 與 NPC 坦 克 鬥 智 產 生 樂 趣 44
4.7 如 何 實 際 應 用 模 糊 增 強 式 學 習 從 本 研 究 得 知, 模 糊 增 強 式 學 習 確 實 是 可 以 應 用 在 坦 克 類 型 遊 戲 之 中, 但 是 數 位 遊 戲 有 很 多 類 型, 在 不 同 的 遊 戲 類 型 可 能 會 有 不 同 的 應 用 情 形 1. 第 一 人 稱 遊 戲 類 型 例 如 在 第 一 人 稱 射 擊 遊 戲 中 就 可 以 本 研 究 所 做 的 路 徑 搜 尋 功 能, 第 一 人 稱 射 擊 遊 戲 中 的 NPCs 跟 坦 克 對 戰 類 型 遊 戲 有 異 曲 同 工 之 妙,NPCs 都 需 要 知 道 去 避 開 危 險, 找 到 一 條 安 全 且 可 以 擊 敗 的 玩 家 的 路 徑, 不 同 的 是 第 一 人 稱 射 擊 遊 戲 通 常 會 更 複 雜, 會 有 更 多 因 素 來 影 響 NPCs 的 決 定, 例 如 與 玩 家 的 距 離 武 器 的 不 同 是 否 要 與 玩 家 硬 碰 硬 等 等, 要 將 更 多 的 因 素 加 入 路 線 危 險 程 度 的 考 慮, 但 是 同 樣 的 是 可 以 讓 模 糊 增 強 式 學 習 成 為 NPCs 選 擇 路 徑 的 一 個 依 據, 讓 NPCs 有 更 具 人 性 化 的 行 動 表 現 2. 角 色 扮 演 類 型 如 果 是 以 目 前 最 熱 門 的 線 上 角 色 扮 演 類 型 的 遊 戲, 或 許 可 以 將 模 糊 增 強 式 學 習 技 術 應 用 在 敵 方 NPCs 的 出 招 模 式 上, 在 此 類 型 的 遊 戲 中, 最 吸 引 玩 家 的 過 程 通 常 是 集 合 許 多 玩 家 一 起 去 打 敗 強 大 的 敵 方 頭 目 (NPCs) 來 取 得 稀 有 的 物 品 獎 勵, 而 不 同 的 NPCs 可 能 就 會 有 不 一 樣 的 行 為 模 式, 雖 然 同 樣 的 一 個 NPC 可 能 會 有 許 多 不 同 的 行 為, 但 是 不 同 的 行 為 通 常 會 是 隨 機 產 生 的, 因 此 玩 家 在 玩 過 幾 次 後 通 常 會 知 道 NPC 會 有 哪 幾 種 行 為, 該 如 何 避 開 NPC 的 招 式, 所 以 玩 過 幾 次 後 打 頭 目 NPC 的 過 程 就 變 成 有 固 定 的 模 式 且 不 斷 重 複 的 無 趣 過 程, 遊 戲 公 司 也 必 須 要 一 直 出 更 多 不 同 的 場 景 與 不 同 的 NPCs 來 因 應 玩 家 的 需 求, 因 此 如 果 能 讓 NPCs 都 具 有 模 糊 增 強 式 學 習 的 人 工 智 慧, 讓 NPCs 可 以 學 習 到 玩 家 的 行 為, 進 而 選 擇 不 同 的 行 為 模 式, 就 可 以 讓 遊 戲 變 得 更 有 趣, 延 長 遊 戲 的 壽 命 45
3. 即 時 戰 略 遊 戲 類 型 以 即 時 戰 略 類 型 遊 戲 而 言, 模 糊 增 強 式 學 習 可 以 應 用 在 NPC 的 出 兵 選 擇 上, 在 此 類 型 的 遊 戲 中, 兵 種 的 相 剋 是 取 得 勝 利 的 一 個 重 要 因 素, 但 是 玩 家 常 會 異 想 天 開 的 發 展 出 許 多 不 同 的 兵 種 來 做 搔 擾 戰 術, 如 果 要 用 規 則 基 礎 方 法 來 做 NPCs 人 工 智 慧 技 術 的 話, 可 能 需 要 很 非 龐 大 的 程 式 碼 才 能 達 到 目 標, 而 且 這 類 型 的 遊 戲 會 不 斷 的 更 新 以 求 平 衡, 如 此 一 來 各 個 兵 種 在 不 同 的 版 本 可 能 會 有 不 一 樣 的 功 能, 但 NPCs 卻 不 會 像 人 類 玩 家 一 樣 用 經 驗 去 學 習 在 不 同 版 本 情 形 下 的 玩 法, 如 果 有 增 強 式 學 習 的 技 術, 也 就 可 以 不 需 要 重 新 寫 NPCs 的 人 工 智 慧 程 式 碼, 而 是 直 接 讓 NPCs 去 學 習 玩 家 的 玩 法, 並 且 做 出 相 對 應 的 兵 種 來 剋 制 玩 家 的 玩 法, 如 此 一 來 就 可 以 讓 遊 戲 更 具 挑 戰 且 有 趣 4. 回 合 式 戰 略 類 型 遊 戲 在 回 合 式 戰 略 類 型 遊 戲 中, 通 常 玩 家 會 挑 戰 同 樣 的 一 個 局 面 很 多 次, 想 出 不 同 的 戰 略 來 打 贏 電 腦, 就 像 是 下 一 盤 棋 一 樣, 因 此, 這 類 型 遊 戲 的 流 程 非 常 適 用 增 強 式 學 習 技 術, 如 果 可 以 讓 NPCs 學 習 到 移 動 不 同 的 棋 子 ( 或 遊 戲 中 電 腦 所 控 制 的 兵 力 ) 時, 玩 家 會 有 怎 樣 不 同 的 反 應, 並 且 瞭 解 到 玩 家 曾 出 現 過 的 怪 招, 就 可 以 加 強 難 度, 並 且 讓 玩 家 更 具 挑 戰, 畢 竟 這 類 型 的 遊 戲 就 是 要 讓 玩 家 不 斷 的 嘗 試 不 同 的 戰 略 去 取 得 勝 利, 因 此 增 強 式 學 習 會 非 常 適 用 5. 其 他 類 型 除 此 之 外, 還 可 以 應 用 在 許 多 不 同 種 類 的 遊 戲 之 中, 但 是 最 主 要 的 應 用 在 於 當 NPCs 要 選 擇 如 何 應 對 玩 家 的 行 為 時, 如 以 上 所 提 到 的 NPCs 要 選 擇 不 同 的 路 徑 避 開 玩 家, 或 是 選 擇 不 同 的 招 式 來 打 敗 玩 家 等 等, 這 也 就 是 玩 家 想 要 遊 戲 中 NPCs 具 有 人 工 智 慧 技 術 的 一 大 原 因, 只 要 NPCs 應 對 玩 家 行 為 可 以 更 人 性 化 且 聰 明, 那 就 會 讓 玩 家 覺 得 自 己 並 不 是 在 跟 單 調 的 電 腦 玩, 而 是 一 個 會 思 考 的 機 器, 如 此 一 來 就 可 以 增 加 遊 戲 的 耐 玩 性 與 樂 趣 46
雖 然 增 強 式 學 習 技 術 可 以 應 用 在 許 多 不 同 類 型 的 的 遊 戲 中, 但 仍 然 有 許 多 不 合 適 的 類 型, 像 是 : 6. 運 動 遊 戲 類 型 在 運 動 遊 戲 類 型 中, 大 部 份 的 NPCs 行 為 模 式 都 非 常 複 雜, 而 且 常 常 不 只 有 一 兩 個 行 為 目 標, 同 時 運 動 遊 戲 類 型 的 玩 家 常 常 是 兩 個 人 以 上, 在 此 種 情 形 下, 要 應 用 增 強 式 學 習 技 術 可 能 會 非 常 的 困 難, 除 了 要 有 更 複 雜 的 演 算 法 之 外, 還 不 一 定 可 以 有 很 好 的 效 率, 如 果 要 應 用 增 強 式 學 習 技 術 的 話, 可 能 就 要 限 制 許 多 的 條 件 7. 動 作 遊 戲 類 型 ( 如 格 鬥 遊 戲 等 ) 增 強 式 學 習 技 術 在 動 作 遊 戲 類 型 中 會 非 常 的 不 適 用, 如 同 運 動 遊 戲 類 型 一 樣, 動 作 遊 戲 類 型 有 太 複 雜 的 行 為 模 式, 且 這 類 型 的 遊 戲 的 NPCs 並 不 需 要 太 聰 明 或 是 複 雜 的 行 為, 通 常 只 需 要 幾 種 簡 單 的 行 為, 讓 玩 家 在 玩 的 過 程 中 知 道 如 何 擊 敗, 並 因 此 取 得 快 感, 如 果 NPCs 具 有 太 強 大 的 學 習 能 力, 會 讓 遊 戲 變 得 太 過 複 雜 與 困 難, 反 而 失 去 樂 趣 47
4.8 本 章 小 結 從 本 章 對 於 模 糊 增 強 式 學 習 的 一 個 前 導 實 驗 中 可 以 看 出 以 下 幾 點 : I. 模 糊 增 強 式 學 習 的 一 個 實 作 中 可 以 看 出, 增 強 式 學 習 確 實 可 以 讓 NPC 坦 克 在 一 段 時 間 內 找 到 一 條 正 確 的 路 線, II. 用 模 糊 獎 懲 機 制 去 取 代 固 定 獎 懲 機 制 可 以 提 高 增 強 式 學 習 的 效 率, III. 另 外, 模 糊 隸 屬 函 數 的 選 擇 可 以 改 變 NPCs 的 學 習 模 式, 但 是 並 無 規 律 可 尋, 在 不 同 的 遊 戲 環 境 下 可 能 需 要 不 同 的 隸 屬 函 數 來 改 變 NPCs 的 行 為 模 式 此 外, 本 研 究 也 實 際 的 做 出 了 一 個 坦 克 對 戰 的 遊 戲, 在 遊 戲 中 的 NPC 坦 克 具 有 模 糊 增 強 式 學 習 的 能 力,NPC 坦 克 依 據 不 同 環 境 ( 障 礙 物 與 玩 家 行 為 ) 下 做 出 不 同 的 反 應, 讓 玩 家 覺 得 NPC 坦 克 是 具 有 智 慧 的 從 實 驗 中 就 可 以 看 出 模 糊 增 強 式 學 習 確 實 可 應 用 在 數 位 遊 戲 之 上, 並 且 也 可 以 有 很 好 的 效 率 48
第 5 章 結 論 本 章 將 對 本 研 究 所 獲 得 之 結 果 進 行 總 結 與 討 論, 從 前 導 實 驗 中 可 以 看 出 增 強 式 學 習 的 效 果, 以 及 模 糊 理 論 提 高 效 率 的 成 果, 實 驗 的 結 果 也 證 明 了 本 研 究 的 研 究 假 設, 以 下 各 節 將 依 序 對 於 本 研 究 做 一 個 整 體 的 結 論, 以 及 探 討 如 何 應 用 模 糊 增 強 式 學 習 在 不 同 類 型 的 遊 戲 之 中, 最 後 是 本 研 究 的 各 種 限 制 與 未 來 可 以 發 展 的 研 究 議 題 5.1 摘 要 遊 戲 人 工 智 慧 對 數 位 遊 戲 而 言 是 很 重 要 的 一 個 環 節, 遊 戲 人 工 智 慧 讓 遊 戲 中 的 NPCs 可 以 表 現 得 更 聰 明, 但 是 數 位 遊 戲 中 NPCs 所 需 要 的 人 工 智 慧 並 非 完 美 的 人 工 智 慧, 不 會 出 錯 的 人 工 智 慧 會 讓 玩 家 產 生 壓 力, 反 而 讓 玩 家 對 遊 戲 失 去 耐 心, 在 此 一 前 題 之 下, 增 強 式 學 習 技 術 是 一 個 解 決 方 案 增 強 式 學 習 是 一 種 以 過 去 經 驗 來 學 習 的 人 工 智 慧 技 術, 目 前 已 經 在 各 個 領 域 被 廣 為 應 用, 但 是 在 數 位 遊 戲 中 的 應 用 還 非 常 少, 最 大 的 原 因 就 是 因 為 其 需 要 很 長 的 一 段 試 誤 學 習 過 程, 但 是 這 樣 的 特 性 並 不 適 用 於 數 位 遊 戲 之 中, 因 此 本 研 究 就 利 用 模 糊 獎 懲 來 取 代 原 本 的 固 定 獎 懲, 以 期 改 善 其 效 率 本 研 究 實 際 的 做 出 一 款 坦 克 對 戰 的 遊 戲 來 當 作 實 驗 的 平 台, 讓 其 中 的 NPC 坦 克 具 有 模 糊 增 強 式 學 習 的 人 工 智 慧, 在 此 之 前, 也 做 了 一 個 前 導 實 驗 去 探 討 不 同 參 數 對 於 模 糊 增 強 式 學 習 的 影 響 實 驗 的 結 果 顯 示, 本 研 究 成 功 的 利 用 增 強 式 學 習 讓 遊 戲 中 的 NPC具 有 如 人 類 的 學 習 思 考 模 式, 模 擬 獎 懲 可 以 加 快 增 強 式 學 習 的 效 率, 當 學 習 的 效 率 提 高 後, 就 可 以 實 際 的 應 用 在 數 位 遊 戲 之 中, 從 前 導 實 驗 之 中 得 知, 獎 懲 機 制 對 於 整 體 的 表 現 有 很 大 的 影 響, 如 果 獎 勵 過 高, 雖 然 會 正 向 的 提 高 效 率, 但 是 過 高 則 會 造 成 實 驗 永 遠 不 會 結 束 的 後 果, 如 果 太 低, 又 會 讓 代 理 人 學 習 過 慢, 變 得 非 常 沒 有 效 率, 而 且 不 同 的 遊 戲 設 計 之 下, 會 需 要 有 不 同 的 獎 懲 值 設 定, 根 據 遊 戲 的 需 求 來 調 整 獎 懲 值 的 高 低 與 模 糊 獎 懲 函 數 模 擬 函 數 雖 然 很 明 顯 的 可 以 提 高 效 率, 但 是 並 不 能 如 原 本 預 期 的 來 調 整 其 遊 戲 難 度 49
5.2 結 論 本 研 究 成 功 的 應 用 增 強 式 學 習 技 術 在 數 位 遊 戲 之 中, 因 應 本 研 究 的 研 究 假 設 (p.11), 可 以 得 到 以 下 幾 點 結 論 : 研 究 假 設 I: 本 研 究 假 設 在 傳 統 數 位 遊 戲 中 加 入 增 強 式 學 習 技 術 可 以 讓 遊 戲 中 的 NPCs 具 有 學 習 的 能 力, 會 依 據 玩 家 不 同 的 行 為 來 做 出 不 同 的 反 應, 並 可 適 應 遊 戲 環 境 的 改 變 進 行 調 整 從 本 研 究 的 實 驗 中, 可 以 看 出 NPCs 具 有 增 強 式 學 習 的 人 工 智 慧 時 可 以 讓 NPCs 學 習 到 如 何 避 開 炸 彈, 學 到 唯 一 的 策 略, 如 表 十 二 ( 詳 細 介 紹 見 本 論 文 4.3 節 ) 固 定 獎 懲 (E1) 平 均 約 55 次 可 以 學 到 唯 一 路 線 (E2 為 模 糊 獎 懲 ), 即 使 環 境 改 變 或 是 玩 家 行 為 不 同 導 致 的 狀 態 不 同,NPCs 都 可 以 馬 上 感 知 到, 改 變 自 己 的 行 為, 選 擇 不 同 的 路 線, 如 圖 二 十 一 所 示 圖 二 十 一 實 驗 環 境 改 變 坦 克 學 習 圖 50
研 究 假 設 II: 利 用 模 糊 理 論 提 昇 增 強 式 學 習 效 率 從 本 研 究 的 實 驗 數 據 可 以 看 出, 模 糊 獎 懲 與 固 定 獎 懲 有 很 大 的 差 距 ( 相 差 約 二 十 回 合, 詳 細 說 明 見 4.3 節 ), 模 糊 獎 懲 可 以 有 效 的 改 善 學 習 效 率, 當 效 率 改 善 後 實 際 在 數 位 遊 戲 中 應 用 的 可 行 性 將 會 大 大 的 提 昇 從 實 驗 結 果 也 可 以 看 出 ( 見 表 十 三 ), 應 用 增 強 式 學 習 技 術 於 數 位 遊 戲 NPCs 中 的 關 鍵 在 於 獎 懲 機 制 的 設 定, 獎 懲 值 的 高 低 直 接 影 響 到 增 強 式 學 習 的 效 果 與 效 率 設 定 不 當, 反 而 可 能 會 無 法 發 揮 效 果, 模 糊 獎 懲 的 機 制 可 以 讓 獎 懲 的 設 定 更 有 變 化, 同 時 也 改 善 了 傳 統 增 強 式 學 習 的 效 率, 當 增 強 式 學 習 效 率 改 善 後, 就 可 以 應 用 在 許 多 不 同 類 型 的 遊 戲 中, 讓 數 位 遊 戲 的 NPCs 更 聰 明, 行 為 更 人 性 化, 遊 戲 也 會 因 此 增 加 耐 玩 性 與 互 動 性 表 十 三 實 驗 結 果 表 ID E1 E2 1 58 29 2 52 28 3 54 24 4 59 25 5 55 26 6 52 32 7 56 27 8 54 28 9 47 30 10 59 23 mean 54.6 25.6667 success rate 0.56 0.67 E1: 固 定 獎 懲 E2: 模 糊 獎 懲 51
5.3 研 究 限 制 與 未 來 研 究 1. 研 究 限 制 : 本 研 究 所 受 到 的 限 制, 如 下 所 述 : 首 先, 因 為 數 位 遊 戲 有 太 多 種 類 型, 因 此 本 研 究 只 能 選 擇 其 中 一 種 來 做 實 驗, 並 且 結 果 無 法 一 般 化, 是 否 有 更 好 的 方 法 可 以 應 用 在 所 有 的 遊 戲 類 型 之 中 會 是 一 個 非 常 具 有 挑 戰 性 的 問 題 另 外 在 本 研 究 的 坦 克 對 戰 類 型 遊 戲 中, 為 了 瞭 解 增 強 式 學 習 技 術 與 模 糊 理 論 的 實 用 性, 本 論 文 簡 化 了 遊 戲 的 過 程, 讓 NPC 坦 克 的 目 標 只 是 移 動 到 玩 家 的 陣 地, 但 是 實 際 的 遊 戲 不 應 該 是 如 此 簡 單, 在 路 徑 中 或 許 會 有 一 些 可 以 增 益 的 道 具 或 是 不 同 的 機 關 讓 遊 戲 更 有 趣, 在 這 樣 的 情 形 下 就 需 要 有 更 多 的 因 素 加 入 在 獎 懲 機 制 之 中, 並 且 反 映 到 SARSA 演 算 法 中, 因 此 未 來 可 以 研 究 多 目 標 增 強 式 學 習 運 算 方 式 2. 未 來 研 究 I. 如 研 究 限 制 中 所 提 到, 如 果 除 了 懲 罰 因 素 ( 如 本 研 究 的 炸 彈 ) 加 入 了 獎 勵 因 素 ( 如 在 本 研 究 中 加 入 替 NPC 坦 克 抵 擋 玩 家 攻 擊 之 道 具 ), 會 有 更 複 雜 的 情 形 產 生, 在 這 樣 的 狀 態 下 該 如 何 應 用 增 強 式 學 習 是 一 個 值 得 研 究 的 議 題 II. 另 外, 現 在 的 數 位 遊 戲 常 常 是 可 以 多 人 進 行 的, 如 果 是 可 以 多 人 進 行 的 遊 戲, 那 NPCs 應 該 也 會 有 不 同 的 反 應, 同 時 如 果 是 線 上 即 時 的 遊 戲 時, 那 可 能 會 有 更 複 雜 的 情 形 產 生, 如 何 有 效 的 應 用 模 糊 增 強 式 學 習 在 這 些 複 雜 的 情 形 下 也 會 是 一 個 有 趣 的 議 題 III. 除 此 之 外 還 可 以 探 討 增 強 式 學 習 中 各 種 不 同 的 演 算 法 (q-learning 與 SARSA 等 ) 應 用 在 不 同 的 遊 戲 類 型 上 的 表 現 等, 在 這 其 中 仍 然 有 許 多 的 研 究 議 題 值 得 深 入 去 做 研 究 52
參 考 文 獻 中 文 : 1. 丁 一 賢 與 陳 牧 言 (1995) 資 料 探 勘 台 中 市 : 滄 海 書 局 2. 朱 敬 先 (2005) 幼 兒 教 育 台 北 市 : 五 南 出 版 社 3. 李 豐 良 (2006) 動 作 型 電 腦 遊 戲 設 計 因 素 探 討 國 立 交 通 大 學 工 業 工 程 與 管 理 所 博 士 論 文 新 竹 市 4. 陳 尤 中 (2006) 數 位 遊 戲 中 玩 家 介 入 遊 戲 的 分 類 國 立 交 通 大 學 資 訊 科 學 與 工 程 研 究 所 碩 士 論 文 新 竹 市 5. 陳 亭 光 (2008) 基 於 使 用 者 經 驗 之 多 準 則 評 分 遊 戲 推 薦 系 統 國 立 臺 灣 大 學 資 訊 管 理 所 碩 士 論 文 台 北 市 6. 斐 善 成 (2007) 應 用 強 化 式 學 習 建 構 模 糊 類 神 經 控 制 系 統 國 立 中 山 大 學 電 機 工 程 所 碩 士 論 文 高 雄 市 7. 曾 世 绮 (2007) 驗 證 遊 戲 吸 引 人 之 要 素 : 內 容 分 析 魔 獸 世 界 佛 光 大 學 資 訊 教 育 所 碩 士 論 文 宜 蘭 縣 8. 詹 姆 士 強 森 (2005) 幼 兒 遊 戲 - 以 0~8 歲 幼 兒 園 實 務 為 導 向 華 騰 文 化 譯 台 北 市 9. 蔡 淑 苓 (2004) 遊 戲 理 論 與 應 用 : 以 幼 兒 遊 戲 與 幼 兒 教 師 教 學 為 例 台 北 市 : 五 南 書 局 10. 簡 國 斌 (2010) 數 位 遊 戲 之 游 藝 功 能 要 素 分 析 國 立 臺 北 教 育 大 學 玩 具 與 遊 戲 設 計 所 碩 士 論 文 台 北 市 英 文 : 11. Aha, D. W., Molineaux, M. and Ponsen, M. (2003), Learning to Win: Case-Based Plan Selection in a Real-Time Strategy Game, In Proceedings of the Sixth International Conference on Case-Based Reasoning, Trondheim, Norway, June 23-26, pp. 5-20. 12. Buckland, M.(2005), Programming game AI by example, Jones & Bartlett Publishers, Sudbury MA. 13. Bianchi, R. A. C. and Ribeiro, C. H.C. and Costa, A. H. R.(2007), Heuristic selection of actions in multiagent reinforcement learning, In Proceedings of the 20th International Joint Conference on Artifical Intelligence, India,January 6-12, pp. 690-696. 53
14. Björnsson, Y., Hafsteinsson, V., Jóhannsson, A. and Jónsson, E.(2004), Efficient Use of Reinforcement Learning in A Computer Game, In Proceedings of the International Conference on Computer Games: Artificial Intelligence, Design and Education, University of Wolverhampton, UK, November8-10, pp.379-383. 15. Barber, H. and Kudenko, D. (2007), Adaptive Generation of Dilemma-based Interactive Narratives, Advanced Intelligent Paradigms in Computer Games in Book series of Studies of Computational Intelligence (71), Springer Berlin / Heidelberg, pp. 19-37. 16. Bourg, D. M. and Seemann, G.(2004), AI for Game Developers, O'Reilly Media, Cambridge, Massachusetts. 17. Charles, D.(2004), "Enhancing Gameplay: Challenges for Artificial Intelligence in Digital. Games", LNCS 3166, Springer Berlin / Heidelberg, pp.57-108. 18. Ghory, I.(2004), Reinforcement learning in board games., Technical Report of Department of Computer Science, University of Bristol, England, UK 19. Graepel, T. Herbrich, R. and Gold, J. (2004), Learning to fight, In Proceedings of the International Conference on Computer Games: Artificial Intelligence, Design and Education. University of Wolverhampton, UK, November8-10, pp.193-200. 20. Pieczy ski, A. and Obuchowicz, A.(2004), Application of the General Gaussian Membership Function for the Fuzzy Model Parameters Tunning, LNCS 3070, Springer Berlin / Heidelberg, pp.350-355. 21. Jin, X. H., Jang, D. H. and Kim, T.Y.(2008), Evolving Game NPCs Based on Concurrent Evolutionary Neural Networks, LNCS 5093, Springer Berlin / Heidelberg, pp. 230 239. 22. Livingstone D. & Charles D(2004), Intelligent Interfaces for Digital Games, Springer Berlin / Heidelberg LNCS 3166, pp.57-108. 23. McPartland, M. and Gallagher, M.(2008), Creating a Multi-Purpose First Person Shooter Bot with Reinforcement Learning, In Proceedings of Computational Intelligence and Games, Perth, Australia, December 15-18, pp. 143-150. 24. Ponson, M et al.(2006), Hierarchical Reinforcement Learning with Deictic, In Proceedings of the 18th Belgium-Netherlands Conference on Artificial Intelligence (BNAIC 2006), University of Namur, Belgium, October 5-6, pp. 251-258. 25. Ponson, M. and Spronck, P.(2004), Improving Adaptive game AI With Evolutionary Learning, In proceedings of 15 th International Conference on Computer Games: AI, 54
Animation, Mobile, Interactive Multimedia, Educational & Serious Games, University of Wolverhampton, UK. pp. 389-396 26. Russell, S. and Norvig, P.(2003), Artificial Intelligence A Modern Approach, Prentice Hall, New Jersey. 27. Sutton, R. S. and A. G. Barto (1998). Reinforcement Learning: An Introduction. MIT Press, Cambridge, MA. 28. Szita, I. and Lorincz, A.(2007), Learning to Play Using Low-Complexity Rule-Based Policies:Illustrations through Ms. Pac-Man, Journal of Artificial Intelligence Research (30), pp.659-684 29. Seo, H.(2000), A Fuzzy Reinforcement Function for the Intelligent Agent to process Vague Goals. In Proceedings of the 19th IEEE International Conference of the North American Fuzzy Information Processing Society, Atlanta, Georgia, Usa, July 13-15, pp.29-33. 30. Spronck, P., Ponsen, M., Sprinkhuizen-Kuyper, I., Postma, I. (2006), Adaptive game AI with dynamic scripting, Machine Learning (63), pp. 217 248 31. Wender, S. and Watson, I.(2008), Using Reinforcement Learning for City Site Selection in the Turn-Based Strategy Game Civilization IV, In proceedings of the International Conference on Computational Intelligence and Games, Perth, Australia, December 15-18, pp. 372-377. 32. Watkins, C. J. C. H. and P. Dayan (1992). Q-learning. Machine Learning (8), pp.279 292. 33. Zadeh, L.A. (1968). Fuzzy Algorithms". Information and Control 12 (2), pp. 94 102. 網 站 : 34. 台 灣 經 濟 研 究 院 (2008) 2010 年 6 月 全 球 消 費 性 電 子 產 品 業 產 業 研 究 報 告, 取 自 :http://www.tier.org.tw 35. 行 政 院 六 大 新 興 產 業 主 題 網 (2010) 文 化 創 意 產 業 2010 年 6 月 取 自 : http://www.ey.gov.tw/lp.asp?ctnode=3038&ctunit=1254&basedsd=7&mp=97 36. 杭 州 電 魂 (2010) 夢 三 國 2010 年 7 月 取 自 :http://www.m3guo.com 37. 資 策 會 資 訊 市 場 情 報 中 心 (2008) 台 灣 遊 戲 市 場 發 展 現 況 與 趨 勢 2010 年 6 月 取 自 :http://mic.iii.org.tw/aisp/ 38. Blizzard(2000), world editor of warcraft III, Retrieved May 20, 2009, from the World 55
Wide Web: http://classic.battle.net/war3/faq/worldeditor.shtml 39. Epstein, S. L.(1999), Games & Puzzles, Retrieved July 8, 2010, from the World Wide Web: http://www.aaai.org/aitopics/pmwiki/pmwiki.php/aitopics/games 40. Melenchuk, P.(2000), Reinforcement Learning, Retrieved 15 May 2009, from the World Wide Web: http://pages.cpsc.ucalgary.ca/~jacob/courses/winter2000/cpsc533/pages/cpsc-533-c ourseoutlein.html 41. Riot games (2009).League of Lengends. Retrieved July 8, 2010, from the World Wide Web: http://www.leagueoflegends.com 42. S2 games (2010). Heroes of newerth. Retrieved July 8, 2010, from the World Wide Web: http://www.heroesofnewerth.com 56