國立高雄大學數位論文典藏



Similar documents
I

國立中山大學學位論文典藏.PDF

MAXQ BA ( ) / 20

<4D F736F F D20BCFAA755AAA92DABC8AE61AAE1A5ACB2A3B77EB56FAE69A4A7ACE3A873A147A548B8EAB7BDB0F2C2A6AABAC65BC2492E646F63>

cgn

Microsoft Word - CMRO ??????????????? Luxiaoyan

致 谢 本 人 自 2008 年 6 月 从 上 海 外 国 语 大 学 毕 业 之 后, 于 2010 年 3 月 再 次 进 入 上 外, 非 常 有 幸 成 为 汉 语 国 际 教 育 专 业 的 研 究 生 回 顾 三 年 以 来 的 学 习 和 生 活, 顿 时 感 觉 这 段 时 间 也

Microsoft Word - 中三選科指南 2014 subject

Microsoft Word - 林文晟3.doc

南華大學數位論文

婴幼儿护理(四).doc

二零零六年一月二十三日會議

马太亨利完整圣经注释—雅歌

厨房小知识(四)

妇女更年期保健.doc

小儿传染病防治(上)

<4D F736F F D B875B9B5A448ADFBBADEB27AA740B77EA4E2A5555FA95EAED6A641ADD75F2E646F63>

女性青春期保健(下).doc

避孕知识(下).doc

孕妇饮食调养(下).doc

禽畜饲料配制技术(一).doc

中老年保健必读(十一).doc

怎样使孩子更加聪明健康(七).doc

i

(1) (2) (3) 1. (1) 2

096STUT DOC

第 三 期 前 言 近 年 來 由 於 資 訊 科 技 的 進 步 及 網 際 網 路 的 蓬 勃 發 展, 使 電 腦 遊 戲 不 再 僅 限 於 原 來 2D 或 基 本 3D 的 簡 易 表 現, 而 是 配 合 硬 體 演 算 技 術 與 遊 戲 儲 存 介 面, 朝 更

第三章 国内外小组合作学习的应用情况

Microsoft Word - 期末結案報告

Time Estimation of Occurrence of Diabetes-Related Cardiovascular Complications by Ching-Yuan Hu A thesis submitted in partial fulfillment of the requi

硕 士 学 位 论 文 论 文 题 目 : 北 岛 诗 歌 创 作 的 双 重 困 境 专 业 名 称 : 中 国 现 当 代 文 学 研 究 方 向 : 中 国 新 诗 研 究 论 文 作 者 : 奚 荣 荣 指 导 老 师 : 姜 玉 琴 2014 年 12 月

天主教永年高級中學綜合高中課程手冊目錄

兩岸青年人國際觀比較分析

黑面琵鷺2015

Practical Guide For Employment Of Foreign Domestic Helpers

~m~li~* ~ ± ~ 1Jz. IDfU Y:.. a~~.~.oor.~~b~.~fi~~p A Study of Developing a Mobile APP for Supporting the Chinese Medicine Pulse Diagnosis Based on Pul

Shanghai International Studies University A STUDY ON SYNERGY BUYING PRACTICE IN ABC COMPANY A Thesis Submitted to the Graduate School and MBA Center I

行政院國家科學委員會專題研究計畫成果報告

國家圖書館典藏電子全文

高層辦公建築避難演練驗證與避難安全評估之研究

50% SWEET 甜 蜜 五 分 仔 - 橋 頭 糖 廠 紀 念 商 品 開 發 設 計 之 研 究 50% SWEET - The Study on the Development and Design of Souvenirs of Qiao Tou Sugar Plant 研 究 生 : 陳

國家圖書館典藏電子全文


untitled

E I

Microsoft Word - 論文封面 修.doc

第16卷 第2期 邯郸学院学报 年6月

六 到 八 歲 兒 童, 設 計 並 發 展 一 套 以 van Hiele 幾 何 思 考 層 次 理 論 為 基 礎 的 悅 趣 化 學 習 數 位 教 材, 取 名 為 米 德 玩 形 狀, 同 時 探 討 低 年 級 學 童 在 使 用 本 數 位 教 材 之 後, 在 平 面 幾 何 的

南華大學數位論文

場 的 職 能 需 求 狀 況, 並 能 有 一 套 職 能 管 理 資 訊 系 統 對 各 職 位 進 行 職 能 資 料 管 理 分 析 與 應 用 資 料, 則 對 企 業 人 力 應 用 與 提 昇 上 均 有 極 大 之 助 益, 故 本 研 究 之 主 要 目 的 有 二 : (1) 職

穨series019-IA.PDF

(Chi)_.indb

14A 0.1%5% 14A 14A

Improving the Effectiveness of the Training of Civil Service by Applying Learning Science and Technology: The Case Study of the National Academy of Ci

穨_2_.PDF

女性减肥健身(四).doc

「香港中學文言文課程的設計與教學」單元設計範本

第一章緒論

考試學刊第10期-內文.indd

72075(BOC A Share)_入cover同back cover.indb

Microsoft Word - 01李惠玲ok.doc

Microsoft Word - A doc

國立中山大學學位論文典藏.PDF

; ; ; ()1978~1985 : 1978~1985 : ( ) : % 73.9% 176.4% 87.8% 2.97 [1] 15.5% 1978~ % 14.8%

IP TCP/IP PC OS µclinux MPEG4 Blackfin DSP MPEG4 IP UDP Winsock I/O DirectShow Filter DirectShow MPEG4 µclinux TCP/IP IP COM, DirectShow I

2. 佔 中 對 香 港 帶 來 以 下 影 響 : 正 面 影 響 - 喚 起 市 民 對 人 權 及 ( 專 制 ) 管 治 的 關 注 和 討 論 o 香 港 市 民 總 不 能 一 味 認 命, 接 受 以 後 受 制 於 中 央, 沒 有 機 會 選 出 心 中 的 理 想 特 首 o 一

南華大學數位論文

Microsoft Word - 完整論文.docx

46 數 學 傳 播 26 卷 3 期 民 91 年 9 月 表 演, 有 些 賭 場 還 每 小 時 發 遊 客 1 美 元, 可 連 發 7 小 時 一 個 目 的, 都 是 吸 引 遊 客 流 連 忘 返, 持 續 地 賭 開 賭 場 當 然 是 為 了 賺 錢, 利 用 機 率 來 設 計

全唐诗28

Microsoft Word - 口試本封面.doc

項 訴 求 在 考 慮 到 整 體 的 財 政 承 擔 以 及 資 源 分 配 的 公 平 性 下, 政 府 採 取 了 較 簡 單 直 接 的 一 次 性 減 稅 和 增 加 免 稅 額 方 式, 以 回 應 中 產 家 庭 的 不 同 訴 求 ( 三 ) 取 消 外 傭 徵 費 6. 行 政 長

(f) (g) (h) (ii) (iii) (a) (b) (c) (d) 208

Microsoft Word - 08 单元一儿童文学理论

untitled

第三章

nb.PDF

bnbqw.PDF

南華大學數位論文

Microsoft Word 一年級散文教案.doc

米食天地教案

1. 本文首段的主要作用是 A. 指出 異蛇 的藥用功效 說明 永之人爭奔走焉 的原因 B. 突出 異蛇 的毒性 為下文 幾死者數矣 作鋪墊 C. 交代以蛇賦稅的背景 引起下文蔣氏有關捕蛇的敘述 2. 本文首段從三方面突出蛇的 異 下列哪一項不屬其中之一 A. 顏色之異 B. 動作之異 C. 毒性之

Transcription:

國 立 高 雄 大 學 資 訊 管 理 學 系 ( 研 究 所 ) 碩 士 論 文 應 用 模 糊 增 強 式 學 習 技 術 於 數 位 遊 戲 之 研 究 Applying Fuzzy Reinforcement Learning in Digital Games 研 究 生 : 方 永 平 撰 指 導 教 授 : 丁 一 賢 博 士 中 華 民 國 99年 7月

誌 謝 碩 士 班 兩 年 的 時 間 過 得 很 快, 在 這 兩 年 間 我 學 到 很 多 事 情, 也 失 去 很 多 東 西, 我 覺 得 這 兩 年 是 我 人 生 轉 變 最 大 的 時 期, 面 臨 了 許 多 困 擾 自 己 的 問 題, 也 因 此 改 變 我 面 對 事 情 的 態 度, 並 且 在 這 段 時 間 找 到 了 我 的 人 生 目 標 與 努 力 的 方 向 在 這 段 時 間 中, 最 想 感 謝 的 是 我 的 指 導 教 授 丁 一 賢 老 師, 從 我 一 開 始 完 全 不 知 道 要 做 什 麼, 慢 慢 的 引 導 我 找 到 研 究 的 方 向, 最 終 寫 出 論 文, 過 程 中 我 有 許 多 時 候 都 想 要 放 棄, 但 是 老 師 總 是 及 時 的 拉 我 一 把, 讓 我 可 以 完 成 我 的 學 業, 在 此 我 想 由 衷 的 感 謝 老 師, 謝 謝 您 此 外 我 也 要 感 謝 所 有 幫 助 過 我 的 同 學 學 長 姐 學 弟 妹 以 及 朋 友 們 阿 晟 科 科 瑋 哥 譬 司 哥 大 卜 大 蘇 兄, 我 很 開 心 可 以 在 求 學 的 過 程 認 識 你 們, 當 我 有 什 麼 困 難 時 你 們 都 不 吝 給 予 幫 助, 希 望 在 往 後 的 人 生 路 途 中, 我 們 還 可 以 互 相 扶 持 努 力 也 特 別 感 謝 綠 茶 與 阿 珊, 在 我 口 試 當 天 忙 得 不 可 開 交 時 伸 出 援 手, 讓 口 試 可 以 順 利 進 行, 謝 謝 你 們 而 最 感 謝 的 朋 友 則 是 我 的 戰 友 們, 小 狗 小 朱 書 賓 子 勛 思 齊 肥 與 J-Pow 的 各 位, 在 我 人 生 最 痛 苦 難 熬 的 階 段, 有 你 們 的 嘴 砲 與 陪 伴, 讓 我 每 天 都 過 得 很 開 心, 也 才 能 專 心 的 面 對 許 多 生 活 上 的 問 題, 也 許 大 家 都 因 為 工 作 而 慢 慢 疏 遠, 但 我 知 道 這 份 友 誼 是 不 會 因 此 被 忽 略 的, 你 們 永 遠 是 我 最 重 要 的 朋 友 最 後 則 是 要 感 謝 我 的 家 人, 父 母 親 與 哥 哥, 雖 然 每 次 事 情 很 多 而 讓 我 心 情 不 好 時, 對 你 們 的 態 度 都 很 不 好, 但 是 你 們 還 是 包 容 我, 為 我 打 理 一 切, 給 予 我 家 庭 的 溫 暖, 鼓 勵 支 持 我 讓 我 可 以 無 後 顧 之 憂 的 完 成 學 業, 這 份 親 情 是 我 可 以 勇 敢 面 對 人 生 的 最 大 原 因 最 後 再 次 感 謝 所 有 老 師 朋 友 與 家 人, 沒 有 你 們 的 幫 忙, 我 無 法 完 成 學 業 與 這 篇 論 文, 謝 謝! 方 永 平 僅 誌 於 國 立 高 雄 大 學 資 訊 管 理 學 系 中 華 民 國 九 十 九 年 七 月 I

摘 要 遊 戲 是 人 類 生 活 上 不 可 或 缺 的 一 項 活 動, 近 年 來 科 技 的 蓬 勃 發 展 也 帶 起 了 數 位 遊 戲 產 業 的 龐 大 市 場, 數 位 遊 戲 會 吸 引 人 的 原 因 除 了 其 聲 光 效 果 之 外, 遊 戲 中 玩 家 與 非 玩 家 角 色 的 互 動 也 是 一 個 非 常 重 要 的 因 素, 為 遊 戲 中 的 非 玩 家 角 色 加 入 人 工 智 慧 技 術 可 以 讓 這 些 非 玩 家 角 色 具 有 人 類 的 思 考 能 力, 也 因 此 可 以 讓 遊 戲 與 玩 家 的 互 動 性 更 佳 數 位 遊 戲 中 的 環 境 是 不 斷 在 改 變 的, 因 此 要 為 非 玩 家 角 色 加 入 人 工 智 慧 通 常 會 是 一 個 具 有 挑 戰 性 的 問 題 在 本 研 究 中 要 將 增 強 式 學 習 技 術 應 用 在 數 位 遊 戲 的 非 玩 家 角 色 中, 增 強 式 學 習 技 術 是 一 種 非 監 督 式 的 學 習 方 式, 通 常 用 於 機 械 的 自 動 化 學 習 過 程 中, 增 強 式 學 習 技 術 是 一 個 不 斷 的 試 誤 的 學 習 過 程, 並 且 代 理 人 會 藉 由 去 探 索 新 環 境 來 改 變 其 行 為, 是 一 種 適 用 於 未 知 環 境 下 的 學 習 方 法 要 將 增 強 式 學 習 技 術 應 用 在 數 位 遊 戲 的 非 玩 家 角 色 中, 其 中 最 大 的 困 難 就 在 於 增 強 式 學 習 必 須 要 經 過 一 段 很 久 的 時 間 去 試 誤 學 習, 因 此 本 研 究 利 用 模 糊 理 論 去 改 善 傳 統 增 強 式 學 習 的 效 率, 在 實 驗 的 過 程 中, 成 功 的 用 模 糊 獎 懲 取 代 固 定 獎 懲, 讓 學 習 的 速 度 加 快, 從 實 驗 結 果 中 也 可 以 看 出 獎 懲 機 制 對 於 增 強 式 學 習 結 果 的 好 壞 有 很 大 的 影 響, 不 同 類 型 的 遊 戲 會 需 要 不 同 的 獎 懲 設 定, 找 到 適 合 的 獎 懲 機 制 就 能 讓 數 位 遊 戲 實 際 應 用 的 可 能 性 提 高 關 鍵 字 : 數 位 遊 戲 遊 戲 人 工 智 慧 增 強 式 學 習 模 糊 理 論 II

Abstract Game is one of the indispensable activities for humanity lives. In recent years, the development of technology also brought huge market to game industry. One of the appealing reasons in game is that the player can interact with the non-player-characters in game. Artificial intelligence is very important for these non-player-characters due to Artificial intelligence can let non-player-characters have more interactions with players. The environment in digital games is changing continuously, so it is a challenge to add artificial intelligence in non-player-characters. In this research, we would like to use reinforcement learning in non-player-characters artificial intelligence. Reinforcement learning is a un-supervise learning method, and it is usually used in automatic machine learning process. Reinforcement learning is a trial-and-error process, and the agent will change his actions by exploring the new environment. The most difficult to apply Reinforcement learning in digital games is that the method requires a long learning time. In this research, we use fuzzy theory to increase the learning efficiency. The results of this research experiment also prove the improvement of learning efficiency through using fuzzy reward to replace fixed reward. Different types of game need different settings of reward. In practice, the probability to apply reinforcement learning in digital games can be enhanced once the suitable reward mechanism has been found out. key word:digital games artificial intelligence for games reinforcement learning fuzzy theory III

論 文 目 錄 第 1 章 緒 論... 1 1.1 背 景... 1 1.2 動 機 與 目 的... 6 1.3 研 究 假 設... 7 1.4 研 究 流 程 與 論 文 架 構... 8 第 2 章 文 獻 探 討... 11 2.1 數 位 遊 戲... 11 2.2 遊 戲 人 工 智 慧... 13 2.3 增 強 式 學 習... 15 2.4 本 章 小 結... 19 第 3 章 模 糊 增 強 式 學 習... 20 3.1 傳 統 增 強 式 學 習 的 缺 點... 20 3.2 應 用 模 糊 理 論 於 增 強 式 學 習 之 中... 22 3.3 模 糊 增 強 式 學 習 之 運 算... 23 第 4 章 實 驗 設 計 與 實 驗 結 果... 25 4.1 實 驗 設 計... 25 4.2 實 驗 環 境 與 遊 戲 設 計... 27 4.4 前 導 實 驗... 28 4.5 實 驗 結 果... 38 4.6 遊 戲 呈 現 與 遊 戲 結 果... 40 4.7 如 何 實 際 應 用 模 糊 增 強 式 學 習... 45 4.8 本 章 小 結... 48 第 5 章 結 論... 49 5.1 摘 要... 49 5.2 結 論... 50 5.3 研 究 限 制 與 未 來 研 究... 52 IV

圖 目 錄 圖 一 全 球 遊 戲 市 場 產 值 圖...2 圖 二 增 強 式 學 習 示 意 圖...5 圖 三 坦 克 大 戰 遊 戲 畫 面 圖...6 圖 四 研 究 流 程 圖...9 圖 五 增 強 式 學 習 示 意 圖...15 圖 六 黑 與 白 遊 戲 畫 面...18 圖 七 實 驗 架 構 圖...25 圖 八 遊 戲 概 念 圖...27 圖 九 前 導 實 驗 圖...28 圖 十 增 強 式 學 習 失 敗 圖...31 圖 十 一 三 角 隸 屬 函 數 圖...32 圖 十 二 前 導 實 驗 結 果 圖...33 圖 十 三 高 斯 隸 屬 函 數 圖...35 圖 十 四 模 糊 隸 屬 函 數 圖 (s 不 同 )...36 圖 十 五 模 糊 隸 屬 函 數 圖 (m 不 同 )...37 圖 十 六 模 糊 函 數 實 驗 結 果 圖...38 圖 十 七 遊 戲 編 輯 器...40 圖 十 八 戰 網 示 意 圖...41 圖 十 九 遊 戲 畫 面 圖...42 圖 二 十 遊 戲 進 行 流 程 圖...43 圖 二 十 一 實 驗 環 境 改 變 坦 克 學 習 圖...50 V

表 目 錄 表 一 遊 戲 分 類 表...2 表 二 國 內 遊 戲 相 關 議 題 一 覽 表...11 表 三 遊 戲 人 工 智 慧 方 法 比 較...14 表 四 獎 懲 函 數...24 表 五 模 糊 獎 懲 函 數...24 表 六 坦 克 移 動 策 略 表...29 表 七 獎 懲 函 數...30 表 八 失 敗 的 獎 懲 函 數...30 表 九 危 險 變 數 例 子...32 表 十 模 糊 獎 懲 函 數...33 表 十 一 實 驗 結 果 數 據...34 表 十 二 成 功 次 數 表...34 表 十 三 實 驗 結 果 表...51 VI

1.1 背 景 第 1 章 緒 論 遊 戲 是 人 類 社 會 中 深 受 喜 愛 的 一 種 活 動, 自 古 以 來 人 類 一 直 將 遊 戲 視 為 一 項 重 要 娛 樂 項 目, 蔡 淑 苓 (2004) 在 遊 戲 理 論 與 應 用 : 以 幼 兒 遊 戲 與 幼 兒 教 師 教 學 為 例 一 書 中 提 到, 遊 戲 是 非 常 古 老 且 普 遍 的 人 類 活 動 行 為, 並 且 受 到 中 今 中 外 的 哲 學 家 與 教 育 學 家 所 重 視, 不 論 是 幼 兒 時 期 或 是 學 生 時 期, 遊 戲 都 扮 演 著 成 人 活 動 的 一 種 練 習 準 備, 在 遊 戲 中 學 習 成 長 讓 人 格 更 具 完 善 長 久 發 展 以 來, 遊 戲 不 再 是 只 有 幼 年 時 期 所 需 求, 有 更 多 各 種 不 同 的 類 型 的 遊 戲 來 滿 足 不 同 年 齡 層 的 需 求, 如 團 康 遊 戲 桌 上 型 紙 牌 遊 戲 數 位 遊 戲 等 等 總 而 言 之, 不 論 是 什 麼 類 型 的 遊 戲, 都 是 一 種 吸 引 人 且 重 要 的 人 類 行 為 表 現 遊 戲 吸 引 人 的 原 因 有 很 多, 其 中 有 學 者 認 為 是 因 為 遊 戲 可 以 達 到 放 鬆 與 休 閒 的 原 因 (Epstein,1999), 另 外 有 一 個 很 大 的 原 因 是 因 為 透 過 遊 戲 可 以 與 人 互 動 交 流 競 賽, 藉 由 遊 戲 的 過 程 與 同 好 交 流 溝 通, 達 到 舒 解 壓 力 與 取 得 娛 樂 感 由 遊 戲 的 本 質 來 看, 遊 戲 的 過 程 代 表 著 一 種 邏 輯 思 考 的 過 程, 通 常 可 以 將 遊 戲 求 勝 的 過 程 公 式 化 成 難 解 的 數 學 邏 輯 問 題, 因 此 如 果 解 開 遊 戲 中 的 各 種 問 題, 就 代 表 著 解 開 了 一 些 數 學 邏 輯 上 的 問 題, 也 因 此 越 來 越 多 的 許 多 學 者 在 研 究 遊 戲 相 關 的 議 題 近 年 來 由 於 科 技 的 蓬 勃 發 展, 數 位 遊 戲 (digital games) 也 成 為 人 類 生 活 中 一 個 很 重 要 的 娛 樂 項 目, 數 位 遊 戲 以 遊 戲 平 台 來 分 的 話, 大 致 可 以 分 成 電 視 遊 戲 (TV game) 電 腦 遊 戲 (PC game) 手 機 遊 戲 (Mobile game) 等 三 種, 若 以 遊 戲 型 態 來 分, 則 可 以 分 成 單 機 或 線 上 兩 種 遊 戲 型 態 目 前 而 言, 以 線 上 遊 戲 為 大 宗 根 據 資 策 會 資 訊 市 場 情 報 中 心 ( MIC ) 預 估 (2008), 台 灣 線 上 遊 戲 市 場 規 模 在 2008 年 將 超 過 新 台 幣 100 億 元, 且 每 年 仍 將 維 持 8 至 9% 的 成 長 率, 且 預 估 在 2010 年 時 規 模 將 可 達 到 120 億 元 左 右 就 全 球 市 場 而 言, 台 灣 經 濟 研 究 院 產 經 資 料 庫 研 究 (2008年 12 月 ) 指 出 ( 圖 一 ), 全 球 的 線 上 遊 戲 產 值 高 達 54.11 億 美 金, 並 逐 年 上 升 中, 又 以 中 國 地 區 成 長 最 大 行 政 院 (2009) 也 視 數 位 內 容 產 業 為 文 化 產 業 中 的 一 塊 重 要 拼 圖, 為 近 年 來 非 常 重 視 的 一 個 產 業 方 1

圖 一 全 球 遊 戲 市 場 產 值 圖 ( 資 料 來 源 : 台 灣 經 濟 研 究 院 產 經 資 料 庫, 2008年 12 月 ) 數 位 遊 戲 可 以 除 了 帶 來 許 多 感 官 的 刺 激, 也 讓 遊 戲 更 具 多 樣 性, 每 一 種 不 同 的 遊 戲 類 型 都 有 不 同 的 玩 家 所 喜 好, 遊 戲 公 司 為 了 迎 合 玩 家 的 胃 口, 同 時 也 創 造 出 許 多 不 同 的 數 位 遊 戲 類 型 若 要 以 遊 戲 內 容 來 做 分 類 的 話,Aha等 學 者 在 2005年 將 數 位 遊 戲 簡 單 的 分 類 為 冒 險 遊 戲 (adventure) 即 時 戰 略 遊 戲 (real-time strategy) 團 隊 運 動 遊 戲 (team sports) 等 七 種 類 型, 如 表 一 所 示 表 一 遊 戲 分 類 表 ( 資 料 來 源 :Aha,2005) 類 別 代 表 遊 戲 描 述 桌 上 型 西 洋 棋 象 棋 五 子 棋 等 棋 類 或 牌 類 通 常 為 n*n的 地 圖 冒 險 猴 島 小 英 雄 解 題 類 型 團 隊 運 動 足 球 遊 戲 籃 球 遊 戲 等 即 時 或 多 人 合 作 經 營 模 擬 城 市 城 市 或 團 隊 管 理 角 色 扮 演 太 空 侵 略 者 即 時 單 人 角 色 回 合 式 文 明 帝 國 回 合 基 礎 遊 戲 即 時 戰 略 魔 獸 爭 霸 即 時 經 營 2

數 位 遊 戲 吸 引 人 的 因 素 除 了 聲 光 效 果 之 外, 最 主 要 的 原 因 還 是 玩 家 可 以 在 遊 戲 互 動 中 得 到 娛 樂 的 效 果, 通 常 稱 這 些 在 遊 戲 中 與 玩 家 互 動 的 非 玩 家 角 色 為 NPCs(non-player characters), NPCs可 以 是 玩 家 的 敵 人 或 朋 友, 但 是 不 管 如 何, 要 是 這 些 NPCs 反 應 不 合 理, 或 是 單 調 無 趣, 玩 家 因 此 失 去 耐 心, 玩 過 一 兩 次 之 後 就 不 會 有 新 鮮 感, 甚 至 會 成 為 一 個 公 式 化 的 行 為, 也 就 會 讓 遊 戲 失 去 遊 戲 性, 如 早 期 任 天 堂 公 司 於 1985 年 發 行 的 著 名 的 遊 戲 瑪 俐 歐 ( 日 文 :マリオ; 英 文 : Mario; 或 中 文 譯 : 馬 力 歐 瑪 莉 瑪 俐 歐 等 等 ), 遊 戲 中 的 怪 物 (NPCs) 行 動 模 式 是 不 變 的, 當 玩 家 玩 過 多 次 以 後 就 會 知 道 要 如 何 閃 避 敵 人, 久 而 久 之 就 會 開 始 覺 得 厭 倦, 進 而 對 這 款 遊 戲 不 感 興 趣 許 多 研 究 因 此 就 會 想 為 這 些 NPCs 建 置 人 工 智 慧, 讓 NPCs具 備 自 行 思 考 的 能 力, 也 就 是 說 讓 NPCs會 根 據 玩 家 的 行 為 做 出 一 些 合 理 的 反 應, 當 玩 家 與 NPCs產 生 互 動 時, NPCs就 會 有 更 人 性 化 的 表 現, 增 加 遊 戲 的 樂 趣 與 耐 玩 性 早 期 的 遊 戲 人 工 智 慧 研 究 大 部 份 致 力 於 桌 上 型 遊 戲 (board game) 上, 例 如 研 發 可 以 與 玩 家 對 戰 的 西 洋 棋 或 象 棋 的 NPCs 等, 這 樣 的 人 工 智 慧 發 展 的 結 果 是 為 了 挑 戰 人 類, 如 IBM 的 深 藍 (Deep Blue), 可 以 打 敗 世 界 西 洋 棋 的 冠 軍, 因 此 追 求 的 是 可 以 和 玩 家 有 同 等 級 的 思 考 能 力, 追 求 的 是 一 種 且 完 美 不 會 失 敗 的 人 工 智 慧 (Ghory,2004) 但 在 目 前 數 位 遊 戲 中 的 人 工 智 慧 大 部 份 尋 求 的 並 非 永 遠 無 法 擊 敗 的 人 工 智 慧, 而 是 想 讓 NPCs 具 有 人 類 思 考 模 式 的 行 為 (Livingstone,2004), 因 此 玩 家 才 可 以 與 其 互 動, 從 中 得 到 樂 趣, 如 果 一 個 無 法 擊 敗 的 NPCs 反 而 會 讓 玩 家 失 去 信 心, 使 玩 家 覺 得 遊 戲 太 過 困 難 且 不 有 趣, 數 位 遊 戲 需 要 的 是 有 能 夠 適 應 環 境, 能 與 玩 家 之 互 動 的 人 工 智 慧, 因 此 本 研 究 想 要 建 置 在 NPCs 上 的 人 工 智 慧 是 一 種 可 以 依 據 目 前 狀 態 而 改 變 的 學 習 模 式, 玩 家 在 遊 戲 中 改 變 不 同 的 玩 法 時,NPCs 也 會 做 出 相 對 應 的 對 策 3

數 位 遊 戲 的 人 工 智 慧 都 在 早 期 都 是 以 規 則 基 礎 (rule-based) 的 方 式 來 建 置 (Bourg, 2004), 例 如 以 第 一 人 稱 射 擊 遊 戲 來 做 例 子, 當 玩 家 走 到 NPCs一 定 範 圍 時, NPCs 就 會 開 槍 反 擊, 像 這 樣 一 條 一 條 的 規 則 去 定 下 所 有 NPCs會 做 出 的 行 為, 因 此 要 寫 出 一 個 非 常 人 性 化 的 NPCs 人 工 智 慧, 可 能 需 要 上 萬 行 的 程 式 碼, 在 某 些 情 況 下, 玩 家 可 能 會 覺 得 NPCs 的 行 為 是 不 合 理 的 (Spronck 等 人,2006), 這 樣 的 人 工 智 慧 也 就 被 稱 為 弱 的 人 工 智 慧 (weak AI) 強 的 遊 戲 人 工 智 慧 (strong AI) 如 基 因 演 算 法 或 類 神 經 網 路 等 (Buckland,2005), 可 以 讓 NPCs做 出 更 多 合 理 化 的 行 為, 但 是 大 部 份 這 類 型 的 方 法 都 需 要 在 環 境 已 經 給 定 的 基 礎 之 下, 並 無 法 在 一 個 未 知 的 環 境 下 使 用, 但 是 遊 戲 的 環 境 卻 常 常 在 改 變, 對 NPCs 來 說, 玩 家 不 同 的 行 為 讓 遊 戲 環 境 變 得 不 可 預 測, 如 果 要 讓 NPCs 能 夠 隨 環 境 改 變 而 跟 著 做 出 反 應, 需 要 能 夠 在 未 知 環 境 下 運 行 的 演 算 法, 因 此 在 眾 多 的 人 工 智 慧 技 術 中, 增 強 式 學 習 可 說 是 最 適 合 NPCs 的 一 種 (Szita,2007) 增 強 式 學 習 (reinforcement learning) 為 一 種 非 監 督 式 學 習 (unsupervised learning), 所 謂 的 非 監 督 式 學 習 是 一 種 機 器 學 習 方 式, 非 監 督 式 學 習 法 則 的 特 色 是 在 訓 練 過 程 只 需 提 供 輸 入 資 料, 而 期 望 的 輸 出 理 想 值 卻 不 需 要 設 定, 代 理 人 會 自 去 學 習 調 整 (Sutton and Barto 1998) 增 強 式 學 習 通 常 用 在 未 知 的 環 境 之 下, 利 用 試 誤 (trial-and-error) 與 延 遲 獎 懲 (delay reward) 的 機 制, 不 斷 的 去 探 索 環 境 來 找 到 最 佳 解, 其 學 習 的 流 程 如 圖 二, 增 強 式 學 習 通 常 包 含 兩 個 角 色, 環 境 (environment) 代 表 需 要 解 決 問 題 的 所 有 外 在 因 子, 而 代 理 人 (agent) 則 負 責 與 環 境 互 動 學 習, 代 理 人 所 做 出 的 行 動 (action) 會 改 變 整 體 環 境 的 狀 態 (state), 在 不 同 的 狀 態 下 代 理 人 會 依 照 獎 懲 (reward) 去 做 出 應 對 的 行 動, 在 多 次 學 習 過 程 中 學 習 到 最 佳 策 略 的 方 法 (Sutton and Barto,1998) 4

圖 二 中 的 t 代 表 時 間,st 代 表 目 前 時 間 點 的 狀 態,st+1 代 表 下 一 時 間 點 的 狀 態, rt 代 表 目 前 時 間 點 的 獎 懲 值,rt+1 代 表 下 一 時 間 點 的 獎 懲 值, 本 示 意 圖 將 會 在 本 論 文 的 2.3 節 之 中 詳 細 介 紹 通 常 將 增 強 式 學 習 公 式 化 成 馬 可 決 策 過 程 (Markov decision process ) 問 題 增 強 式 學 習 的 精 神 為 如 同 人 類 小 時 候 試 誤 學 習 時 的 過 程, 利 用 過 去 的 經 驗 來 做 判 斷, 進 而 達 到 學 習 的 效 果 圖 二 增 強 式 學 習 示 意 圖 t: 時 間 當 遊 戲 中 NPCs加 入 增 強 式 學 習 的 人 工 智 慧 技 術 後, 就 可 藉 由 一 次 又 一 次 與 玩 家 互 動 經 驗 中, 瞭 解 玩 家 的 習 性, 藉 此 學 習 到 如 何 反 應 玩 家 的 行 為, 增 強 式 學 習 同 時 是 一 種 漸 進 式 的 學 習, 不 會 讓 遊 戲 初 始 的 難 度 太 高, 玩 家 也 不 會 感 到 太 大 壓 力, 進 而 提 高 遊 戲 的 吸 引 力 5

1.2 動 機 與 目 的 由 前 一 節 的 研 究 背 景 中 提 到, 數 位 遊 戲 中 NPCs 的 人 工 智 慧 是 遊 戲 非 常 重 要 的 一 環, 有 好 的 人 工 智 慧 技 術 就 可 以 讓 遊 戲 與 玩 家 更 具 互 動 性, 本 研 究 期 待 將 增 強 式 學 習 技 術 加 入 數 位 遊 戲 的 人 工 智 慧 中, 讓 NPCs 可 以 藉 由 經 驗 來 學 習, 並 做 出 應 對 的 行 動 NPCs的 行 動 路 線 在 遊 戲 中 是 一 個 很 重 要 的 因 素, 在 許 多 類 型 的 遊 戲 中, NPCs都 必 須 要 藉 由 移 動 路 徑 來 跟 玩 家 互 動, 如 : 戰 略 型 遊 戲, 不 論 是 回 合 制 或 是 即 時 制, NPCs 都 要 藉 由 接 近 或 遠 離 玩 家 來 達 成 他 的 目 標 ( 攻 擊 或 逃 跑 ); 第 一 人 稱 射 擊 遊 戲 中, NPCs 也 要 有 避 開 玩 家 攻 擊 與 利 用 阻 礙 物 的 能 力, 藉 由 不 同 的 路 線 移 動 來 達 到 他 的 目 標 ; 角 色 扮 演 類 型 遊 戲 的 NPCs 如 果 只 會 在 地 圖 上 隨 機 亂 走, 玩 家 也 會 因 此 感 到 無 趣 能 夠 讓 NPCs 有 聰 明 的 行 動 路 線, 對 於 遊 戲 來 說 是 一 個 非 常 重 要 因 素, 並 且 可 以 應 用 到 許 多 類 型 的 遊 戲 上 本 研 究 將 以 坦 克 類 型 遊 戲 來 做 實 驗, 坦 克 類 型 遊 戲 是 一 個 傳 統 的 射 擊 遊 戲 類 型, 最 早 為 發 表 於 1985 年 任 天 堂 主 機 上 的 遊 戲 ( 圖 三 ) 圖 三 坦 克 大 戰 遊 戲 畫 面 圖 ( 資 料 來 源 :http://zh.wikipedia.org/ 遊 戲 製 作 發 行 : 南 宮 夢, 1985) 在 遊 戲 中 玩 家 需 要 控 制 玩 家 坦 克 去 對 抗 電 腦 的 坦 克 (NPCs), 在 射 擊 類 型 遊 戲 中, 往 往 會 有 許 多 危 險 區 塊 或 路 線, 如 果 可 以 定 義 其 危 險 的 程 度, 當 連 續 多 次 走 到 特 定 的 危 險 區 塊 時 就 提 高 該 地 區 的 危 險 程 度, 讓 NPCs 快 速 的 理 解 到 該 地 區 是 非 常 危 險 的, 不 6

NPCs學 習 時 間, 讓 NPCs行 動 表 現 的 更 具 智 慧, 所 以 本 研 究 將 利 用 模 糊 函 數 來 表 示 危 險 程 度, 讓 NPCs 可 以 利 用 快 速 的 學 習 與 反 應, 同 時 利 用 模 糊 函 數 的 定 義, 也 可 以 控 制 NPCs 學 習 的 速 度, 讓 遊 戲 具 有 難 度 調 整 的 功 能, 讓 玩 家 依 自 己 程 度 來 調 整 或 挑 戰, 增 加 遊 戲 的 耐 玩 性 總 而 言 之, 本 研 究 的 動 機 希 望 能 夠 將 增 強 式 學 習 應 用 在 數 位 遊 戲 NPCs的 人 工 智 慧 中, 並 且 改 善 其 效 率, 具 體 而 言 本 研 究 的 目 的 為 : I. 應 用 增 強 式 學 習 技 術 於 數 位 遊 戲 的 NPCs之 中 本 研 究 將 利 用 遊 戲 編 輯 器 製 作 出 坦 克 對 戰 類 型 的 遊 戲 環 境, 並 在 遊 戲 中 加 入 增 強 式 學 習 機 制 的 NPCs, 並 探 討 其 成 效 II. 利 用 模 糊 理 論 提 昇 增 強 式 學 習 效 率 將 模 糊 邏 輯 理 論 應 用 在 改 善 增 強 式 學 習 的 效 率 上, 並 且 期 望 能 夠 利 用 模 糊 邏 輯 理 論 來 達 成 數 位 遊 戲 調 整 難 度 的 機 制 1.3 研 究 假 設 根 據 之 前 的 探 討, 本 研 究 提 出 以 下 幾 點 的 研 究 假 設 : I. 本 研 究 假 設 在 傳 統 數 位 遊 戲 中 加 入 增 強 式 學 習 技 術 可 以 讓 遊 戲 中 的 NPCs具 有 學 習 的 能 力, 會 依 據 玩 家 不 同 的 行 為 來 做 出 不 同 的 反 應, 並 可 適 應 遊 戲 環 境 的 改 變 進 行 調 整 II. 本 研 究 假 設 在 傳 統 的 增 強 式 學 習 技 術 中 加 入 模 糊 理 論 可 以 提 高 其 學 習 效 率 7

1.4 研 究 流 程 與 論 文 架 構 本 研 究 流 程 如 圖 四 本 論 文 想 要 將 增 強 式 學 習 應 用 在 遊 戲 之 中, 並 且 改 善 它 的 效 率, 因 此 研 究 的 流 程 為 : 1. 首 先 在 背 景 與 動 機 下 界 定 研 究 範 圍 2. 在 界 定 的 研 究 範 圍 中, 進 行 相 關 文 獻 的 蒐 集, 並 針 對 所 得 的 文 獻 的 探 討, 文 獻 共 分 成 遊 戲 遊 戲 人 工 智 慧 與 增 強 式 學 習 的 文 獻 三 部 份 3. 從 文 獻 探 討 中 確 定 本 研 究 目 標 4. 用 實 驗 來 印 證 研 究 假 設, 實 驗 共 分 成 兩 部 份 為 前 導 實 驗 與 遊 戲 實 驗, 實 驗 的 內 容 主 要 在 於 應 用 增 強 式 學 習 技 術 在 數 位 遊 戲, 以 及 應 用 模 糊 理 論 來 提 高 增 強 式 學 習 技 術 效 率 5. 透 過 結 果 與 討 論 來 修 改 實 驗 中 所 建 置 的 各 個 參 數, 反 覆 的 調 整 不 同 的 參 數 來 應 用 在 遊 戲 之 中, 並 找 出 最 適 合 本 研 究 的 數 值 6. 最 後 再 綜 合 所 有 實 驗 結 果 做 出 結 論, 並 探 討 本 研 究 的 實 際 應 用 在 數 位 遊 戲 上 的 可 行 性 與 策 略, 以 及 未 來 進 行 研 究 的 建 議 8

圖 四 研 究 流 程 圖 9

本 論 文 架 構 如 下, 第 一 章 緒 論 : 從 遊 戲 的 本 質 探 討 瞭 解 到 互 動 性 對 於 遊 戲 是 非 常 重 要 的, 而 人 工 智 慧 技 術 是 讓 數 位 遊 戲 增 強 互 動 性 的 一 個 方 法, 從 此 一 背 景 下 界 定 研 究 的 範 圍, 並 提 出 研 究 的 假 設, 確 定 研 究 流 程 第 二 章 文 獻 探 討 : 對 過 去 的 研 究 文 獻 做 統 整, 探 討 在 遊 戲 方 面 目 前 學 者 的 研 究 成 果, 以 及 目 前 與 遊 戲 相 關 的 人 工 智 慧 之 研 究, 與 增 強 式 學 習 方 面 的 研 究 成 果, 以 及 增 強 式 學 習 應 用 在 遊 戲 的 研 究 探 討 第 三 章 模 糊 增 強 式 學 習 : 對 於 模 糊 增 強 式 學 習 的 深 入 研 究, 包 括 傳 統 增 強 式 學 習 的 缺 點 與 解 決 方 法, 模 糊 理 論 如 何 應 用 在 增 強 式 學 習 之 中, 以 及 既 有 的 模 糊 理 論 應 用 探 討, 最 後 是 本 研 究 中 如 何 將 模 糊 理 論 實 際 應 用 第 四 章 實 驗 設 計 與 實 驗 結 果 : 為 本 研 究 實 驗 部 份, 內 容 包 括 了 整 體 遊 戲 的 設 計 概 念, 模 糊 增 強 式 學 習 如 何 應 用 在 本 論 文 的 遊 戲 之 中, 與 前 導 實 驗 所 做 出 的 參 數 值 設 定, 與 前 導 實 驗 結 果 的 探 討, 以 及 本 研 究 所 做 出 的 遊 戲 實 際 情 形, 與 應 用 增 強 式 學 習 技 術 在 此 遊 戲 的 結 果 及 討 論 第 五 章 結 論 : 結 論 與 未 來 研 究, 討 論 本 研 究 實 驗 所 呈 現 的 結 果, 並 探 討 如 何 應 用 本 研 究 之 結 果 到 實 際 的 數 位 遊 戲 之 中, 最 後 提 出 未 來 可 進 行 之 研 究 10

第 2 章 文 獻 探 討 本 章 將 討 論 數 位 遊 戲 遊 戲 人 工 智 慧 與 增 強 式 學 習 技 術 的 文 獻, 目 前 與 數 位 遊 戲 有 關 的 研 究 中, 大 多 數 文 獻 主 要 在 研 究 數 位 教 學 與 遊 戲 中 玩 家 行 為, 但 也 有 少 部 份 的 研 究 在 探 討 遊 戲 中 的 人 工 智 慧, 在 遊 戲 的 人 工 智 慧 方 面, 也 有 不 少 研 究 在 於 如 何 應 用 增 強 式 學 習 技 術 於 數 位 遊 戲 的 人 工 智 慧 中, 以 下 各 節 將 依 序 詳 細 討 論 2.1 數 位 遊 戲 簡 國 斌 (2010) 在 其 碩 士 論 文 中 整 理 了 國 內 碩 士 論 文 對 於 數 位 遊 戲 相 關 的 研 究 結 果 ( 表 二 ) 表 二 國 內 遊 戲 相 關 議 題 一 覽 表 ( 資 料 來 源 : 簡 國 斌 碩 士 論 文,2010) 學 年 研 究 生 學 校 系 所 論 文 名 稱 研 究 方 法 90 陳 慶 峰 南 華 大 學 資 訊 管 理 所 碩 士 論 文 從 心 流 (flow) 理 論 探 討 線 上 遊 戲 個 案 訪 談 法 文 獻 分 析 參 與 者 之 網 路 使 用 行 為 法 問 卷 調 查 法 91 林 青 嵐 靜 宜 大 學 資 訊 管 理 所 碩 士 論 文 玩 家 對 多 人 線 上 角 色 扮 演 遊 戲 產 文 獻 分 析 法 問 卷 調 查 法 品 屬 性 偏 好 之 研 究 91 張 武 成 淡 江 大 學 資 訊 管 理 所 碩 士 論 文 線 上 遊 戲 軟 體 設 計 因 素 與 使 用 者 文 獻 分 析 法 問 卷 調 查 法 滿 意 度 相 關 聯 之 研 究 93 楊 斐 羽 元 智 大 學 資 訊 傳 播 所 碩 士 論 文 將 傳 統 遊 戲 的 玩 性 因 素 導 入 電 子 焦 點 團 體 訪 談 專 家 訪 談 遊 戲 設 計 之 研 究 法 95 李 豐 良 國 立 交 通 大 學 工 業 工 程 與 管 理 所 動 作 型 電 腦 遊 戲 設 計 因 素 探 討 問 卷 調 查 法 類 神 經 網 博 士 論 文 路 基 因 演 算 法 95 李 炯 龍 國 立 臺 北 教 育 大 學 玩 家 與 遊 戲 設 集 換 式 牌 類 遊 戲 之 遊 藝 功 能 要 素 文 獻 分 析 法 專 家 訪 談 計 所 碩 士 論 文 分 析 以 魔 法 風 雲 會 為 例 96 曾 世 绮 佛 光 大 學 資 訊 教 育 所 碩 士 論 文 驗 證 遊 戲 吸 引 人 之 要 素 : 內 容 分 內 容 分 析 參 與 觀 察 法 析 魔 獸 世 界 96 蘇 榮 章 國 立 政 治 大 學 資 訊 管 理 所 碩 士 論 數 位 教 育 遊 戲 設 計 與 評 估 指 標 之 文 獻 分 析 法 問 卷 調 查 法 文 研 究 97 鄭 羽 汎 開 南 大 學 資 訊 管 理 所 碩 士 論 文 線 上 遊 戲 設 計 : 個 案 探 討 與 內 容 個 案 研 究 內 容 分 析 分 析 97 陳 亭 光 國 立 臺 灣 大 學 資 訊 管 理 所 碩 士 論 基 於 使 用 者 經 驗 之 多 準 則 評 分 遊 文 獻 分 析 法 多 穩 額 評 文 戲 推 薦 系 統 分 協 同 過 濾 97 蔣 昱 雯 國 立 臺 北 教 育 大 學 傳 播 與 科 技 所 數 位 遊 戲 學 習 教 材 評 鑑 指 標 之 研 文 獻 分 析 法 德 懷 術 碩 士 論 文 究 11

從 表 中 可 以 看 出, 以 往 與 遊 戲 相 關 的 研 究 大 部 份 著 重 在 於 遊 戲 的 本 質 與 數 位 教 學 為 主, 且 目 標 大 部 份 探 討 的 是 以 幼 兒 為 主, 如 遊 戲 理 論 與 應 用 : 以 幼 兒 遊 戲 與 幼 兒 教 師 教 學 為 例 ( 蔡 淑 苓,2004) 幼 兒 遊 戲 - 以 0~8 歲 幼 兒 園 實 務 為 導 向 (James E. Johnson, 2005) 幼 兒 教 育 ( 朱 敬 先,2005) 等 書, 皆 是 由 幼 兒 時 期 的 遊 戲 行 為 來 探 討 遊 戲 對 於 正 常 人 成 長 過 程 的 影 響 在 朱 敬 先 幼 兒 教 育 一 書 中 提 到, 遊 戲 理 論 又 可 以 分 成 精 力 過 剩 論 鬆 弛 論 本 能 實 踐 論 復 演 論 生 活 實 踐 論 自 我 表 現 論 學 習 論 心 理 分 析 論 等 八 種 論 點, 但 不 管 那 一 種 論 點 都 是 支 持 遊 戲 對 於 人 成 長 是 有 正 向 的 影 響, 因 此 也 就 會 有 研 究 探 討 怎 樣 的 遊 戲 會 吸 引 人 去 玩, 在 遊 戲 理 論 與 應 用 : 以 幼 兒 遊 戲 與 幼 兒 教 師 教 學 為 例 ( 蔡 淑 苓,2004) 一 書 中 提 到, 遊 戲 可 以 吸 引 人 的 原 因 不 外 乎 遊 戲 是 一 個 社 交 行 為 的 縮 影, 在 遊 戲 中 可 以 與 人 交 流 互 動, 並 從 遊 戲 中 學 習 到 如 何 應 對 近 年 來 電 腦 技 術 的 成 長 快 速, 也 帶 動 了 數 位 遊 戲 的 發 展 ( 詳 細 介 紹 請 見 第 一 章 ), 數 位 遊 戲 吸 引 人 的 地 方 不 只 是 其 聲 光 效 果 佳, 同 時 也 未 脫 離 遊 戲 的 本 質, 因 此 遊 戲 的 互 動 仍 然 是 很 重 要 的 一 個 因 素, 除 了 玩 家 與 玩 家 的 互 動 外, 玩 家 在 數 位 遊 戲 中 也 會 與 許 多 非 玩 家 角 色 NPCs 互 動, 這 些 NPCs 的 行 為 模 式 也 就 顯 的 格 外 重 要, 例 如 角 色 扮 演 遊 戲 中, 劇 情 的 發 展 就 是 一 個 非 常 重 要 的 因 素, 如 果 可 以 藉 由 玩 家 與 遊 戲 中 的 NPCs 互 動 情 形 來 決 定 不 同 的 遊 戲 內 容, 就 可 以 大 幅 的 提 高 遊 戲 的 吸 引 力, 在 這 方 面,Barber 和 Kudenko(2001) 就 做 過 自 動 劇 情 產 生 器, 在 這 篇 研 究 中, 他 們 成 功 的 創 造 一 個 自 動 劇 情 產 生 器, 讓 遊 戲 會 依 照 玩 家 不 同 的 行 為 產 生 不 同 的 劇 情, 就 可 以 讓 每 個 人 遊 戲 的 過 程 不 一 樣, 藉 此 讓 遊 戲 可 以 有 無 限 多 的 內 容, 增 強 遊 戲 的 耐 玩 性 除 了 遊 戲 內 容 之 外,NPCs 的 行 為 表 現 也 是 一 個 重 要 的 因 素, 如 果 NPCs 表 現 不 合 常 理 或 是 非 常 單 調, 就 會 大 幅 降 低 遊 戲 的 吸 引 力, 在 遊 戲 中 加 入 簡 單 的 在 因 此 就 需 要 遊 戲 的 人 工 智 慧 讓 NPCs 更 具 人 性 化 的 行 為 表 現 12

2.2 遊 戲 人 工 智 慧 在 過 去 遊 戲 人 工 智 慧 的 相 關 研 究 中, 以 研 究 桌 上 型 遊 戲 (board game) 與 猜 謎 (puzzle) 為 最 多, 桌 上 型 遊 戲 如 西 洋 棋 象 棋 圈 圈 叉 叉 等, 這 類 型 的 遊 戲 通 常 不 可 能 全 用 暴 力 法 將 所 有 狀 態 空 間 計 算 出 來, 當 找 出 較 好 的 演 算 法 代 表 著 解 決 一 個 難 解 的 數 學 問 題, 也 因 此 有 許 多 的 學 者 在 研 究 (Epstein,1999) 而 Ghory(2004) 試 圖 對 增 強 式 學 習 應 用 在 桌 上 型 遊 戲 做 一 個 公 式 化 的 研 究, 其 結 果 讓 許 多 研 究 應 用 在 各 種 不 同 的 桌 上 型 遊 戲 上 在 數 位 遊 戲 上 通 常 是 用 規 則 基 礎 (rule-based) 的 方 式 去 寫 入 NPCs的 人 工 智 慧, 但 如 此 一 來 則 需 要 大 量 的 程 式 碼 來 完 成 許 多 複 雜 的 行 為, 且 會 有 許 多 不 合 理 的 行 為 發 生, 因 此 也 有 許 多 學 者 在 這 方 面 在 研 究,Aha (2003) 利 用 案 例 基 礎 (case-based) 方 式, 對 戰 略 類 型 遊 戲 魔 獸 爭 霸 二 做 一 個 更 佳 的 NPCs人 工 智 慧, 他 認 為 在 這 款 遊 戲 中 的 建 築 順 序 關 鍵, 因 此 將 所 有 可 能 的 建 築 順 序 排 成 一 個 階 層 結 構, 因 此 可 以 整 理 出 許 多 建 築 序 列, 不 同 的 序 列 就 可 以 當 成 不 同 的 案 例, 因 此 根 據 案 例 就 可 以 寫 出 許 多 條 規 則, 最 後 就 讓 NPCs 依 照 案 例 規 則 來 建 築, 擊 敗 玩 家, 雖 然 此 一 方 法 效 果 卓 越, 但 是 卻 被 玩 家 的 一 些 特 例 所 擊 敗, 比 如 說 玩 家 一 開 始 不 蓋 任 何 建 築, 直 接 農 民 快 攻 等 等 不 合 常 理 的 玩 法 因 此, 在 同 一 款 遊 戲 之 下, Ponson(2004) 等 人 則 是 用 基 因 演 算 法 去 改 善 Aha研 究 的 缺 失 之 處, 就 可 以 有 效 的 解 決 這 些 特 例 情 形, 並 且 提 高 成 攻 率, 讓 NPCs 更 具 挑 戰 另 外 Jin(2008) 等 人 則 是 用 類 神 經 網 路 的 方 法 去 加 強 運 動 類 型 遊 戲 NPCs的 人 工 智 慧, 讓 複 雜 的 遊 戲 人 工 智 慧 簡 化 成 幾 個 不 同 的 行 為 模 式, 這 些 研 究 的 其 優 缺 點 如 表 三 這 些 方 法 的 共 通 缺 點 為 必 須 在 已 知 的 環 境 之 下, 事 先 設 定 好 許 多 環 境 的 因 素 才 能 執 行, 而 如 果 環 境 即 時 改 變, 如 果 玩 家 的 行 動 改 變 了 環 境 狀 態, 就 會 有 較 遭 的 結 果 產 生, 增 強 式 學 習 可 以 讓 代 理 人 (agent) 在 未 知 的 環 境 下 學 習, 但 目 前 用 在 數 位 遊 戲 中 的 研 究 並 不 多,McPartland(2008) 將 增 強 式 學 習 利 用 在 第 三 人 稱 的 射 擊 遊 戲 之 中, 讓 NPCs可 以 學 習 到 最 佳 的 行 動 路 線, 以 及 攻 擊 玩 家 的 時 機 與 地 點 另 外, Wender(2008) 等 人 則 是 將 增 強 式 學 習 利 用 在 策 略 遊 戲 之 中, 讓 NPCs選 擇 啟 始 點 時 適 應 不 同 的 環 境 與 玩 家 的 行 動, 讓 NPCs的 行 為 更 聰 明 而 Björnsson(2004) 等 人 則 是 將 增 強 式 學 習 應 用 在 養 成 策 略 遊 戲 之 中, 且 讓 玩 家 可 以 直 接 對 NPCs 做 一 些 簡 單 的 控 制, 縮 短 學 習 的 時 間 13

表 三 遊 戲 人 工 智 慧 方 法 比 較 ( 資 料 來 源 : 本 研 究 整 理 ) 方 法 文 獻 優 點 缺 點 Case-Based Learning to Win: 利 用 不 同 的 案 例 來 環 境 需 要 控 制 Case-Based Plan Selection in a Real-Time Strategy 控 制 NPCs 的 行 動 選 擇, 方 法 簡 單 且 實 用 無 法 解 決 特 定 情 況 Game Genetic Improving Adaptive 可 調 適 性, 因 此 可 以 基 因 演 算 法 不 保 Algorithm Game AI with Evolutionary Learning 提 高 NPCs 勝 率 且 解 決 特 定 情 形 證 最 適 化, 每 次 演 化 後 的 結 果 不 一 定 是 最 佳 的 結 果 Neural Evolving Game 將 複 雜 的 運 動 類 型 雖 然 有 一 定 的 成 Network NPCs Based on Concurrent Evolutionary Neural Networks 遊 戲 簡 化, 使 目 標 明 確 而 可 以 應 用 類 神 經 網 路 解 決 問 題 果, 但 在 結 果 部 份 並 非 有 原 本 期 望 的 好 結 果 14

2.3 增 強 式 學 習 增 強 式 學 習 是 種 與 環 境 互 動 中, 不 斷 的 嘗 試 不 同 的 行 動, 找 尋 最 佳 策 略 的 一 種 學 習 方 法 增 強 式 學 習 通 常 包 含 兩 個 角 色, 環 境 (environment) 代 表 需 要 解 決 問 題 的 所 有 外 在 因 子, 而 代 理 人 (agent) 則 負 責 與 環 境 互 動 學 習, 代 理 人 所 做 出 的 行 動 (action) 會 改 變 整 體 環 境 的 狀 態 (state), 在 不 同 的 狀 態 下 代 理 人 會 依 照 獎 懲 (reward) 去 做 出 應 對 的 行 動, 在 多 次 學 習 過 程 中 學 習 到 最 佳 策 略 的 方 法, 其 流 程 就 如 之 前 所 看 過 的 圖 五,t 代 表 時 間, 當 代 理 人 感 知 到 環 境 ( 目 前 狀 態 ) 時, 選 擇 不 同 的 動 作, 動 作 又 會 改 變 環 境, 並 得 到 獎 懲, 進 入 到 下 一 個 時 間 點, 代 理 人 感 知 到 下 一 時 間 點 狀 態, 並 且 選 擇 動 作 得 到 下 一 時 間 點 的 獎 懲 圖 五 增 強 式 學 習 示 意 圖 增 強 式 學 習 其 實 就 是 模 擬 生 物 在 學 習 事 物 的 情 形, 比 如 說 小 孩 子 剛 開 始 學 騎 腳 踏 車, 一 開 始 會 不 知 道 怎 樣 驅 動, 也 不 知 道 傾 斜 多 少 度 會 跌 倒, 但 是 每 次 失 敗 跌 倒 後, 自 然 後 吸 取 教 訓, 再 反 覆 的 練 習, 跌 倒 了 許 多 次 之 後, 就 知 道 該 如 何 平 衡, 也 知 道 如 何 轉 彎 而 不 會 跌 倒, 藉 由 過 去 的 經 驗 不 斷 的 強 化 自 身 的 能 力, 就 是 增 強 式 學 習 技 術 的 主 要 精 神 15

增 強 式 學 習 通 常 可 以 公 式 化 為 馬 可 決 策 過 程, 增 強 式 學 習 又 可 以 分 成 主 動 式 (active) 增 強 式 學 習 與 被 動 式 (passive) 增 強 式 學 習, 其 主 要 的 差 別 在 於, 被 動 式 增 強 式 學 習 的 代 理 人 用 固 定 的 策 略 (fixed policy) 去 學 習 其 效 用 值 (utility value), 效 用 值 所 代 表 的 意 義 為 在 該 狀 態 下 達 到 目 標 與 其 他 狀 態 的 相 對 比 較 值, 通 常 值 越 大 代 表 此 一 狀 態 離 目 標 越 接 近, 選 擇 到 此 一 狀 態 的 機 率 也 越 大 主 動 式 學 習 則 是 需 要 不 停 的 探 索 環 境 去 找 到 其 策 略 (Melenchuk,2000) 被 動 式 學 習 的 方 法 通 常 分 成 三 種, LMS(least mean squares) ADP(adaptive dynamic programming) 與 TD(temporal difference learning) 三 種, 這 三 種 方 法 中 最 佳 的 是 TD方 法 (Russell and Norvig,2003) LMS方 法 為 隨 機 選 取 行 動, 再 計 算 到 達 目 標 的 所 有 獎 懲 值, 然 後 再 算 出 其 各 個 狀 態 下 達 到 目 標 的 效 用 值 平 均 數, 其 缺 點 為 需 要 非 常 久 的 計 算 時 間 (Russell and Norvig,2003) ; ADP方 法 則 是 在 給 定 特 定 估 計 模 式 之 下, 每 次 行 動 後 重 覆 的 計 算 每 一 個 狀 態 的 效 用 值, 但 在 狀 態 空 間 大 的 情 形 下 會 難 以 計 算 (Russell and Norvig,2003) ; TD 方 法 結 合 了 蒙 地 卡 羅 方 法 (Monte Carlo ) 與 動 態 規 劃 方 法 (dynamic programming) 的 概 念, 其 公 式 如 公 式 一 : V(s) V(s ) + α(r(s)+ γv(s') - V(s) ) (1) V(s) 代 表 效 用 值, α是 學 習 函 數, γ是 獎 賞 折 扣 值,s 代 表 狀 態,R(s) 為 在 此 狀 態 的 獎 懲 值, 其 主 要 概 念 為 藉 由 過 去 的 經 驗 去 調 整 預 期 可 以 到 達 目 標 的 效 用 值 (Russell and Norvig,2003) 16

主 動 式 增 強 式 學 習 最 有 名 的 演 算 法 為 Q-Learning與 SARSA algorithm兩 種, 兩 種 演 算 法 皆 是 建 立 在 TD 方 法 基 礎 之 上 的 演 算 法, 藉 由 試 誤 與 延 遲 獎 懲 來 不 斷 的 重 複 計 算 Q-value(state-action value), Q-value 是 在 某 一 狀 態 與 行 動 對 (State -Action pairs) 到 達 目 標 之 相 對 比 較 值,Q-value 越 大 代 表 選 擇 此 一 狀 態 與 行 動 對 於 達 到 目 標 的 機 會 越 大, 因 此 以 Q-value 大 小 來 決 定 各 個 狀 態 與 行 動 的 機 率 值, 讓 代 理 人 可 以 藉 由 過 往 經 驗 選 擇 目 前 環 境 下 最 佳 的 行 動 Q-Learning 是 由 Watkins 在 1989 年 提 出, 是 一 種 無 策 略 演 算 法 (off-policy) 的 演 算 法, 而 其 公 式 如 公 式 二 (Sutton and Barto,1998) : Q(s, a) Q(s,a ) + α(r(s) + γmaxq(s',a' ) - Q(s,a) ) (2) SARSA是 State-Action-Reward-State-Action的 縮 寫, 在 1994年 的 Rummery提 出, 是 一 種 有 策 略 性 (on-policy) 的 演 算 法, 其 公 式 如 公 式 三 : Q(s, a) Q(s,a ) + α(r(s) + γq(s',a' ) - Q(s,a) ) (3) s代 表 現 在 環 境 狀 態, a代 表 代 理 人 的 行 動, s 是 下 一 時 間 點 的 狀 態, a 是 下 一 時 間 點 的 動 作, 因 此 Q(a,s) 代 表 在 狀 態 s下 進 行 行 動 a的 期 望 價 值, R(s) 是 在 狀 態 s下 的 實 際 價 值,maxQ(a,s ) 代 表 著 在 所 有 下 一 時 間 點 預 期 的 Q-value最 大 值, α是 學 習 函 數, 用 於 控 制 學 習 收 斂 速 度, 一 般 會 將 此 值 預 設 為 1, γ是 獎 懲 的 折 扣 值, 通 常 是 一 個 小 於 1的 常 數 而 Q-Learning與 SARSA最 大 的 差 別 在 於 SARSA是 在 某 些 特 定 的 策 略 下 執 行, 而 Q-Learning 則 是 完 全 沒 有 任 何 策 略 的 運 用, 因 此 必 需 要 計 算 下 一 次 行 動 中 最 大 的 Q-value(Sutton and Barto,1998) 17

增 強 式 學 習 的 學 習 方 式 是 去 找 到 每 個 狀 態 的 最 佳 行 動, 因 此 需 要 多 方 嘗 試, 但 是 如 果 隨 機 去 嘗 試, 就 等 同 於 不 去 選 擇 已 知 的 最 佳 行 動, 這 樣 隨 機 的 行 為 就 與 基 本 精 神 相 違 背, 因 此 解 決 問 題 與 探 索 新 知 (exploitation and exploration) 就 成 為 增 強 式 學 習 的 兩 難 問 題, 通 常 會 運 用 ε-greedy演 算 法 來 解 決, ε-greedy也 是 greedy演 算 法 的 一 種, 只 是 在 其 過 程 中 會 有 一 定 機 率 利 用 隨 機 的 方 式 去 探 索, 這 樣 不 但 可 以 符 合 找 最 佳 行 動 的 基 本 精 神, 也 會 試 圖 的 去 探 索 是 否 有 更 佳 的 行 動 (Bianchi, 2007) 例 如, 設 定 另 一 參 數 p=0.5, 而 代 理 人 在 每 一 次 決 定 行 動 時, 會 隨 機 決 定 一 個 0~1 的 變 數 q, 當 q>p=0.5 時, 就 選 擇 隨 機 探 索 產 生 行 動, 反 之, 當 q p=0.5 時 就 從 之 前 經 驗 算 出 最 佳 的 行 動 增 強 式 學 習 已 經 有 許 多 應 用 與 研 究, 比 較 常 看 到 應 用 在 機 械 的 學 習 與 控 制, 也 有 一 些 研 究 是 應 用 在 遊 戲 之 中, 目 前 應 用 增 強 式 學 習 最 有 名 的 遊 戲 為 善 與 惡 (Black & White) 這 款 遊 戲, 善 與 惡 是 由 Lionhead Studios在 2001年 所 研 發 製 作, 是 一 款 經 營 類 型 的 遊 戲, 在 善 與 惡 這 款 遊 戲 中 玩 家 伴 演 造 物 者 的 角 色, 而 玩 家 可 以 控 制 一 名 神 祇 生 物, 此 生 物 會 跟 著 玩 家 所 做 出 的 不 同 決 定, 而 改 變 其 行 為 跟 長 相, 這 樣 的 一 個 機 制 受 到 玩 家 的 好 評, 也 因 此 這 一 款 遊 戲 在 2005 年 推 出 續 作 善 與 惡 二 代, 圖 六 為 該 遊 戲 二 代 之 畫 面 圖 六 黑 與 白 遊 戲 畫 面 ( 資 料 來 源 : http://lionhead.com/jobs.aspx) 18

2.4 本 章 小 結 由 以 上 三 節 得 知, 數 位 遊 戲 最 吸 引 人 的 地 方 不 單 單 只 是 其 聲 光 效 果, 如 果 可 以 增 加 遊 戲 與 玩 家 的 互 動 性, 就 可 以 讓 遊 戲 更 具 可 玩 性 在 遊 戲 人 工 智 慧 的 發 展 中, 大 部 份 的 遊 戲 都 已 經 具 備 基 本 的 人 工 智 慧, 如 路 徑 搜 尋 或 是 碰 撞 偵 測 等, 或 是 用 條 件 規 則 基 礎 來 為 遊 戲 的 NPCs 加 入 人 工 智 慧, 但 是 這 樣 的 遊 戲 並 不 能 滿 足 目 前 玩 家 的 需 求, 如 果 可 以 用 強 的 人 工 智 慧 讓 NPCs 行 對 更 人 性 化, 就 能 讓 遊 戲 更 吸 引 玩 家 強 的 人 工 智 慧 如 基 因 演 算 法 及 類 神 經 網 路 等, 有 許 多 的 研 究 已 經 有 效 的 將 此 類 方 法 應 用 在 數 位 遊 戲 之 中, 可 是 在 市 面 的 遊 戲 中 仍 不 常 見, 最 主 要 的 問 題 如 之 前 幾 節 所 論, 數 位 遊 戲 中 的 環 境 變 化 太 大, 因 為 玩 家 特 性 而 存 在 著 許 多 需 要 考 慮 的 因 素, 如 果 沒 辦 法 有 效 的 解 決 環 境 的 因 素, 建 置 強 的 人 工 智 慧 所 需 要 的 成 本 太 大, 反 而 不 實 用 但 是 由 文 獻 中 可 以 發 現, 數 位 遊 戲 的 NPCs需 要 的 人 工 智 慧, 並 非 是 無 懈 可 擊 的 人 工 智 慧, 一 個 不 犯 錯 的 NPC 只 會 降 低 玩 家 的 信 心, 而 不 能 為 遊 戲 加 值, 因 此 數 位 遊 戲 # 不 需 要 一 個 完 美 的 人 工 智 慧, 而 是 要 能 夠 學 習 互 動 的 人 工 智 慧, 並 且 是 可 以 因 應 遊 戲 環 境 的 需 求 來 做 調 整 學 習 的 人 工 智 慧, 增 強 式 學 習 正 好 具 備 以 上 的 特 性, 也 因 此 本 研 究 將 以 增 強 式 學 習 做 為 研 究 的 重 點 文 獻 中 也 可 以 看 出, 雖 然 增 強 式 學 習 在 許 多 領 域 已 經 被 廣 為 應 用, 但 是 在 數 位 遊 戲 之 中 仍 然 還 未 有 許 多 研 究, 其 最 主 要 的 問 題 就 是 因 為 傳 統 的 增 強 式 學 習 通 常 需 要 很 長 的 一 段 時 間 來 學 習, 這 樣 並 不 能 符 合 數 位 遊 戲 的 需 求, 因 此 本 研 究 將 設 法 改 進 此 一 缺 點, 下 一 章 將 探 討 本 研 究 如 何 解 決 這 問 題 以 及 如 何 應 用 在 遊 戲 之 中 19

第 3 章 模 糊 增 強 式 學 習 傳 統 增 強 式 學 習 已 經 在 各 個 領 域 廣 為 研 究, 但 其 效 率 不 好 的 缺 點 也 讓 增 強 式 學 習 技 術 常 常 無 法 被 實 際 應 用, 因 此 有 許 多 學 者 在 研 究 用 各 種 不 同 的 方 法 去 縮 短 增 強 式 學 習 的 學 習 時 間, 本 研 究 則 是 應 用 模 擬 理 論 來 提 高 傳 統 增 強 式 學 習 的 效 率, 以 下 各 節 將 會 詳 細 介 紹 傳 統 增 強 式 學 習 的 缺 點, 以 及 本 研 究 如 何 將 模 糊 理 論 運 用 在 增 強 式 學 習 技 術 之 中, 並 提 高 其 效 率 3.1 傳 統 增 強 式 學 習 的 缺 點 增 強 式 學 習 的 特 色 為 不 斷 的 試 誤 過 程 去 找 到 最 佳 解, 但 其 付 出 的 代 價 就 是 需 要 很 長 的 一 段 時 間 讓 代 理 人 去 學 習 (Epstein,2009), 有 許 多 學 者 研 究 如 何 去 縮 短 傳 統 增 強 式 學 習 的 學 習 時 間, 像 是 將 階 層 式 增 強 式 學 習, 將 所 有 狀 態 空 間 表 示 成 一 個 階 層 式 的 狀 態 空 間, 所 以 代 理 人 就 不 必 去 計 算 下 一 時 間 點 狀 態 所 對 應 的 所 有 Q-value 值, 先 從 下 一 階 層 中 的 狀 態 空 間 去 運 算, 藉 此 降 低 其 運 算 時 間, 讓 增 強 式 學 習 更 具 有 效 率 Ponsen(2006) 嘗 試 等 人 將 此 應 用 在 數 位 遊 戲 之 中, 將 代 理 人 的 移 動 先 分 成 達 到 目 標 或 遇 到 敵 人 此 一 階 層, 再 決 定 代 理 人 會 選 擇 移 動 的 方 位, 這 樣 的 方 法 有 效 的 提 高 學 習 的 效 率 也 有 研 究 利 用 模 糊 理 論 來 提 高 增 強 式 學 習 的 學 習 效 率 模 糊 理 論 是 利 用 數 學 模 式 去 解 決 人 類 語 言 學 中 語 義 不 清 的 問 題, 最 初 是 由 Lotfi Zadeh在 1965年 所 提 出, 例 如 溫 度 問 題, 當 有 人 表 示 天 氣 太 冷, 但 實 際 上 的 溫 度 度 數 卻 沒 有 明 確 的 表 達, 不 同 人 對 於 冷 熱 有 不 一 樣 的 概 念, 而 這 些 表 達 不 清 的 模 糊 區 域 就 無 法 以 傳 統 的 二 元 分 法 來 做 判 斷, 因 此 為 了 解 決 這 些 模 糊 的 灰 色 地 帶 問 題, 就 需 要 用 到 模 糊 集 合 理 論 (fuzzy set theory) 來 解 決 模 糊 集 合 理 論 捨 棄 原 本 二 元 的 分 法, 而 以 從 屬 度 (membership degree) 來 做 判 斷, 例 如 剛 剛 的 溫 度 問 題, 將 溫 度 表 達 成 冷 暖 等 等 區 間,10 在 冷 區 的 從 屬 度 為 0.9, 而 在 熱 區 的 從 屬 度 為 0.1 這 樣 的 方 式 來 對 溫 度 做 區 閣, 數 字 越 高 代 表 越 符 合 這 個 區 域 的 特 性, 而 這 些 數 值 則 形 成 所 謂 的 模 糊 從 屬 函 數 (fuzzy membership function ), 模 糊 理 論 常 常 應 20

Seo(2000) 等 人 做 過 將 模 糊 邏 輯 應 用 在 增 強 式 學 習 上 的 研 究, 在 該 研 究 中 是 將 狀 態 轉 換 成 模 糊 狀 態, 因 此 可 以 將 所 有 狀 態 分 成 許 多 狀 態 區 塊, 也 就 能 提 高 傳 統 增 強 式 學 習 的 學 習 效 率 這 些 研 究 都 有 效 改 善 增 強 式 學 習 效 率 不 佳 的 問 題, 但 是 其 學 習 過 程 卻 是 有 所 限 制, 因 為 在 增 強 式 學 習 的 過 程 中, 最 重 要 的 是 獎 懲 機 制 的 設 定, 就 算 有 效 的 降 低 狀 態 空 間 的 運 算, 沒 有 一 個 適 當 的 獎 懲 機 制 設 定, 傳 統 增 強 式 學 習 也 有 可 能 會 無 法 學 到 最 佳 策 略, 甚 至 是 一 個 發 散 的 結 果, 也 就 是 根 本 就 找 不 到 所 謂 的 最 佳 策 略, 因 此 增 強 式 學 習 在 獎 懲 的 設 定 通 常 會 需 要 依 照 不 同 的 需 求 來 制 定, 這 樣 的 限 制 也 限 制 的 增 強 式 學 習 研 究 的 一 般 化, 同 樣 的 結 果 在 另 外 的 研 究 中 因 為 獎 懲 的 問 題 可 能 就 不 適 用, 但 是 如 果 改 善 獎 懲 的 設 定, 或 許 可 以 造 成 不 同 的 學 習 效 果, 因 此 本 論 文 著 眼 於 獎 懲 機 制 上 的 改 變, 嘗 試 利 用 模 糊 邏 輯 理 論 於 獎 懲 機 制 之 中, 讓 原 本 固 定 的 獎 懲 變 成 模 糊 化 的 獎 懲, 不 再 是 固 定 的 獎 懲 數 值, 不 但 讓 學 習 速 度 更 快, 也 讓 學 習 更 加 合 理 如 果 可 以 讓 遊 戲 的 NPCs具 有 增 強 式 學 習 的 人 工 智 慧, 並 且 用 模 糊 邏 輯 理 論 去 改 善 其 效 率, 這 樣 一 來 可 以 讓 許 多 的 遊 戲 實 際 的 應 用, 也 使 遊 戲 NPCs 行 為 更 有 變 化, 如 此 一 來 不 但 簡 化 了 遊 戲 程 式 碼 的 複 雜 度, 還 可 以 讓 遊 戲 NPCs 行 為 更 人 性 化, 甚 至 因 應 不 同 玩 家 的 程 度 來 改 變 難 度, 讓 遊 戲 更 具 耐 玩 性 21

3.2 應 用 模 糊 理 論 於 增 強 式 學 習 之 中 如 上 一 節 所 討 論, 在 增 強 式 學 習 中 最 重 要 的 因 素 就 是 奨 懲 的 設 定, 所 以 本 研 究 將 原 本 固 定 的 獎 懲 改 成 模 糊 獎 懲 機 制, 在 傳 統 的 增 強 式 學 習 中, 原 本 獎 懲 的 設 定 會 給 一 個 基 本 的 固 定 值, 當 代 理 人 做 出 行 動 時 如 果 可 以 接 近 目 標, 就 給 予 獎 勵 值, 但 是 如 果 越 接 近 目 標 則 會 給 予 越 高 的 獎 勵 值 使 Q-value值 提 高, 反 之, 則 可 能 給 予 懲 罰, 讓 Q-value 降 低, 這 樣 的 機 制 考 慮 了 目 前 狀 態 與 目 標 狀 態 的 差 距, 獎 懲 值 的 大 小 會 直 接 影 響 到 學 習 的 結 果, 如 果 一 開 始 設 定 了 一 個 很 高 的 獎 勵 值, 代 理 人 可 能 會 因 為 獎 勵 值 過 高 而 快 速 學 到 某 條 策 略, 但 是 這 樣 卻 忽 略 了 其 他 可 能 的 策 略, 如 果 獎 勵 太 低 又 會 讓 代 理 人 學 習 的 曲 線 變 的 很 平 緩, 要 經 過 很 久 才 能 學 習 到 最 佳 的 策 略, 但 是 其 中 很 重 要 的 一 點 就 是 當 獎 勵 越 高, 對 於 學 習 的 效 率 是 有 正 向 影 響 的, 只 是 其 結 果 可 能 會 不 好 本 研 究 的 想 法 是 讓 獎 懲 的 機 制 不 再 是 由 固 定 的 數 值 去 做 調 整, 而 是 由 另 一 個 模 糊 隸 屬 函 數 來 控 制 加 入 了 模 糊 獎 懲 的 機 制 就 可 以 讓 代 理 人 在 學 習 的 過 程 中, 不 單 只 是 依 照 目 標 與 現 在 狀 態 差 距 而 去 調 整 獎 懲 值, 也 會 考 慮 到 策 略 在 不 同 情 形 下 的 獎 勵, 如 此 一 來 就 可 以 將 獎 懲 值 設 定 成 較 高 的 數 值, 再 將 獎 懲 值 乘 上 一 個 模 糊 值, 根 據 該 條 策 略 的 模 糊 隸 屬 程 度 來 改 變 獎 懲 值, 也 因 此 可 以 有 效 的 改 變 傳 統 增 強 式 學 習 的 效 率, 同 時 也 不 因 為 數 值 的 加 減 變 動 過 大, 最 後 導 致 無 法 學 習 到 最 佳 策 略 的 結 果 在 加 入 了 模 糊 函 數 之 後 還 可 以 利 用 模 糊 函 數 的 調 整, 來 達 成 不 同 的 學 習 行 為, 例 如 遊 戲 中 的 最 終 魔 王 可 能 就 會 需 要 快 速 學 習 能 力, 因 此 就 可 以 調 整 模 糊 函 數 讓 這 種 類 型 的 NPC 可 以 快 速 的 學 習, 而 其 他 像 是 魔 王 身 邊 的 小 兵 這 種 NPCs 可 能 就 不 能 有 那 麼 強 大 的 學 習 能 力, 除 此 之 外, 利 用 不 同 的 模 糊 函 數 或 許 可 以 用 來 調 整 難 度, 增 加 遊 戲 的 可 玩 性 22

3.3 模 糊 增 強 式 學 習 之 運 算 本 研 究 將 模 糊 獎 懲 取 代 傳 統 增 強 式 學 習 的 固 應 獎 懲, 以 下 本 論 文 就 以 坦 克 對 戰 遊 戲 為 例, 解 釋 如 何 將 固 定 的 獎 懲 值 換 成 模 糊 獎 懲 值, 在 坦 克 對 戰 遊 戲 中,NPC 坦 克 因 應 不 同 的 環 境 與 玩 家 的 行 動, 可 能 會 有 數 條 不 同 的 路 線 ( 策 略 ) 選 擇, 每 當 選 擇 一 條 路 徑 的 結 果 可 能 會 被 玩 家 擊 敗, 或 是 順 利 抵 達 目 標, 因 此 獎 懲 的 數 值 可 能 是 +1 與 -1, 但 是 當 NPC 坦 克 在 同 樣 的 情 形 下 不 斷 的 被 擊 敗 時, 可 能 因 為 狀 態 ( 玩 家 所 做 的 行 為 與 地 圖 的 所 有 因 素 ) 是 一 樣 的, 所 以 其 懲 罰 值 是 不 變 的, 但 是 這 樣 的 情 形 並 不 符 合 常 理, 連 續 的 在 某 條 路 線 上 被 擊 倒 應 該 要 有 更 大 的 懲 罰 值, 相 對 的, 連 續 成 功 的 達 到 目 標 也 應 該 有 更 大 的 獎 勵 值 因 此 如 果 可 以 給 每 個 策 略 不 同 的 模 糊 值, 而 這 個 模 糊 值 可 以 依 據 每 次 的 結 果 去 運 算, 就 可 以 避 免 以 上 的 問 題, 所 以 本 研 究 將 獎 懲 值 就 設 定 為 +10*F 或 -10*F,F 為 該 條 路 線 的 模 糊 隸 屬 值 (fuzzy membership value, 詳 細 介 紹 在 第 四 章 ), 為 範 圍 介 於 0~1 的 一 個 小 數 值, 如 此 一 來 當 F=1 時, 就 會 有 很 高 的 獎 懲 值, 讓 NPC 坦 克 可 以 很 快 的 學 習 到 該 條 路 線 是 否 危 險, 但 是 F=0 時, 將 不 會 有 任 何 獎 懲 值, 也 就 是 該 次 結 果 可 能 只 是 偶 然, 不 能 提 供 NPC 坦 克 做 為 學 習 的 參 考, 其 步 驟 如 下 所 示 : 1. 回 合 開 始 2. NPC 坦 克 根 據 各 路 線 的 Q-value 選 擇 此 回 合 之 路 線 3. NPC 坦 克 撞 到 炸 彈 或 順 利 走 到 終 點 4. 計 算 各 路 線 危 險 值 X, 並 轉 換 成 對 應 各 路 線 的 危 險 函 數 值 F 5. 將 獎 懲 值 乘 上 其 對 應 的 F 值 6. 重 新 計 算 各 條 路 線 的 Q-value 值 7. 回 合 結 束, 如 果 還 未 學 到 唯 一 一 條 路 線, 則 回 到 步 驟 1 23

以 本 研 究 的 實 驗 為 例 ( 詳 細 介 紹 請 見 第 四 章 ), 原 本 的 獎 懲 如 表 四, 如 果 將 其 模 糊 化 就 變 成 表 五 所 示 表 四 獎 懲 函 數 狀 態 s R(s) 坦 克 撞 到 炸 彈, 該 條 策 略 坦 克 撞 到 炸 彈, 別 條 策 略 坦 克 順 利 走 到 終 點, 該 條 策 略 坦 克 順 利 走 到 終 點, 別 條 策 略 -10 +5 +20-10 表 五 模 糊 獎 懲 函 數 狀 態 s R(s) 坦 克 撞 到 炸 彈, 該 條 策 略 坦 克 撞 到 炸 彈, 別 條 策 略 坦 克 順 利 走 到 終 點, 該 條 策 略 坦 克 順 利 走 到 終 點, 別 條 策 略 -20*F +10*F +40*F -20*F 接 著 下 一 章 將 詳 細 介 紹 完 整 實 驗 設 計 與 實 驗 結 果, 也 就 可 以 看 出 當 把 原 本 的 固 定 獎 懲 ( 表 四 ) 變 成 模 糊 獎 懲 ( 表 五 ) 後, 其 效 率 因 此 可 以 大 幅 提 升 24

第 4 章 實 驗 設 計 與 實 驗 結 果 本 章 將 介 紹 本 研 究 的 實 驗 部 份, 本 研 究 實 驗 共 分 成 兩 部 份, 第 一 部 份 是 前 導 實 驗, 在 前 導 實 驗 中 將 找 出 最 適 合 坦 克 對 戰 遊 戲 類 型 的 模 糊 增 強 式 學 習 參 數, 並 應 用 在 第 二 部 份 的 遊 戲 實 驗 中, 在 本 章 的 實 驗 中 可 以 看 出 應 用 模 糊 理 論 提 高 傳 統 增 強 式 學 習 的 效 率, 並 且 探 討 不 同 的 模 糊 隸 屬 函 數 在 於 不 同 類 型 遊 戲 的 應 用 4.1 實 驗 設 計 本 研 究 如 圖 七, 共 分 成 兩 部 份, 第 一 部 份 為 前 導 實 驗, 藉 由 簡 單 的 遊 戲 路 徑 行 為 模 擬, 找 出 最 適 合 此 遊 戲 的 增 強 式 學 習, 再 將 其 加 入 第 二 部 份 實 際 的 遊 戲 之 中 圖 七 實 驗 架 構 圖 25

前 導 實 驗 中 的 步 驟 如 下 : 1. 實 驗 平 台 : 開 發 實 驗 平 台, 前 導 實 驗 的 平 台 主 要 是 讓 本 研 究 可 以 測 試 增 強 式 學 習 在 坦 克 對 戰 類 型 遊 戲 中 的 應 用 情 形, 藉 由 路 線 的 選 擇 來 測 試 增 強 式 學 習 與 模 糊 理 論 的 實 用 性 2. 增 強 式 學 習 : 在 前 導 實 驗 平 台 上 的 NPC 坦 克 加 上 具 有 增 強 式 學 習 技 術 之 人 工 智 慧, 讓 NPC 坦 克 在 多 次 的 嘗 試 之 後, 可 以 經 由 經 驗 學 習 來 選 擇 路 線 避 開 炸 彈 3. 模 糊 理 論 : 在 增 強 式 學 習 中 加 上 模 糊 函 數 來 調 整 獎 懲 值 的 設 定, 使 原 本 的 固 定 獎 懲 變 成 模 糊 獎 懲 4. 數 據 分 析 : 實 驗 後 把 本 次 實 驗 所 得 到 的 結 果 回 饋 到 各 參 數 中, 不 斷 的 嘗 試 不 同 的 值 來 找 出 最 佳 函 數 26

4.2 實 驗 環 境 與 遊 戲 設 計 本 研 究 中 規 劃 設 計 出 一 個 坦 克 對 戰 射 擊 遊 戲, 遊 戲 中 有 玩 家 可 以 自 行 操 控 的 坦 克 以 及 具 有 模 糊 增 強 式 學 習 人 工 智 慧 的 NPC 坦 克, 其 遊 戲 規 則 如 下 : NPC 坦 克 要 從 任 意 大 小 的 地 圖 中 某 一 啟 始 點 出 現, 目 標 為 到 達 某 些 終 止 點, 玩 家 可 以 從 任 意 處 攻 擊 NPC 坦 克, 但 是 在 地 圖 中 會 有 些 玩 家 不 可 擊 破 的 牆 壁, 這 些 牆 壁 可 能 是 隨 機 產 生 或 是 玩 家 設 定, 因 此,NPC 坦 克 就 會 藉 由 這 些 牆 壁 來 躲 過 玩 家 的 攻 擊, 並 且 學 到 最 安 全 的 一 條 路 線 來 擊 敗 玩 家, 其 過 程 如 圖 八 所 示 圖 五 為 一 個 N*N 大 小 的 地 圖, 紅 色 框 框 所 示 就 是 NPC 坦 克, 而 玩 家 則 是 在 地 圖 下 方 黑 色 框 框 中 的 坦 克, 可 以 左 右 自 由 移 動, 紅 色 S 點 代 表 NPC 坦 克 的 初 始 出 現 地 點, A1~A5 代 表 可 以 阻 擋 玩 家 攻 擊 的 牆, 紅 色 箭 頭 代 表 NPC 坦 克 的 目 標, 只 要 移 動 通 過 最 下 面 的 底 線, 就 算 NPC 坦 克 勝 利 圖 八 遊 戲 概 念 圖 本 研 究 的 實 驗 平 台 的 軟 硬 體 設 備 如 下 : OS: Windows Vista Home Premium CPU:Intel Core 2 Duo processor T5500(1.6GHz,2MB L2 cache) RAM:2GB Software:Adobe Flash CS3 Pro 27

4.3 前 導 實 驗 1. 加 入 增 強 式 學 習 在 製 作 遊 戲 之 前, 本 研 究 先 做 了 一 個 前 導 實 驗, 想 利 用 的 簡 單 的 實 驗 平 台 來 找 出 最 適 的 函 數, 再 將 此 一 實 驗 結 果 運 用 在 實 際 製 作 的 遊 戲 之 中, 前 導 實 驗 利 用 flash 與 action script 2.0當 成 實 驗 平 台 設 計 工 具, 創 造 了 一 個 在 3*3地 圖 中 具 有 簡 化 SARSA演 算 法 學 習 能 力 的 NPC 坦 克, 如 圖 九 圖 九 前 導 實 驗 圖 在 此 實 驗 中 設 定 了 一 個 3*3的 地 圖, 在 地 圖 的 右 上 方 為 NPC坦 克 的 啟 始 點 ( 紅 色 框 白 色 S 字 處 ), 而 地 圖 的 左 下 方 則 是 終 止 點 ( 老 鷹 圖 處 ), NPC坦 克 只 能 往 左 或 往 下 走, 因 此 會 有 六 種 不 同 的 策 略, 如 表 六 28

表 六 坦 克 移 動 策 略 表 Step 1 Step2 Step 3 Step 4 Policy A left left down down Policy B left down Left down Policy C left down down left Policy D down left Left down Policy E down left down left Policy F down down Left left 同 時 在 地 圖 中 會 有 些 玩 家 可 以 自 由 設 定 位 置 的 炸 彈 ( 紅 色 與 黑 色 炸 彈 ), 當 NPC 坦 克 碰 撞 到 這 些 炸 彈 就 會 被 摧 毀, 該 回 合 即 結 束, 此 外, 若 NPC坦 克 走 到 終 止 點 也 算 一 回 合 結 束, 每 次 回 合 結 束 就 會 用 SARSA演 算 法 去 計 算 其 Q-value值, 當 坦 克 被 摧 毀 對 該 條 路 線 Q-value 值 就 會 給 予 懲 罰 降 低, 而 其 他 路 線 則 給 予 獎 勵 提 高, 反 之, 若 坦 克 走 到 終 點 時, 該 條 路 線 Q-value 值 則 會 得 到 獎 勵, 其 他 路 線 會 加 予 懲 罰, 將 各 個 Q-value值 的 大 小 計 來 算 出 不 同 條 路 線 的 選 取 機 率, Q-value值 越 大 則 會 代 表 著 選 到 該 路 線 的 機 會 越 大, 直 到 只 剩 下 一 條 路 線 時, 該 遊 戲 才 會 結 束, 再 將 其 數 據 紀 錄 之 SARSA 演 算 法 公 式 如 公 式 四 : Q(s, a) Q(s,a ) + α(r(s) + γq(s',a' ) - Q(s,a) ) (4) 設 定 α, γ =1. 並 將 此 實 驗 的 公 式 簡 化 如 公 式 五 : Q(s, a) Q(s',a' ) + R(s) (5) 29

而 在 此 實 驗 中 的 獎 懲 函 數 值 如 表 七, 其 中 各 值 大 小 為 本 研 究 自 訂, 因 應 本 實 驗 給 予 每 條 路 線 的 初 始 值 為 五 十, 因 此 在 設 定 函 數 數 值 時, 以 加 減 十 來 測 試, 在 多 次 實 驗 之 後, 發 現 對 於 撞 到 炸 彈 或 順 利 走 到 終 點 此 兩 種 狀 態 應 該 給 予 較 高 的 獎 懲 值, 相 對 的 其 他 兩 種 情 形 則 需 要 比 較 低 的 獎 懲 值, 因 此 在 本 實 驗 中 分 別 設 定 為 撞 到 炸 彈 或 走 到 終 點 之 獎 懲 值 的 一 半, 也 就 如 表 七 所 示 表 七 獎 懲 函 數 狀 態 s R(s) 1. 坦 克 撞 到 炸 彈, 該 條 策 略 -10 2. 坦 克 撞 到 炸 彈, 別 條 策 略 +5 3. 坦 克 順 利 走 到 終 點, 該 條 策 略 +20 4. 坦 克 順 利 走 到 終 點, 別 條 策 略 -10 在 實 驗 的 過 程 中, 本 研 究 發 現 講 懲 的 設 定 與 增 強 式 學 習 的 效 率 有 很 大 的 關 係, 如 果 提 高 獎 懲 值 將 對 提 高 效 率 有 正 向 的 影 響, 但 是 如 果 設 定 不 當, 將 造 成 無 法 學 習 到 最 佳 策 略 的 結 果, 如 表 八, 當 坦 克 順 利 撞 到 炸 彈 後 別 條 策 略 的 獎 懲 提 高 到 10, 就 會 造 成 如 圖 十 所 示, 當 回 合 數 非 常 大 時 仍 然 無 法 學 到 最 佳 策 略 ( 本 研 究 以 一 百 回 合 當 做 最 大 值, 超 過 則 認 為 此 設 定 失 敗 ) 表 八 失 敗 的 獎 懲 函 數 狀 態 s R(s) 1. 坦 克 撞 到 炸 彈, 該 條 策 略 -10 2. 坦 克 撞 到 炸 彈, 別 條 策 略 +10 3. 坦 克 順 利 走 到 終 點, 該 條 策 略 +20 4. 坦 克 順 利 走 到 終 點, 別 條 策 略 -10 30

圖 十 增 強 式 學 習 失 敗 圖 並 且 發 現 如 果 以 固 定 的 獎 懲 值, 將 無 法 表 現 出 路 線 的 危 險 程 度, 當 某 一 路 線 不 斷 的 撞 到 炸 彈 時, 增 加 固 定 的 值 並 不 合 理, 應 該 要 以 模 糊 函 數 來 計 算 獎 懲 值, 如 果 一 直 撞 到 炸 彈 時, 代 表 此 一 策 略 是 非 常 危 險 的, 應 該 要 給 予 更 高 的 懲 罰 2. 加 入 模 糊 理 論 經 由 實 驗 的 結 果, 本 研 究 用 模 糊 理 論 來 改 善 此 一 實 驗 首 先, 用 某 一 危 險 函 數 來 做 計 算,Xi為 該 條 路 線 的 危 險 變 數, 初 始 值 為 0, 當 碰 到 炸 彈 時 該 路 線 危 險 變 數 為 Xi=Xi+1, 若 連 續 碰 到 兩 次 則 Xi=Xi+2, 若 連 續 碰 到 三 次 則 Xi=Xi+3, 最 多 +3, 也 就 是 說 如 果 同 一 條 路 線 中 連 續 碰 撞 多 次 炸 彈, 就 代 表 該 路 線 非 常 危 險, 危 險 變 數 累 加 速 度 越 快, 反 之, 其 他 j=i條 路 線 的 危 險 變 數 Xj=Xj-1, 且 一 樣 有 累 加 的 效 果, 最 多 -3 31

舉 例 來 說, 選 擇 同 一 條 路 線 上 的 九 回 合 結 果 如 表 九 ( 炸 彈 可 移 動 所 以 同 條 路 線 會 有 碰 撞 或 沒 碰 撞 到 的 情 形 ) 表 九 危 險 變 數 例 子 回 合 1 2 3 4 5 6 7 8 9 結 果 + + + - - + - + + X 改 變 量 1 2 3 1 2 1 1 1 2 X總 量 1 3 6 5 3 4 3 4 6 +: 代 表 坦 克 撞 到 炸 彈 -: 代 表 坦 克 順 利 走 到 終 點 如 果 將 原 本 固 定 的 獎 懲 改 變 成 模 糊 獎 懲, 用 危 險 變 數 X來 代 表 危 險 程 度, 模 糊 隸 屬 函 數 (fuzzy membership function) 則 利 用 最 基 本 的 三 角 隸 屬 函 數 (Pieczy ski and Obuchowicz 2004)( 圖 十 一 ), 而 f=µ(x) 的 算 式 如 算 式 六 : 1, if x 10 10 x μ (x) =, if 0 < x < 10 (6) 10 0, if x = 0 圖 十 一 三 角 隸 屬 函 數 圖 32

此 一 算 式 所 計 算 出 來 的 危 險 模 糊 函 數 來 替 代 原 本 固 定 的 獎 懲 值, 新 的 模 糊 獎 懲 函 數 如 表 十, 因 為 f期 望 值 為 0.5, 所 以 新 的 模 糊 獎 懲 函 數 R 為 原 本 固 定 獎 懲 函 數 RR 二 倍 再 乘 上 f, 例 如 原 本 第 一 條 獎 懲 為 -10, 新 的 獎 懲 值 就 為 -20*f, 以 此 類 推 表 十 模 糊 獎 懲 函 數 狀 態 s R(s) 1. 坦 克 撞 到 炸 彈, 該 條 策 略 -20*f 2. 坦 克 撞 到 炸 彈, 別 條 策 略 +10*f 3. 坦 克 順 利 走 到 終 點, 該 條 策 略 +40*f 4. 坦 克 順 利 走 到 終 點, 別 條 策 略 -20*f 兩 個 實 驗 結 果 比 較 如 圖 十 二 及 表 十 一 可 以 看 出 加 入 模 糊 獎 懲 後,NPC 坦 克 只 要 約 26 回 合 就 可 以 學 到 唯 一 的 一 條 路 線, 比 起 原 本 未 加 入 前 的 固 定 獎 懲 快 了 約 20 回 合, 明 顯 的 提 高 學 習 效 率 圖 十 二 前 導 實 驗 結 果 圖 33

表 十 一 實 驗 結 果 數 據 ID E1 E2 1 58 29 2 52 28 3 54 24 4 59 25 5 55 26 6 52 32 7 56 27 8 54 28 9 47 30 10 59 23 mean 54.6 25.6667 success rate 0.56 0.67 E1: 固 定 獎 懲 E2: 模 糊 獎 懲 表 十 一 中 的 成 功 率 (success rate) 代 表 在 所 有 回 合 中, 成 功 走 到 終 點 的 機 率 ( 成 功 走 到 終 點 次 數 / 總 回 合 次 數 ), 如 果 以 每 十 回 合 來 看 E1 實 驗 的 成 功 次 數, 則 如 表 十 二 所 示 表 十 二 成 功 次 數 表 ID\ 回 合 1~10 11~20 21~30 31~40 41~50 51~60 61~70 1 5 5 6 8 10 10 10 2 3 2 5 5 8 10 10 3 1 3 4 4 10 10 10 4 2 6 4 6 8 10 10 5 2 2 3 4 9 10 10 6 2 2 5 7 9 10 10 7 3 2 7 5 8 9 10 8 3 4 3 5 10 9 10 9 2 3 3 7 9 10 10 10 3 4 3 6 10 10 10 mean 2.6 3.3 4.3 5.7 9.1 9.8 10 34

在 此 一 實 驗 中 可 以 看 出, 模 糊 理 論 確 實 可 以 明 顯 的 提 高 增 強 式 學 習 的 效 率, 而 且 不 只 是 提 高 效 率, 也 許 可 以 利 用 模 糊 邏 輯 來 控 制 其 難 易 度 的 調 整, 因 此 實 驗 除 了 使 用 基 本 的 三 角 隸 屬 模 糊 函 數, 也 利 用 了 高 斯 隸 屬 函 數 (Gaussian membership function ) 來 比 較 兩 者 的 差 別 (Pieczy ski and Obuchowicz 2004) 高 斯 隸 屬 函 數 算 式 如 公 式 七 : m 1 x c μ a ( x, c, s, m) = exp (7) 2 s x 為 危 險 函 數 值, c 為 中 央 值 (centre), s 為 寬 度 值 (width), m 為 模 糊 因 子 (fuzzification factor), 其 型 狀 如 圖 十 三 所 示 (c=5,s=2,m=2): 圖 十 三 高 斯 隸 屬 函 數 圖 在 此 實 驗 中 希 望 X的 值 不 要 超 過 5, 也 就 是 如 果 從 0開 始 計 算, 在 連 續 撞 到 第 三 次 時, 其 危 險 程 度 就 為 最 高, 因 此 固 定 中 央 值 c=5, 也 就 是 說 當 x 5其 危 險 函 數 值 f=µ(x)=1, 另 外 如 果 改 變 二 個 參 數 值 (s,m), 就 可 以 改 變, 隸 屬 函 數 的 圖 型, 如 果 只 改 變 s 的 話, 如 圖 十 四 所 示 ( 以 c=10, m=5, s=2,3,4,5,6,7) : 35

圖 十 四 模 糊 隸 屬 函 數 圖 (s 不 同 ) 36

如 果 只 改 變 m 的 話, 如 圖 十 五 所 示 ( 以 c=10, s=5, m=3,5,7) : 圖 十 五 模 糊 隸 屬 函 數 圖 (m 不 同 ) 高 斯 隸 屬 函 數 所 呈 現 的 表 現 較 符 合 本 研 究 所 期 望 的 智 能 表 現, 本 研 究 所 期 望 的 智 能 表 現 並 非 是 直 線 提 高 其 危 險 程 度, 而 是 要 根 據 不 同 的 需 求, 去 改 變 其 學 習 的 效 果, 例 如 如 果 目 前 希 望 一 個 後 知 後 覺 的 NPC, 那 應 該 要 如 圖 十 四 中 6 號 曲 線 ( 黃 色 ) 所 呈 現 的 結 果, 相 反 的 如 要 一 個 學 習 能 力 很 強 大 的 NPC, 就 要 s與 m兩 值 都 提 高, 如 圖 十 四 中 1 號 曲 線 的 結 果 ( 或 是 更 加 垂 直 ) 因 此 本 研 究 期 望 可 以 利 用 不 同 參 數 值 的 隸 屬 函 數, 可 以 用 來 做 為 調 整 難 度 的 機 制 37

4.5 實 驗 結 果 根 據 前 三 節 所 討 論, 本 研 究 想 探 討 不 同 模 糊 隸 屬 函 數 參 數 值 與 不 同 的 獎 懲 值 大 小 設 定 對 於 結 果 的 影 響, 將 不 同 的 值 代 入 實 驗 中, 並 紀 錄 NPCs 坦 克 需 要 多 少 回 合 才 能 學 到 唯 一 的 路 線, 得 到 的 結 果 中 發 現, 原 本 預 期 依 照 不 同 的 模 糊 參 數 值 (s與 m 值 ), NPCs會 有 不 同 的 行 為 模 式, 藉 此 可 以 調 整 遊 戲 的 難 度, 但 經 過 實 驗 發 現, 模 糊 參 數 值 的 調 整 並 不 能 達 到 原 本 的 預 期, 在 不 同 的 參 數 設 定 下, 只 會 影 響 數 據 的 穩 定 性, 而 不 會 形 成 不 同 的 行 為 表 現, 反 而 是 不 同 的 獎 懲 設 定 對 於 NPCs 行 為 模 式 影 響 程 度 較 大, 如 圖 十 六 所 示 及 說 明 圖 十 六 模 糊 函 數 實 驗 結 果 圖 圖 十 中, 從 所 有 結 果 挑 出 s=3,5與 m=3,5來 呈 現, 1 號 ( 藍 色 ) 線 條 代 表 模 糊 參 數 值 m=3 與 s=3的 四 種 不 同 獎 懲 值 下 的 結 果, 同 理, 2 號 ( 紅 色 ) 線 條 是 m=3與 s=5的 四 種 結 果,3 號 ( 綠 色 ) 線 條 是 m=5與 s=3的 四 種 結 果, 4 號 ( 黑 色 ) 線 條 是 m=5與 s=5的 四 種 結 果 而 A,B,C,D 四 點 則 是 代 表 在 該 模 糊 參 數 下 的 四 種 獎 懲 值 ( 參 考 4.3 節 ), 分 別 為 (40,20,20,10) (40,20,20,0) (40,15,20,10) 與 (40,20,20,5), 其 中 第 一 個 數 值 為 坦 克 順 利 走 到 終 點, 該 條 策 略 所 增 加 的 值, 第 二 個 數 值 為 坦 克 順 利 走 到 終 點, 別 條 策 略 所 減 少 38

,Y 軸 為 當 坦 克 學 到 唯 一 一 條 路 線 所 需 的 回 合 數 從 圖 中 可 以 看 出, 改 變 不 同 的 模 糊 函 數, 並 不 能 藉 由 函 數 的 改 變 來 改 變 學 習 的 模 式 的 不 同, 但 是 當 s 與 m 兩 者 參 數 都 增 加 的 情 型 下, 會 讓 NPCs 坦 克 的 學 習 效 果 越 一 致, 也 就 是 不 受 到 不 同 獎 懲 設 定 的 影 響 另 外, 改 變 獎 懲 的 大 小 會 直 接 影 響 學 習 的 表 現 ( 學 習 的 快 與 慢 ), 當 坦 克 撞 到 炸 彈, 別 條 策 略 所 增 加 的 值 越 少, 學 習 越 快, 這 也 是 合 理 的 行 為, 但 是 如 果 太 少 雖 然 學 的 比 較 快, 但 也 表 示 坦 克 就 會 減 少 嘗 試 其 他 路 線 的 機 會, 如 此 一 來 當 環 境 改 變 時 NPC 坦 克 可 能 就 不 懂 得 如 何 應 變, 因 此 從 以 上 結 果 可 以 看 出, 不 同 的 需 求 會 有 不 同 的 參 數 值, 換 句 話 說, 在 不 同 類 型 的 遊 戲 環 境 下, 會 有 不 同 的 參 數 設 定 雖 然 從 結 果 可 以 看 出 模 糊 函 數 並 不 能 改 變 行 為 模 式, 但 是 整 體 而 言, 模 糊 獎 懲 的 結 果 會 比 固 定 獎 懲 更 有 效 率 ( 學 習 的 回 合 數 較 少 ), 因 此 雖 然 從 實 驗 結 果 無 法 得 到 調 整 難 度 機 制 的 方 法, 但 是 利 用 模 糊 獎 懲 的 增 強 式 學 習 還 是 會 比 固 定 獎 懲 的 傳 統 增 強 式 學 習 更 有 效 率 此 外, 如 果 是 不 同 類 型 的 遊 戲, 可 能 需 要 不 同 的 學 習 曲 線, 像 是 第 一 人 稱 射 擊 遊 戲 與 即 時 戰 略 類 型 中,NPCs 需 要 的 可 能 是 比 較 穩 定 的 學 習 曲 線, 讓 NPCs 可 以 從 與 玩 家 互 動 中 穩 定 的 學 習, 不 會 讓 玩 家 突 然 覺 得 強 度 變 化 太 大, 不 可 預 測 ; 但 是 像 是 運 動 或 動 作 類 型 遊 戲 可 能 需 要 變 化 較 大 的 學 習 曲 線, 這 類 型 的 遊 戲 對 於 強 度 的 敏 感 度 較 低, 畢 竟 人 類 本 來 就 會 有 失 誤 的 情 形 產 生, 在 這 種 類 型 遊 戲 中, 如 果 NPCs 突 然 做 變 強 或 變 弱 並 不 會 讓 玩 家 覺 得 奇 怪, 反 而 只 會 覺 得 NPCs 只 是 產 生 失 誤, 但 是 整 體 而 言 並 不 會 造 成 影 響 39

4.6 遊 戲 呈 現 與 遊 戲 結 果 在 實 際 的 遊 戲 上, 本 研 究 利 用 魔 獸 爭 霸 三 的 編 輯 器 做 出 一 個 實 際 可 以 玩 的 遊 戲, 魔 獸 爭 霸 三 為 Blizzard 公 司 在 2000年 所 發 表 製 作 的 遊 戲, 遊 戲 中 附 有 遊 戲 編 輯 器 (world editor, 圖 十 七 ) 來 讓 玩 家 自 己 設 計 自 己 想 要 的 關 卡, 可 以 發 表 在 遊 戲 官 方 伺 服 器 戰 網 (Battle net, 圖 十 八 ) 之 上, 讓 所 有 玩 家 玩 到 自 己 設 計 的 圖, 因 為 其 功 能 非 常 齊 全, 因 此 受 到 玩 家 的 愛 戴, 創 造 出 許 多 小 遊 戲, 如 圖 如 當 下 很 紅 的 Dota TD等 等 小 遊 戲 都 是 從 玩 家 自 行 設 計 進 而 發 表 在 戰 網 上 面, 許 多 遊 戲 甚 至 成 為 經 典 且 被 視 為 一 種 新 的 遊 戲 類 型, 如 Dota 類 型 遊 戲, 原 是 為 Defend of the Ancient, 是 一 名 歐 洲 玩 家 eul 所 自 行 設 計 出 的 新 遊 戲 類 型, 玩 家 分 成 兩 邊 陣 營 控 制 英 雄 去 攻 打 對 方 軍 營, 該 遊 戲 融 合 了 許 多 要 素, 如 升 級 系 統 道 具 系 統 技 能 系 統 等, 擁 有 龐 大 的 玩 家 群, 雖 然 在 魔 獸 爭 霸 資 料 片 時 停 止 更 新, 但 是 因 此 有 非 常 多 的 玩 家 按 照 這 樣 此 類 型 設 計 去 研 發 新 圖, 像 是 國 外 的 Dota allstar 與 Dota chaos, 國 內 的 真 三 國 無 雙 信 長 的 野 望 等 等, 甚 至 還 有 遊 戲 公 司 專 門 獨 立 研 發 此 一 類 型 的 遊 戲, 如 League of Lengends(Riot games,2009) Heros of Newerth(S2 games,2010) 與 中 國 自 行 研 發 的 夢 三 國 ( 杭 州 電 魂,2010) 等 等 遊 戲 圖 十 七 遊 戲 編 輯 器 ( 資 料 來 源 : 魔 獸 爭 霸 III 截 圖, 版 權 所 有 :Blizzard) 40

圖 十 八 戰 網 示 意 圖 ( 資 料 來 源 : 魔 獸 爭 霸 III 截 圖, 版 權 所 有 :Blizzard) 根 據 之 前 所 提 的 遊 戲 概 念, 本 研 究 製 作 了 一 個 坦 克 對 戰 的 遊 戲 ( 如 圖 十 九 ), 在 這 一 遊 戲 中, 玩 家 可 以 控 制 在 下 方 的 玩 家 坦 克 移 動 且 攻 擊, 會 有 NPC 坦 克 從 上 面 出 現, 並 且 會 有 隨 機 的 牆 ( 圖 十 四 中 藍 色 的 橫 槓 ) 出 現 來 阻 擋 玩 家 的 攻 擊, NPC坦 克 會 利 用 模 糊 增 強 式 學 習 技 術 不 斷 的 學 習 到 玩 家 的 攻 擊 行 為, 進 而 利 用 牆 壁 來 躲 開 玩 家 的 攻 擊, 當 NPC 坦 克 往 下 走 到 玩 家 的 基 地 時, 玩 家 將 會 受 到 攻 擊, 並 降 低 生 命 值, 而 當 玩 家 成 功 擊 敗 NPC 坦 克 時 就 會 提 高 自 身 的 分 數, 當 玩 家 生 命 值 降 低 成 零 時 遊 戲 就 結 束, 分 數 最 高 的 玩 家 就 是 此 一 遊 戲 的 贏 家 41

圖 十 九 遊 戲 畫 面 圖 ( 資 料 來 源 : 魔 獸 爭 霸 III 截 圖, 版 權 所 有 :Blizzard) 本 實 驗 讓 NPC 坦 克 具 有 模 糊 增 強 式 學 習 的 人 工 智 慧, 一 開 始 NPC 坦 克 會 隨 機 選 擇 路 線 並 且 紀 錄 路 線 到 路 線 資 料 庫 內, 當 NPC 坦 克 被 玩 家 擊 敗 或 是 成 功 走 到 最 底 部, 就 算 本 回 合 結 束, 接 著 下 一 回 合 開 始 NPC 坦 克 會 從 隨 機 或 是 從 路 線 資 料 庫 中 選 擇 出 這 回 合 要 執 行 的 路 線, 如 果 是 由 隨 機 選 擇 路 線 的 話, 則 會 判 斷 是 否 是 一 條 新 的 路 線, 新 的 路 線 就 再 將 這 條 路 線 紀 錄 起 來 到 資 料 庫 內, 其 流 程 圖 如 圖 二 十 42

圖 二 十 遊 戲 進 行 流 程 圖 43

在 此 實 驗 中, 使 用 ε-greedy 演 算 法 來 決 定 NPC 是 否 決 定 探 索 新 路 線, 設 定 的 機 率 為 10%, 而 路 線 的 選 擇 機 制 則 是 利 用 前 導 實 驗 所 做 出 的 結 果, 使 用 SARSA 演 算 法 的 模 糊 增 強 式 學 習, 模 糊 隸 屬 函 數 是 使 用 高 斯 隸 屬 函 數, 參 數 為 c=10 s=5 以 及 m=5, 每 條 新 產 生 的 路 線 都 會 給 予 路 線 的 選 擇 值 t, 其 初 始 值 設 定 為 50, 每 回 合 結 束 後 都 會 做 重 複 運 算, 此 值 就 會 決 定 路 線 被 選 擇 出 來 的 機 率 大 小, 也 就 是 說 當 NPC 坦 克 在 此 條 路 線 被 擊 敗 時, 就 會 根 據 SARSA 演 算 法 去 懲 罰 此 條 路 線, 減 少 t 值, 反 之 則 會 增 加 t 值 NPC 坦 克 會 學 習 到 如 何 利 用 地 型 避 開 玩 家 的 攻 擊, 因 實 驗 需 求, 本 實 驗 設 定 一 面 牆 讓 NPC 坦 克 必 能 成 功 避 開 攻 擊 並 成 功 抵 達 目 標, 也 就 是 玩 家 一 定 會 因 為 生 命 被 扣 完 而 結 束 遊 戲, 最 後 再 以 玩 家 所 取 得 的 分 數 來 當 勝 負 的 判 別 遊 戲 完 成 之 後, 再 將 此 遊 戲 放 到 戰 網 上 讓 玩 家 下 載, 在 遊 戲 的 過 程 中 可 以 發 現, 玩 家 對 於 NPC 坦 克 會 避 開 攻 擊 感 到 很 有 趣, 且 為 了 取 得 更 高 分 會 想 盡 辦 法 去 擊 敗 NPC 坦 克, 如 果 想 要 挑 戰 不 同 的 難 度 或 玩 法, 也 可 以 藉 著 改 變 牆 的 位 置 或 是 改 變 增 強 式 學 習 的 獎 懲 值 設 定, 讓 NPC 坦 克 可 以 有 不 同 的 表 現, 玩 家 因 此 可 以 與 NPC 坦 克 鬥 智 產 生 樂 趣 44

4.7 如 何 實 際 應 用 模 糊 增 強 式 學 習 從 本 研 究 得 知, 模 糊 增 強 式 學 習 確 實 是 可 以 應 用 在 坦 克 類 型 遊 戲 之 中, 但 是 數 位 遊 戲 有 很 多 類 型, 在 不 同 的 遊 戲 類 型 可 能 會 有 不 同 的 應 用 情 形 1. 第 一 人 稱 遊 戲 類 型 例 如 在 第 一 人 稱 射 擊 遊 戲 中 就 可 以 本 研 究 所 做 的 路 徑 搜 尋 功 能, 第 一 人 稱 射 擊 遊 戲 中 的 NPCs 跟 坦 克 對 戰 類 型 遊 戲 有 異 曲 同 工 之 妙,NPCs 都 需 要 知 道 去 避 開 危 險, 找 到 一 條 安 全 且 可 以 擊 敗 的 玩 家 的 路 徑, 不 同 的 是 第 一 人 稱 射 擊 遊 戲 通 常 會 更 複 雜, 會 有 更 多 因 素 來 影 響 NPCs 的 決 定, 例 如 與 玩 家 的 距 離 武 器 的 不 同 是 否 要 與 玩 家 硬 碰 硬 等 等, 要 將 更 多 的 因 素 加 入 路 線 危 險 程 度 的 考 慮, 但 是 同 樣 的 是 可 以 讓 模 糊 增 強 式 學 習 成 為 NPCs 選 擇 路 徑 的 一 個 依 據, 讓 NPCs 有 更 具 人 性 化 的 行 動 表 現 2. 角 色 扮 演 類 型 如 果 是 以 目 前 最 熱 門 的 線 上 角 色 扮 演 類 型 的 遊 戲, 或 許 可 以 將 模 糊 增 強 式 學 習 技 術 應 用 在 敵 方 NPCs 的 出 招 模 式 上, 在 此 類 型 的 遊 戲 中, 最 吸 引 玩 家 的 過 程 通 常 是 集 合 許 多 玩 家 一 起 去 打 敗 強 大 的 敵 方 頭 目 (NPCs) 來 取 得 稀 有 的 物 品 獎 勵, 而 不 同 的 NPCs 可 能 就 會 有 不 一 樣 的 行 為 模 式, 雖 然 同 樣 的 一 個 NPC 可 能 會 有 許 多 不 同 的 行 為, 但 是 不 同 的 行 為 通 常 會 是 隨 機 產 生 的, 因 此 玩 家 在 玩 過 幾 次 後 通 常 會 知 道 NPC 會 有 哪 幾 種 行 為, 該 如 何 避 開 NPC 的 招 式, 所 以 玩 過 幾 次 後 打 頭 目 NPC 的 過 程 就 變 成 有 固 定 的 模 式 且 不 斷 重 複 的 無 趣 過 程, 遊 戲 公 司 也 必 須 要 一 直 出 更 多 不 同 的 場 景 與 不 同 的 NPCs 來 因 應 玩 家 的 需 求, 因 此 如 果 能 讓 NPCs 都 具 有 模 糊 增 強 式 學 習 的 人 工 智 慧, 讓 NPCs 可 以 學 習 到 玩 家 的 行 為, 進 而 選 擇 不 同 的 行 為 模 式, 就 可 以 讓 遊 戲 變 得 更 有 趣, 延 長 遊 戲 的 壽 命 45

3. 即 時 戰 略 遊 戲 類 型 以 即 時 戰 略 類 型 遊 戲 而 言, 模 糊 增 強 式 學 習 可 以 應 用 在 NPC 的 出 兵 選 擇 上, 在 此 類 型 的 遊 戲 中, 兵 種 的 相 剋 是 取 得 勝 利 的 一 個 重 要 因 素, 但 是 玩 家 常 會 異 想 天 開 的 發 展 出 許 多 不 同 的 兵 種 來 做 搔 擾 戰 術, 如 果 要 用 規 則 基 礎 方 法 來 做 NPCs 人 工 智 慧 技 術 的 話, 可 能 需 要 很 非 龐 大 的 程 式 碼 才 能 達 到 目 標, 而 且 這 類 型 的 遊 戲 會 不 斷 的 更 新 以 求 平 衡, 如 此 一 來 各 個 兵 種 在 不 同 的 版 本 可 能 會 有 不 一 樣 的 功 能, 但 NPCs 卻 不 會 像 人 類 玩 家 一 樣 用 經 驗 去 學 習 在 不 同 版 本 情 形 下 的 玩 法, 如 果 有 增 強 式 學 習 的 技 術, 也 就 可 以 不 需 要 重 新 寫 NPCs 的 人 工 智 慧 程 式 碼, 而 是 直 接 讓 NPCs 去 學 習 玩 家 的 玩 法, 並 且 做 出 相 對 應 的 兵 種 來 剋 制 玩 家 的 玩 法, 如 此 一 來 就 可 以 讓 遊 戲 更 具 挑 戰 且 有 趣 4. 回 合 式 戰 略 類 型 遊 戲 在 回 合 式 戰 略 類 型 遊 戲 中, 通 常 玩 家 會 挑 戰 同 樣 的 一 個 局 面 很 多 次, 想 出 不 同 的 戰 略 來 打 贏 電 腦, 就 像 是 下 一 盤 棋 一 樣, 因 此, 這 類 型 遊 戲 的 流 程 非 常 適 用 增 強 式 學 習 技 術, 如 果 可 以 讓 NPCs 學 習 到 移 動 不 同 的 棋 子 ( 或 遊 戲 中 電 腦 所 控 制 的 兵 力 ) 時, 玩 家 會 有 怎 樣 不 同 的 反 應, 並 且 瞭 解 到 玩 家 曾 出 現 過 的 怪 招, 就 可 以 加 強 難 度, 並 且 讓 玩 家 更 具 挑 戰, 畢 竟 這 類 型 的 遊 戲 就 是 要 讓 玩 家 不 斷 的 嘗 試 不 同 的 戰 略 去 取 得 勝 利, 因 此 增 強 式 學 習 會 非 常 適 用 5. 其 他 類 型 除 此 之 外, 還 可 以 應 用 在 許 多 不 同 種 類 的 遊 戲 之 中, 但 是 最 主 要 的 應 用 在 於 當 NPCs 要 選 擇 如 何 應 對 玩 家 的 行 為 時, 如 以 上 所 提 到 的 NPCs 要 選 擇 不 同 的 路 徑 避 開 玩 家, 或 是 選 擇 不 同 的 招 式 來 打 敗 玩 家 等 等, 這 也 就 是 玩 家 想 要 遊 戲 中 NPCs 具 有 人 工 智 慧 技 術 的 一 大 原 因, 只 要 NPCs 應 對 玩 家 行 為 可 以 更 人 性 化 且 聰 明, 那 就 會 讓 玩 家 覺 得 自 己 並 不 是 在 跟 單 調 的 電 腦 玩, 而 是 一 個 會 思 考 的 機 器, 如 此 一 來 就 可 以 增 加 遊 戲 的 耐 玩 性 與 樂 趣 46

雖 然 增 強 式 學 習 技 術 可 以 應 用 在 許 多 不 同 類 型 的 的 遊 戲 中, 但 仍 然 有 許 多 不 合 適 的 類 型, 像 是 : 6. 運 動 遊 戲 類 型 在 運 動 遊 戲 類 型 中, 大 部 份 的 NPCs 行 為 模 式 都 非 常 複 雜, 而 且 常 常 不 只 有 一 兩 個 行 為 目 標, 同 時 運 動 遊 戲 類 型 的 玩 家 常 常 是 兩 個 人 以 上, 在 此 種 情 形 下, 要 應 用 增 強 式 學 習 技 術 可 能 會 非 常 的 困 難, 除 了 要 有 更 複 雜 的 演 算 法 之 外, 還 不 一 定 可 以 有 很 好 的 效 率, 如 果 要 應 用 增 強 式 學 習 技 術 的 話, 可 能 就 要 限 制 許 多 的 條 件 7. 動 作 遊 戲 類 型 ( 如 格 鬥 遊 戲 等 ) 增 強 式 學 習 技 術 在 動 作 遊 戲 類 型 中 會 非 常 的 不 適 用, 如 同 運 動 遊 戲 類 型 一 樣, 動 作 遊 戲 類 型 有 太 複 雜 的 行 為 模 式, 且 這 類 型 的 遊 戲 的 NPCs 並 不 需 要 太 聰 明 或 是 複 雜 的 行 為, 通 常 只 需 要 幾 種 簡 單 的 行 為, 讓 玩 家 在 玩 的 過 程 中 知 道 如 何 擊 敗, 並 因 此 取 得 快 感, 如 果 NPCs 具 有 太 強 大 的 學 習 能 力, 會 讓 遊 戲 變 得 太 過 複 雜 與 困 難, 反 而 失 去 樂 趣 47

4.8 本 章 小 結 從 本 章 對 於 模 糊 增 強 式 學 習 的 一 個 前 導 實 驗 中 可 以 看 出 以 下 幾 點 : I. 模 糊 增 強 式 學 習 的 一 個 實 作 中 可 以 看 出, 增 強 式 學 習 確 實 可 以 讓 NPC 坦 克 在 一 段 時 間 內 找 到 一 條 正 確 的 路 線, II. 用 模 糊 獎 懲 機 制 去 取 代 固 定 獎 懲 機 制 可 以 提 高 增 強 式 學 習 的 效 率, III. 另 外, 模 糊 隸 屬 函 數 的 選 擇 可 以 改 變 NPCs 的 學 習 模 式, 但 是 並 無 規 律 可 尋, 在 不 同 的 遊 戲 環 境 下 可 能 需 要 不 同 的 隸 屬 函 數 來 改 變 NPCs 的 行 為 模 式 此 外, 本 研 究 也 實 際 的 做 出 了 一 個 坦 克 對 戰 的 遊 戲, 在 遊 戲 中 的 NPC 坦 克 具 有 模 糊 增 強 式 學 習 的 能 力,NPC 坦 克 依 據 不 同 環 境 ( 障 礙 物 與 玩 家 行 為 ) 下 做 出 不 同 的 反 應, 讓 玩 家 覺 得 NPC 坦 克 是 具 有 智 慧 的 從 實 驗 中 就 可 以 看 出 模 糊 增 強 式 學 習 確 實 可 應 用 在 數 位 遊 戲 之 上, 並 且 也 可 以 有 很 好 的 效 率 48

第 5 章 結 論 本 章 將 對 本 研 究 所 獲 得 之 結 果 進 行 總 結 與 討 論, 從 前 導 實 驗 中 可 以 看 出 增 強 式 學 習 的 效 果, 以 及 模 糊 理 論 提 高 效 率 的 成 果, 實 驗 的 結 果 也 證 明 了 本 研 究 的 研 究 假 設, 以 下 各 節 將 依 序 對 於 本 研 究 做 一 個 整 體 的 結 論, 以 及 探 討 如 何 應 用 模 糊 增 強 式 學 習 在 不 同 類 型 的 遊 戲 之 中, 最 後 是 本 研 究 的 各 種 限 制 與 未 來 可 以 發 展 的 研 究 議 題 5.1 摘 要 遊 戲 人 工 智 慧 對 數 位 遊 戲 而 言 是 很 重 要 的 一 個 環 節, 遊 戲 人 工 智 慧 讓 遊 戲 中 的 NPCs 可 以 表 現 得 更 聰 明, 但 是 數 位 遊 戲 中 NPCs 所 需 要 的 人 工 智 慧 並 非 完 美 的 人 工 智 慧, 不 會 出 錯 的 人 工 智 慧 會 讓 玩 家 產 生 壓 力, 反 而 讓 玩 家 對 遊 戲 失 去 耐 心, 在 此 一 前 題 之 下, 增 強 式 學 習 技 術 是 一 個 解 決 方 案 增 強 式 學 習 是 一 種 以 過 去 經 驗 來 學 習 的 人 工 智 慧 技 術, 目 前 已 經 在 各 個 領 域 被 廣 為 應 用, 但 是 在 數 位 遊 戲 中 的 應 用 還 非 常 少, 最 大 的 原 因 就 是 因 為 其 需 要 很 長 的 一 段 試 誤 學 習 過 程, 但 是 這 樣 的 特 性 並 不 適 用 於 數 位 遊 戲 之 中, 因 此 本 研 究 就 利 用 模 糊 獎 懲 來 取 代 原 本 的 固 定 獎 懲, 以 期 改 善 其 效 率 本 研 究 實 際 的 做 出 一 款 坦 克 對 戰 的 遊 戲 來 當 作 實 驗 的 平 台, 讓 其 中 的 NPC 坦 克 具 有 模 糊 增 強 式 學 習 的 人 工 智 慧, 在 此 之 前, 也 做 了 一 個 前 導 實 驗 去 探 討 不 同 參 數 對 於 模 糊 增 強 式 學 習 的 影 響 實 驗 的 結 果 顯 示, 本 研 究 成 功 的 利 用 增 強 式 學 習 讓 遊 戲 中 的 NPC具 有 如 人 類 的 學 習 思 考 模 式, 模 擬 獎 懲 可 以 加 快 增 強 式 學 習 的 效 率, 當 學 習 的 效 率 提 高 後, 就 可 以 實 際 的 應 用 在 數 位 遊 戲 之 中, 從 前 導 實 驗 之 中 得 知, 獎 懲 機 制 對 於 整 體 的 表 現 有 很 大 的 影 響, 如 果 獎 勵 過 高, 雖 然 會 正 向 的 提 高 效 率, 但 是 過 高 則 會 造 成 實 驗 永 遠 不 會 結 束 的 後 果, 如 果 太 低, 又 會 讓 代 理 人 學 習 過 慢, 變 得 非 常 沒 有 效 率, 而 且 不 同 的 遊 戲 設 計 之 下, 會 需 要 有 不 同 的 獎 懲 值 設 定, 根 據 遊 戲 的 需 求 來 調 整 獎 懲 值 的 高 低 與 模 糊 獎 懲 函 數 模 擬 函 數 雖 然 很 明 顯 的 可 以 提 高 效 率, 但 是 並 不 能 如 原 本 預 期 的 來 調 整 其 遊 戲 難 度 49

5.2 結 論 本 研 究 成 功 的 應 用 增 強 式 學 習 技 術 在 數 位 遊 戲 之 中, 因 應 本 研 究 的 研 究 假 設 (p.11), 可 以 得 到 以 下 幾 點 結 論 : 研 究 假 設 I: 本 研 究 假 設 在 傳 統 數 位 遊 戲 中 加 入 增 強 式 學 習 技 術 可 以 讓 遊 戲 中 的 NPCs 具 有 學 習 的 能 力, 會 依 據 玩 家 不 同 的 行 為 來 做 出 不 同 的 反 應, 並 可 適 應 遊 戲 環 境 的 改 變 進 行 調 整 從 本 研 究 的 實 驗 中, 可 以 看 出 NPCs 具 有 增 強 式 學 習 的 人 工 智 慧 時 可 以 讓 NPCs 學 習 到 如 何 避 開 炸 彈, 學 到 唯 一 的 策 略, 如 表 十 二 ( 詳 細 介 紹 見 本 論 文 4.3 節 ) 固 定 獎 懲 (E1) 平 均 約 55 次 可 以 學 到 唯 一 路 線 (E2 為 模 糊 獎 懲 ), 即 使 環 境 改 變 或 是 玩 家 行 為 不 同 導 致 的 狀 態 不 同,NPCs 都 可 以 馬 上 感 知 到, 改 變 自 己 的 行 為, 選 擇 不 同 的 路 線, 如 圖 二 十 一 所 示 圖 二 十 一 實 驗 環 境 改 變 坦 克 學 習 圖 50

研 究 假 設 II: 利 用 模 糊 理 論 提 昇 增 強 式 學 習 效 率 從 本 研 究 的 實 驗 數 據 可 以 看 出, 模 糊 獎 懲 與 固 定 獎 懲 有 很 大 的 差 距 ( 相 差 約 二 十 回 合, 詳 細 說 明 見 4.3 節 ), 模 糊 獎 懲 可 以 有 效 的 改 善 學 習 效 率, 當 效 率 改 善 後 實 際 在 數 位 遊 戲 中 應 用 的 可 行 性 將 會 大 大 的 提 昇 從 實 驗 結 果 也 可 以 看 出 ( 見 表 十 三 ), 應 用 增 強 式 學 習 技 術 於 數 位 遊 戲 NPCs 中 的 關 鍵 在 於 獎 懲 機 制 的 設 定, 獎 懲 值 的 高 低 直 接 影 響 到 增 強 式 學 習 的 效 果 與 效 率 設 定 不 當, 反 而 可 能 會 無 法 發 揮 效 果, 模 糊 獎 懲 的 機 制 可 以 讓 獎 懲 的 設 定 更 有 變 化, 同 時 也 改 善 了 傳 統 增 強 式 學 習 的 效 率, 當 增 強 式 學 習 效 率 改 善 後, 就 可 以 應 用 在 許 多 不 同 類 型 的 遊 戲 中, 讓 數 位 遊 戲 的 NPCs 更 聰 明, 行 為 更 人 性 化, 遊 戲 也 會 因 此 增 加 耐 玩 性 與 互 動 性 表 十 三 實 驗 結 果 表 ID E1 E2 1 58 29 2 52 28 3 54 24 4 59 25 5 55 26 6 52 32 7 56 27 8 54 28 9 47 30 10 59 23 mean 54.6 25.6667 success rate 0.56 0.67 E1: 固 定 獎 懲 E2: 模 糊 獎 懲 51

5.3 研 究 限 制 與 未 來 研 究 1. 研 究 限 制 : 本 研 究 所 受 到 的 限 制, 如 下 所 述 : 首 先, 因 為 數 位 遊 戲 有 太 多 種 類 型, 因 此 本 研 究 只 能 選 擇 其 中 一 種 來 做 實 驗, 並 且 結 果 無 法 一 般 化, 是 否 有 更 好 的 方 法 可 以 應 用 在 所 有 的 遊 戲 類 型 之 中 會 是 一 個 非 常 具 有 挑 戰 性 的 問 題 另 外 在 本 研 究 的 坦 克 對 戰 類 型 遊 戲 中, 為 了 瞭 解 增 強 式 學 習 技 術 與 模 糊 理 論 的 實 用 性, 本 論 文 簡 化 了 遊 戲 的 過 程, 讓 NPC 坦 克 的 目 標 只 是 移 動 到 玩 家 的 陣 地, 但 是 實 際 的 遊 戲 不 應 該 是 如 此 簡 單, 在 路 徑 中 或 許 會 有 一 些 可 以 增 益 的 道 具 或 是 不 同 的 機 關 讓 遊 戲 更 有 趣, 在 這 樣 的 情 形 下 就 需 要 有 更 多 的 因 素 加 入 在 獎 懲 機 制 之 中, 並 且 反 映 到 SARSA 演 算 法 中, 因 此 未 來 可 以 研 究 多 目 標 增 強 式 學 習 運 算 方 式 2. 未 來 研 究 I. 如 研 究 限 制 中 所 提 到, 如 果 除 了 懲 罰 因 素 ( 如 本 研 究 的 炸 彈 ) 加 入 了 獎 勵 因 素 ( 如 在 本 研 究 中 加 入 替 NPC 坦 克 抵 擋 玩 家 攻 擊 之 道 具 ), 會 有 更 複 雜 的 情 形 產 生, 在 這 樣 的 狀 態 下 該 如 何 應 用 增 強 式 學 習 是 一 個 值 得 研 究 的 議 題 II. 另 外, 現 在 的 數 位 遊 戲 常 常 是 可 以 多 人 進 行 的, 如 果 是 可 以 多 人 進 行 的 遊 戲, 那 NPCs 應 該 也 會 有 不 同 的 反 應, 同 時 如 果 是 線 上 即 時 的 遊 戲 時, 那 可 能 會 有 更 複 雜 的 情 形 產 生, 如 何 有 效 的 應 用 模 糊 增 強 式 學 習 在 這 些 複 雜 的 情 形 下 也 會 是 一 個 有 趣 的 議 題 III. 除 此 之 外 還 可 以 探 討 增 強 式 學 習 中 各 種 不 同 的 演 算 法 (q-learning 與 SARSA 等 ) 應 用 在 不 同 的 遊 戲 類 型 上 的 表 現 等, 在 這 其 中 仍 然 有 許 多 的 研 究 議 題 值 得 深 入 去 做 研 究 52

參 考 文 獻 中 文 : 1. 丁 一 賢 與 陳 牧 言 (1995) 資 料 探 勘 台 中 市 : 滄 海 書 局 2. 朱 敬 先 (2005) 幼 兒 教 育 台 北 市 : 五 南 出 版 社 3. 李 豐 良 (2006) 動 作 型 電 腦 遊 戲 設 計 因 素 探 討 國 立 交 通 大 學 工 業 工 程 與 管 理 所 博 士 論 文 新 竹 市 4. 陳 尤 中 (2006) 數 位 遊 戲 中 玩 家 介 入 遊 戲 的 分 類 國 立 交 通 大 學 資 訊 科 學 與 工 程 研 究 所 碩 士 論 文 新 竹 市 5. 陳 亭 光 (2008) 基 於 使 用 者 經 驗 之 多 準 則 評 分 遊 戲 推 薦 系 統 國 立 臺 灣 大 學 資 訊 管 理 所 碩 士 論 文 台 北 市 6. 斐 善 成 (2007) 應 用 強 化 式 學 習 建 構 模 糊 類 神 經 控 制 系 統 國 立 中 山 大 學 電 機 工 程 所 碩 士 論 文 高 雄 市 7. 曾 世 绮 (2007) 驗 證 遊 戲 吸 引 人 之 要 素 : 內 容 分 析 魔 獸 世 界 佛 光 大 學 資 訊 教 育 所 碩 士 論 文 宜 蘭 縣 8. 詹 姆 士 強 森 (2005) 幼 兒 遊 戲 - 以 0~8 歲 幼 兒 園 實 務 為 導 向 華 騰 文 化 譯 台 北 市 9. 蔡 淑 苓 (2004) 遊 戲 理 論 與 應 用 : 以 幼 兒 遊 戲 與 幼 兒 教 師 教 學 為 例 台 北 市 : 五 南 書 局 10. 簡 國 斌 (2010) 數 位 遊 戲 之 游 藝 功 能 要 素 分 析 國 立 臺 北 教 育 大 學 玩 具 與 遊 戲 設 計 所 碩 士 論 文 台 北 市 英 文 : 11. Aha, D. W., Molineaux, M. and Ponsen, M. (2003), Learning to Win: Case-Based Plan Selection in a Real-Time Strategy Game, In Proceedings of the Sixth International Conference on Case-Based Reasoning, Trondheim, Norway, June 23-26, pp. 5-20. 12. Buckland, M.(2005), Programming game AI by example, Jones & Bartlett Publishers, Sudbury MA. 13. Bianchi, R. A. C. and Ribeiro, C. H.C. and Costa, A. H. R.(2007), Heuristic selection of actions in multiagent reinforcement learning, In Proceedings of the 20th International Joint Conference on Artifical Intelligence, India,January 6-12, pp. 690-696. 53

14. Björnsson, Y., Hafsteinsson, V., Jóhannsson, A. and Jónsson, E.(2004), Efficient Use of Reinforcement Learning in A Computer Game, In Proceedings of the International Conference on Computer Games: Artificial Intelligence, Design and Education, University of Wolverhampton, UK, November8-10, pp.379-383. 15. Barber, H. and Kudenko, D. (2007), Adaptive Generation of Dilemma-based Interactive Narratives, Advanced Intelligent Paradigms in Computer Games in Book series of Studies of Computational Intelligence (71), Springer Berlin / Heidelberg, pp. 19-37. 16. Bourg, D. M. and Seemann, G.(2004), AI for Game Developers, O'Reilly Media, Cambridge, Massachusetts. 17. Charles, D.(2004), "Enhancing Gameplay: Challenges for Artificial Intelligence in Digital. Games", LNCS 3166, Springer Berlin / Heidelberg, pp.57-108. 18. Ghory, I.(2004), Reinforcement learning in board games., Technical Report of Department of Computer Science, University of Bristol, England, UK 19. Graepel, T. Herbrich, R. and Gold, J. (2004), Learning to fight, In Proceedings of the International Conference on Computer Games: Artificial Intelligence, Design and Education. University of Wolverhampton, UK, November8-10, pp.193-200. 20. Pieczy ski, A. and Obuchowicz, A.(2004), Application of the General Gaussian Membership Function for the Fuzzy Model Parameters Tunning, LNCS 3070, Springer Berlin / Heidelberg, pp.350-355. 21. Jin, X. H., Jang, D. H. and Kim, T.Y.(2008), Evolving Game NPCs Based on Concurrent Evolutionary Neural Networks, LNCS 5093, Springer Berlin / Heidelberg, pp. 230 239. 22. Livingstone D. & Charles D(2004), Intelligent Interfaces for Digital Games, Springer Berlin / Heidelberg LNCS 3166, pp.57-108. 23. McPartland, M. and Gallagher, M.(2008), Creating a Multi-Purpose First Person Shooter Bot with Reinforcement Learning, In Proceedings of Computational Intelligence and Games, Perth, Australia, December 15-18, pp. 143-150. 24. Ponson, M et al.(2006), Hierarchical Reinforcement Learning with Deictic, In Proceedings of the 18th Belgium-Netherlands Conference on Artificial Intelligence (BNAIC 2006), University of Namur, Belgium, October 5-6, pp. 251-258. 25. Ponson, M. and Spronck, P.(2004), Improving Adaptive game AI With Evolutionary Learning, In proceedings of 15 th International Conference on Computer Games: AI, 54

Animation, Mobile, Interactive Multimedia, Educational & Serious Games, University of Wolverhampton, UK. pp. 389-396 26. Russell, S. and Norvig, P.(2003), Artificial Intelligence A Modern Approach, Prentice Hall, New Jersey. 27. Sutton, R. S. and A. G. Barto (1998). Reinforcement Learning: An Introduction. MIT Press, Cambridge, MA. 28. Szita, I. and Lorincz, A.(2007), Learning to Play Using Low-Complexity Rule-Based Policies:Illustrations through Ms. Pac-Man, Journal of Artificial Intelligence Research (30), pp.659-684 29. Seo, H.(2000), A Fuzzy Reinforcement Function for the Intelligent Agent to process Vague Goals. In Proceedings of the 19th IEEE International Conference of the North American Fuzzy Information Processing Society, Atlanta, Georgia, Usa, July 13-15, pp.29-33. 30. Spronck, P., Ponsen, M., Sprinkhuizen-Kuyper, I., Postma, I. (2006), Adaptive game AI with dynamic scripting, Machine Learning (63), pp. 217 248 31. Wender, S. and Watson, I.(2008), Using Reinforcement Learning for City Site Selection in the Turn-Based Strategy Game Civilization IV, In proceedings of the International Conference on Computational Intelligence and Games, Perth, Australia, December 15-18, pp. 372-377. 32. Watkins, C. J. C. H. and P. Dayan (1992). Q-learning. Machine Learning (8), pp.279 292. 33. Zadeh, L.A. (1968). Fuzzy Algorithms". Information and Control 12 (2), pp. 94 102. 網 站 : 34. 台 灣 經 濟 研 究 院 (2008) 2010 年 6 月 全 球 消 費 性 電 子 產 品 業 產 業 研 究 報 告, 取 自 :http://www.tier.org.tw 35. 行 政 院 六 大 新 興 產 業 主 題 網 (2010) 文 化 創 意 產 業 2010 年 6 月 取 自 : http://www.ey.gov.tw/lp.asp?ctnode=3038&ctunit=1254&basedsd=7&mp=97 36. 杭 州 電 魂 (2010) 夢 三 國 2010 年 7 月 取 自 :http://www.m3guo.com 37. 資 策 會 資 訊 市 場 情 報 中 心 (2008) 台 灣 遊 戲 市 場 發 展 現 況 與 趨 勢 2010 年 6 月 取 自 :http://mic.iii.org.tw/aisp/ 38. Blizzard(2000), world editor of warcraft III, Retrieved May 20, 2009, from the World 55

Wide Web: http://classic.battle.net/war3/faq/worldeditor.shtml 39. Epstein, S. L.(1999), Games & Puzzles, Retrieved July 8, 2010, from the World Wide Web: http://www.aaai.org/aitopics/pmwiki/pmwiki.php/aitopics/games 40. Melenchuk, P.(2000), Reinforcement Learning, Retrieved 15 May 2009, from the World Wide Web: http://pages.cpsc.ucalgary.ca/~jacob/courses/winter2000/cpsc533/pages/cpsc-533-c ourseoutlein.html 41. Riot games (2009).League of Lengends. Retrieved July 8, 2010, from the World Wide Web: http://www.leagueoflegends.com 42. S2 games (2010). Heroes of newerth. Retrieved July 8, 2010, from the World Wide Web: http://www.heroesofnewerth.com 56