國立高雄大學數位論文典藏

Similar documents

國立中山大學學位論文典藏.PDF

MAXQ BA ( ) / 20

<4D F736F F D20BCFAA755AAA92DABC8AE61AAE1A5ACB2A3B77EB56FAE69A4A7ACE3A873A147A548B8EAB7BDB0F2C2A6AABAC65BC2492E646F63>

Microsoft Word - CMRO ??????????????? Luxiaoyan

致谢本人自 2008 年 6 月从上海外国语大学毕业之后, 于 2010 年 3 月再次进入上外, 非常有幸成为汉语国际教育专业的研究生回顾三年以来的学习和生活, 顿时感觉这段时间也

Microsoft Word - 中三選科指南 2014 subject

Microsoft Word - 林文晟3.doc

南華大學數位論文

婴幼儿护理（四）.doc

二零零六年一月二十三日會議

马太亨利完整圣经注释—雅歌

厨房小知识（四）

妇女更年期保健.doc

小儿传染病防治（上）

<4D F736F F D B875B9B5A448ADFBBADEB27AA740B77EA4E2A5555FA95EAED6A641ADD75F2E646F63>

女性青春期保健（下）.doc

避孕知识（下）.doc

孕妇饮食调养（下）.doc

禽畜饲料配制技术（一）.doc

中老年保健必读（十一）.doc

怎样使孩子更加聪明健康（七）.doc

(1) (2) (3) 1. (1) 2

第三期前言近年來由於資訊科技的進步及網際網路的蓬勃發展, 使電腦遊戲不再僅限於原來 2D 或基本 3D 的簡易表現, 而是配合硬體演算技術與遊戲儲存介面, 朝更

第三章国内外小组合作学习的应用情况

Microsoft Word - 期末結案報告

Time Estimation of Occurrence of Diabetes-Related Cardiovascular Complications by Ching-Yuan Hu A thesis submitted in partial fulfillment of the requi

硕士学位论文论文题目 : 北岛诗歌创作的双重困境专业名称 : 中国现当代文学研究方向 : 中国新诗研究论文作者 : 奚荣荣指导老师 : 姜玉琴 2014 年 12 月

天主教永年高級中學綜合高中課程手冊目錄

兩岸青年人國際觀比較分析

黑面琵鷺2015

Practical Guide For Employment Of Foreign Domestic Helpers

~m~li~* ~ ± ~ 1Jz. IDfU Y:.. a~~.~.oor.~~b~.~fi~~p A Study of Developing a Mobile APP for Supporting the Chinese Medicine Pulse Diagnosis Based on Pul

Shanghai International Studies University A STUDY ON SYNERGY BUYING PRACTICE IN ABC COMPANY A Thesis Submitted to the Graduate School and MBA Center I

行政院國家科學委員會專題研究計畫成果報告

國家圖書館典藏電子全文

高層辦公建築避難演練驗證與避難安全評估之研究

50% SWEET 甜蜜五分仔 - 橋頭糖廠紀念商品開發設計之研究 50% SWEET - The Study on the Development and Design of Souvenirs of Qiao Tou Sugar Plant 研究生 : 陳

國家圖書館典藏電子全文

Microsoft Word - 論文封面修.doc

第16卷第2期邯郸学院学报年6月

六到八歲兒童, 設計並發展一套以 van Hiele 幾何思考層次理論為基礎的悅趣化學習數位教材, 取名為米德玩形狀, 同時探討低年級學童在使用本數位教材之後, 在平面幾何的

南華大學數位論文

場的職能需求狀況, 並能有一套職能管理資訊系統對各職位進行職能資料管理分析與應用資料, 則對企業人力應用與提昇上均有極大之助益, 故本研究之主要目的有二 : (1) 職

穨series019-IA.PDF

14A 0.1%5% 14A 14A

Improving the Effectiveness of the Training of Civil Service by Applying Learning Science and Technology: The Case Study of the National Academy of Ci

女性减肥健身（四）.doc

「香港中學文言文課程的設計與教學」單元設計範本

第一章緒論

考試學刊第10期-內文.indd

72075(BOC A Share)_入cover同back cover.indb

Microsoft Word - 01李惠玲ok.doc

Microsoft Word - A doc

國立中山大學學位論文典藏.PDF

; ; ; ()1978~1985 : 1978~1985 : ( ) : % 73.9% 176.4% 87.8% 2.97 [1] 15.5% 1978~ % 14.8%

IP TCP/IP PC OS µclinux MPEG4 Blackfin DSP MPEG4 IP UDP Winsock I/O DirectShow Filter DirectShow MPEG4 µclinux TCP/IP IP COM, DirectShow I

2. 佔中對香港帶來以下影響 : 正面影響 - 喚起市民對人權及 ( 專制 ) 管治的關注和討論 o 香港市民總不能一味認命, 接受以後受制於中央, 沒有機會選出心中的理想特首 o 一

南華大學數位論文

Microsoft Word - 完整論文.docx

46 數學傳播 26 卷 3 期民 91 年 9 月表演, 有些賭場還每小時發遊客 1 美元, 可連發 7 小時一個目的, 都是吸引遊客流連忘返, 持續地賭開賭場當然是為了賺錢, 利用機率來設計

Microsoft Word - 口試本封面.doc

項訴求在考慮到整體的財政承擔以及資源分配的公平性下, 政府採取了較簡單直接的一次性減稅和增加免稅額方式, 以回應中產家庭的不同訴求 ( 三 ) 取消外傭徵費 6. 行政長

(f) (g) (h) (ii) (iii) (a) (b) (c) (d) 208

Microsoft Word - 08 单元一儿童文学理论

南華大學數位論文

Microsoft Word 一年級散文教案.doc

米食天地教案

1. 本文首段的主要作用是 A. 指出異蛇的藥用功效說明永之人爭奔走焉的原因 B. 突出異蛇的毒性為下文幾死者數矣作鋪墊 C. 交代以蛇賦稅的背景引起下文蔣氏有關捕蛇的敘述 2. 本文首段從三方面突出蛇的異下列哪一項不屬其中之一 A. 顏色之異 B. 動作之異 C. 毒性之

Transcription:

國立高雄大學資訊管理學系 ( 研究所 ) 碩士論文應用模糊增強式學習技術於數位遊戲之研究 Applying Fuzzy Reinforcement Learning in Digital Games 研究生 : 方永平撰指導教授 : 丁一賢博士中華民國 99年 7月

誌謝碩士班兩年的時間過得很快, 在這兩年間我學到很多事情, 也失去很多東西, 我覺得這兩年是我人生轉變最大的時期, 面臨了許多困擾自己的問題, 也因此改變我面對事情的態度, 並且在這段時間找到了我的人生目標與努力的方向在這段時間中, 最想感謝的是我的指導教授丁一賢老師, 從我一開始完全不知道要做什麼, 慢慢的引導我找到研究的方向, 最終寫出論文, 過程中我有許多時候都想要放棄, 但是老師總是及時的拉我一把, 讓我可以完成我的學業, 在此我想由衷的感謝老師, 謝謝您此外我也要感謝所有幫助過我的同學學長姐學弟妹以及朋友們阿晟科科瑋哥譬司哥大卜大蘇兄, 我很開心可以在求學的過程認識你們, 當我有什麼困難時你們都不吝給予幫助, 希望在往後的人生路途中, 我們還可以互相扶持努力也特別感謝綠茶與阿珊, 在我口試當天忙得不可開交時伸出援手, 讓口試可以順利進行, 謝謝你們而最感謝的朋友則是我的戰友們, 小狗小朱書賓子勛思齊肥與 J-Pow 的各位, 在我人生最痛苦難熬的階段, 有你們的嘴砲與陪伴, 讓我每天都過得很開心, 也才能專心的面對許多生活上的問題, 也許大家都因為工作而慢慢疏遠, 但我知道這份友誼是不會因此被忽略的, 你們永遠是我最重要的朋友最後則是要感謝我的家人, 父母親與哥哥, 雖然每次事情很多而讓我心情不好時, 對你們的態度都很不好, 但是你們還是包容我, 為我打理一切, 給予我家庭的溫暖, 鼓勵支持我讓我可以無後顧之憂的完成學業, 這份親情是我可以勇敢面對人生的最大原因最後再次感謝所有老師朋友與家人, 沒有你們的幫忙, 我無法完成學業與這篇論文, 謝謝! 方永平僅誌於國立高雄大學資訊管理學系中華民國九十九年七月 I

摘要遊戲是人類生活上不可或缺的一項活動, 近年來科技的蓬勃發展也帶起了數位遊戲產業的龐大市場, 數位遊戲會吸引人的原因除了其聲光效果之外, 遊戲中玩家與非玩家角色的互動也是一個非常重要的因素, 為遊戲中的非玩家角色加入人工智慧技術可以讓這些非玩家角色具有人類的思考能力, 也因此可以讓遊戲與玩家的互動性更佳數位遊戲中的環境是不斷在改變的, 因此要為非玩家角色加入人工智慧通常會是一個具有挑戰性的問題在本研究中要將增強式學習技術應用在數位遊戲的非玩家角色中, 增強式學習技術是一種非監督式的學習方式, 通常用於機械的自動化學習過程中, 增強式學習技術是一個不斷的試誤的學習過程, 並且代理人會藉由去探索新環境來改變其行為, 是一種適用於未知環境下的學習方法要將增強式學習技術應用在數位遊戲的非玩家角色中, 其中最大的困難就在於增強式學習必須要經過一段很久的時間去試誤學習, 因此本研究利用模糊理論去改善傳統增強式學習的效率, 在實驗的過程中, 成功的用模糊獎懲取代固定獎懲, 讓學習的速度加快, 從實驗結果中也可以看出獎懲機制對於增強式學習結果的好壞有很大的影響, 不同類型的遊戲會需要不同的獎懲設定, 找到適合的獎懲機制就能讓數位遊戲實際應用的可能性提高關鍵字 : 數位遊戲遊戲人工智慧增強式學習模糊理論 II

Abstract Game is one of the indispensable activities for humanity lives. In recent years, the development of technology also brought huge market to game industry. One of the appealing reasons in game is that the player can interact with the non-player-characters in game. Artificial intelligence is very important for these non-player-characters due to Artificial intelligence can let non-player-characters have more interactions with players. The environment in digital games is changing continuously, so it is a challenge to add artificial intelligence in non-player-characters. In this research, we would like to use reinforcement learning in non-player-characters artificial intelligence. Reinforcement learning is a un-supervise learning method, and it is usually used in automatic machine learning process. Reinforcement learning is a trial-and-error process, and the agent will change his actions by exploring the new environment. The most difficult to apply Reinforcement learning in digital games is that the method requires a long learning time. In this research, we use fuzzy theory to increase the learning efficiency. The results of this research experiment also prove the improvement of learning efficiency through using fuzzy reward to replace fixed reward. Different types of game need different settings of reward. In practice, the probability to apply reinforcement learning in digital games can be enhanced once the suitable reward mechanism has been found out. key word:digital games artificial intelligence for games reinforcement learning fuzzy theory III

論文目錄第 1 章緒論... 1 1.1 背景... 1 1.2 動機與目的... 6 1.3 研究假設... 7 1.4 研究流程與論文架構... 8 第 2 章文獻探討... 11 2.1 數位遊戲... 11 2.2 遊戲人工智慧... 13 2.3 增強式學習... 15 2.4 本章小結... 19 第 3 章模糊增強式學習... 20 3.1 傳統增強式學習的缺點... 20 3.2 應用模糊理論於增強式學習之中... 22 3.3 模糊增強式學習之運算... 23 第 4 章實驗設計與實驗結果... 25 4.1 實驗設計... 25 4.2 實驗環境與遊戲設計... 27 4.4 前導實驗... 28 4.5 實驗結果... 38 4.6 遊戲呈現與遊戲結果... 40 4.7 如何實際應用模糊增強式學習... 45 4.8 本章小結... 48 第 5 章結論... 49 5.1 摘要... 49 5.2 結論... 50 5.3 研究限制與未來研究... 52 IV

圖目錄圖一全球遊戲市場產值圖...2 圖二增強式學習示意圖...5 圖三坦克大戰遊戲畫面圖...6 圖四研究流程圖...9 圖五增強式學習示意圖...15 圖六黑與白遊戲畫面...18 圖七實驗架構圖...25 圖八遊戲概念圖...27 圖九前導實驗圖...28 圖十增強式學習失敗圖...31 圖十一三角隸屬函數圖...32 圖十二前導實驗結果圖...33 圖十三高斯隸屬函數圖...35 圖十四模糊隸屬函數圖 (s 不同 )...36 圖十五模糊隸屬函數圖 (m 不同 )...37 圖十六模糊函數實驗結果圖...38 圖十七遊戲編輯器...40 圖十八戰網示意圖...41 圖十九遊戲畫面圖...42 圖二十遊戲進行流程圖...43 圖二十一實驗環境改變坦克學習圖...50 V

表目錄表一遊戲分類表...2 表二國內遊戲相關議題一覽表...11 表三遊戲人工智慧方法比較...14 表四獎懲函數...24 表五模糊獎懲函數...24 表六坦克移動策略表...29 表七獎懲函數...30 表八失敗的獎懲函數...30 表九危險變數例子...32 表十模糊獎懲函數...33 表十一實驗結果數據...34 表十二成功次數表...34 表十三實驗結果表...51 VI

1.1 背景第 1 章緒論遊戲是人類社會中深受喜愛的一種活動, 自古以來人類一直將遊戲視為一項重要娛樂項目, 蔡淑苓 (2004) 在遊戲理論與應用 : 以幼兒遊戲與幼兒教師教學為例一書中提到, 遊戲是非常古老且普遍的人類活動行為, 並且受到中今中外的哲學家與教育學家所重視, 不論是幼兒時期或是學生時期, 遊戲都扮演著成人活動的一種練習準備, 在遊戲中學習成長讓人格更具完善長久發展以來, 遊戲不再是只有幼年時期所需求, 有更多各種不同的類型的遊戲來滿足不同年齡層的需求, 如團康遊戲桌上型紙牌遊戲數位遊戲等等總而言之, 不論是什麼類型的遊戲, 都是一種吸引人且重要的人類行為表現遊戲吸引人的原因有很多, 其中有學者認為是因為遊戲可以達到放鬆與休閒的原因 (Epstein,1999), 另外有一個很大的原因是因為透過遊戲可以與人互動交流競賽, 藉由遊戲的過程與同好交流溝通, 達到舒解壓力與取得娛樂感由遊戲的本質來看, 遊戲的過程代表著一種邏輯思考的過程, 通常可以將遊戲求勝的過程公式化成難解的數學邏輯問題, 因此如果解開遊戲中的各種問題, 就代表著解開了一些數學邏輯上的問題, 也因此越來越多的許多學者在研究遊戲相關的議題近年來由於科技的蓬勃發展, 數位遊戲 (digital games) 也成為人類生活中一個很重要的娛樂項目, 數位遊戲以遊戲平台來分的話, 大致可以分成電視遊戲 (TV game) 電腦遊戲 (PC game) 手機遊戲 (Mobile game) 等三種, 若以遊戲型態來分, 則可以分成單機或線上兩種遊戲型態目前而言, 以線上遊戲為大宗根據資策會資訊市場情報中心 ( MIC ) 預估 (2008), 台灣線上遊戲市場規模在 2008 年將超過新台幣 100 億元, 且每年仍將維持 8 至 9% 的成長率, 且預估在 2010 年時規模將可達到 120 億元左右就全球市場而言, 台灣經濟研究院產經資料庫研究 (2008年 12 月 ) 指出 ( 圖一 ), 全球的線上遊戲產值高達 54.11 億美金, 並逐年上升中, 又以中國地區成長最大行政院 (2009) 也視數位內容產業為文化產業中的一塊重要拼圖, 為近年來非常重視的一個產業方 1

圖一全球遊戲市場產值圖 ( 資料來源 : 台灣經濟研究院產經資料庫, 2008年 12 月 ) 數位遊戲可以除了帶來許多感官的刺激, 也讓遊戲更具多樣性, 每一種不同的遊戲類型都有不同的玩家所喜好, 遊戲公司為了迎合玩家的胃口, 同時也創造出許多不同的數位遊戲類型若要以遊戲內容來做分類的話,Aha等學者在 2005年將數位遊戲簡單的分類為冒險遊戲 (adventure) 即時戰略遊戲 (real-time strategy) 團隊運動遊戲 (team sports) 等七種類型, 如表一所示表一遊戲分類表 ( 資料來源 :Aha,2005) 類別代表遊戲描述桌上型西洋棋象棋五子棋等棋類或牌類通常為 n*n的地圖冒險猴島小英雄解題類型團隊運動足球遊戲籃球遊戲等即時或多人合作經營模擬城市城市或團隊管理角色扮演太空侵略者即時單人角色回合式文明帝國回合基礎遊戲即時戰略魔獸爭霸即時經營 2

數位遊戲吸引人的因素除了聲光效果之外, 最主要的原因還是玩家可以在遊戲互動中得到娛樂的效果, 通常稱這些在遊戲中與玩家互動的非玩家角色為 NPCs(non-player characters), NPCs可以是玩家的敵人或朋友, 但是不管如何, 要是這些 NPCs 反應不合理, 或是單調無趣, 玩家因此失去耐心, 玩過一兩次之後就不會有新鮮感, 甚至會成為一個公式化的行為, 也就會讓遊戲失去遊戲性, 如早期任天堂公司於 1985 年發行的著名的遊戲瑪俐歐 ( 日文 :マリオ; 英文 : Mario; 或中文譯 : 馬力歐瑪莉瑪俐歐等等 ), 遊戲中的怪物 (NPCs) 行動模式是不變的, 當玩家玩過多次以後就會知道要如何閃避敵人, 久而久之就會開始覺得厭倦, 進而對這款遊戲不感興趣許多研究因此就會想為這些 NPCs 建置人工智慧, 讓 NPCs具備自行思考的能力, 也就是說讓 NPCs會根據玩家的行為做出一些合理的反應, 當玩家與 NPCs產生互動時, NPCs就會有更人性化的表現, 增加遊戲的樂趣與耐玩性早期的遊戲人工智慧研究大部份致力於桌上型遊戲 (board game) 上, 例如研發可以與玩家對戰的西洋棋或象棋的 NPCs 等, 這樣的人工智慧發展的結果是為了挑戰人類, 如 IBM 的深藍 (Deep Blue), 可以打敗世界西洋棋的冠軍, 因此追求的是可以和玩家有同等級的思考能力, 追求的是一種且完美不會失敗的人工智慧 (Ghory,2004) 但在目前數位遊戲中的人工智慧大部份尋求的並非永遠無法擊敗的人工智慧, 而是想讓 NPCs 具有人類思考模式的行為 (Livingstone,2004), 因此玩家才可以與其互動, 從中得到樂趣, 如果一個無法擊敗的 NPCs 反而會讓玩家失去信心, 使玩家覺得遊戲太過困難且不有趣, 數位遊戲需要的是有能夠適應環境, 能與玩家之互動的人工智慧, 因此本研究想要建置在 NPCs 上的人工智慧是一種可以依據目前狀態而改變的學習模式, 玩家在遊戲中改變不同的玩法時,NPCs 也會做出相對應的對策 3

數位遊戲的人工智慧都在早期都是以規則基礎 (rule-based) 的方式來建置 (Bourg, 2004), 例如以第一人稱射擊遊戲來做例子, 當玩家走到 NPCs一定範圍時, NPCs 就會開槍反擊, 像這樣一條一條的規則去定下所有 NPCs會做出的行為, 因此要寫出一個非常人性化的 NPCs 人工智慧, 可能需要上萬行的程式碼, 在某些情況下, 玩家可能會覺得 NPCs 的行為是不合理的 (Spronck 等人,2006), 這樣的人工智慧也就被稱為弱的人工智慧 (weak AI) 強的遊戲人工智慧 (strong AI) 如基因演算法或類神經網路等 (Buckland,2005), 可以讓 NPCs做出更多合理化的行為, 但是大部份這類型的方法都需要在環境已經給定的基礎之下, 並無法在一個未知的環境下使用, 但是遊戲的環境卻常常在改變, 對 NPCs 來說, 玩家不同的行為讓遊戲環境變得不可預測, 如果要讓 NPCs 能夠隨環境改變而跟著做出反應, 需要能夠在未知環境下運行的演算法, 因此在眾多的人工智慧技術中, 增強式學習可說是最適合 NPCs 的一種 (Szita,2007) 增強式學習 (reinforcement learning) 為一種非監督式學習 (unsupervised learning), 所謂的非監督式學習是一種機器學習方式, 非監督式學習法則的特色是在訓練過程只需提供輸入資料, 而期望的輸出理想值卻不需要設定, 代理人會自去學習調整 (Sutton and Barto 1998) 增強式學習通常用在未知的環境之下, 利用試誤 (trial-and-error) 與延遲獎懲 (delay reward) 的機制, 不斷的去探索環境來找到最佳解, 其學習的流程如圖二, 增強式學習通常包含兩個角色, 環境 (environment) 代表需要解決問題的所有外在因子, 而代理人 (agent) 則負責與環境互動學習, 代理人所做出的行動 (action) 會改變整體環境的狀態 (state), 在不同的狀態下代理人會依照獎懲 (reward) 去做出應對的行動, 在多次學習過程中學習到最佳策略的方法 (Sutton and Barto,1998) 4

圖二中的 t 代表時間,st 代表目前時間點的狀態,st+1 代表下一時間點的狀態, rt 代表目前時間點的獎懲值,rt+1 代表下一時間點的獎懲值, 本示意圖將會在本論文的 2.3 節之中詳細介紹通常將增強式學習公式化成馬可決策過程 (Markov decision process ) 問題增強式學習的精神為如同人類小時候試誤學習時的過程, 利用過去的經驗來做判斷, 進而達到學習的效果圖二增強式學習示意圖 t: 時間當遊戲中 NPCs加入增強式學習的人工智慧技術後, 就可藉由一次又一次與玩家互動經驗中, 瞭解玩家的習性, 藉此學習到如何反應玩家的行為, 增強式學習同時是一種漸進式的學習, 不會讓遊戲初始的難度太高, 玩家也不會感到太大壓力, 進而提高遊戲的吸引力 5

1.2 動機與目的由前一節的研究背景中提到, 數位遊戲中 NPCs 的人工智慧是遊戲非常重要的一環, 有好的人工智慧技術就可以讓遊戲與玩家更具互動性, 本研究期待將增強式學習技術加入數位遊戲的人工智慧中, 讓 NPCs 可以藉由經驗來學習, 並做出應對的行動 NPCs的行動路線在遊戲中是一個很重要的因素, 在許多類型的遊戲中, NPCs都必須要藉由移動路徑來跟玩家互動, 如 : 戰略型遊戲, 不論是回合制或是即時制, NPCs 都要藉由接近或遠離玩家來達成他的目標 ( 攻擊或逃跑 ); 第一人稱射擊遊戲中, NPCs 也要有避開玩家攻擊與利用阻礙物的能力, 藉由不同的路線移動來達到他的目標 ; 角色扮演類型遊戲的 NPCs 如果只會在地圖上隨機亂走, 玩家也會因此感到無趣能夠讓 NPCs 有聰明的行動路線, 對於遊戲來說是一個非常重要因素, 並且可以應用到許多類型的遊戲上本研究將以坦克類型遊戲來做實驗, 坦克類型遊戲是一個傳統的射擊遊戲類型, 最早為發表於 1985 年任天堂主機上的遊戲 ( 圖三 ) 圖三坦克大戰遊戲畫面圖 ( 資料來源 :http://zh.wikipedia.org/ 遊戲製作發行 : 南宮夢, 1985) 在遊戲中玩家需要控制玩家坦克去對抗電腦的坦克 (NPCs), 在射擊類型遊戲中, 往往會有許多危險區塊或路線, 如果可以定義其危險的程度, 當連續多次走到特定的危險區塊時就提高該地區的危險程度, 讓 NPCs 快速的理解到該地區是非常危險的, 不 6

NPCs學習時間, 讓 NPCs行動表現的更具智慧, 所以本研究將利用模糊函數來表示危險程度, 讓 NPCs 可以利用快速的學習與反應, 同時利用模糊函數的定義, 也可以控制 NPCs 學習的速度, 讓遊戲具有難度調整的功能, 讓玩家依自己程度來調整或挑戰, 增加遊戲的耐玩性總而言之, 本研究的動機希望能夠將增強式學習應用在數位遊戲 NPCs的人工智慧中, 並且改善其效率, 具體而言本研究的目的為 : I. 應用增強式學習技術於數位遊戲的 NPCs之中本研究將利用遊戲編輯器製作出坦克對戰類型的遊戲環境, 並在遊戲中加入增強式學習機制的 NPCs, 並探討其成效 II. 利用模糊理論提昇增強式學習效率將模糊邏輯理論應用在改善增強式學習的效率上, 並且期望能夠利用模糊邏輯理論來達成數位遊戲調整難度的機制 1.3 研究假設根據之前的探討, 本研究提出以下幾點的研究假設 : I. 本研究假設在傳統數位遊戲中加入增強式學習技術可以讓遊戲中的 NPCs具有學習的能力, 會依據玩家不同的行為來做出不同的反應, 並可適應遊戲環境的改變進行調整 II. 本研究假設在傳統的增強式學習技術中加入模糊理論可以提高其學習效率 7

1.4 研究流程與論文架構本研究流程如圖四本論文想要將增強式學習應用在遊戲之中, 並且改善它的效率, 因此研究的流程為 : 1. 首先在背景與動機下界定研究範圍 2. 在界定的研究範圍中, 進行相關文獻的蒐集, 並針對所得的文獻的探討, 文獻共分成遊戲遊戲人工智慧與增強式學習的文獻三部份 3. 從文獻探討中確定本研究目標 4. 用實驗來印證研究假設, 實驗共分成兩部份為前導實驗與遊戲實驗, 實驗的內容主要在於應用增強式學習技術在數位遊戲, 以及應用模糊理論來提高增強式學習技術效率 5. 透過結果與討論來修改實驗中所建置的各個參數, 反覆的調整不同的參數來應用在遊戲之中, 並找出最適合本研究的數值 6. 最後再綜合所有實驗結果做出結論, 並探討本研究的實際應用在數位遊戲上的可行性與策略, 以及未來進行研究的建議 8

圖四研究流程圖 9

本論文架構如下, 第一章緒論 : 從遊戲的本質探討瞭解到互動性對於遊戲是非常重要的, 而人工智慧技術是讓數位遊戲增強互動性的一個方法, 從此一背景下界定研究的範圍, 並提出研究的假設, 確定研究流程第二章文獻探討 : 對過去的研究文獻做統整, 探討在遊戲方面目前學者的研究成果, 以及目前與遊戲相關的人工智慧之研究, 與增強式學習方面的研究成果, 以及增強式學習應用在遊戲的研究探討第三章模糊增強式學習 : 對於模糊增強式學習的深入研究, 包括傳統增強式學習的缺點與解決方法, 模糊理論如何應用在增強式學習之中, 以及既有的模糊理論應用探討, 最後是本研究中如何將模糊理論實際應用第四章實驗設計與實驗結果 : 為本研究實驗部份, 內容包括了整體遊戲的設計概念, 模糊增強式學習如何應用在本論文的遊戲之中, 與前導實驗所做出的參數值設定, 與前導實驗結果的探討, 以及本研究所做出的遊戲實際情形, 與應用增強式學習技術在此遊戲的結果及討論第五章結論 : 結論與未來研究, 討論本研究實驗所呈現的結果, 並探討如何應用本研究之結果到實際的數位遊戲之中, 最後提出未來可進行之研究 10

第 2 章文獻探討本章將討論數位遊戲遊戲人工智慧與增強式學習技術的文獻, 目前與數位遊戲有關的研究中, 大多數文獻主要在研究數位教學與遊戲中玩家行為, 但也有少部份的研究在探討遊戲中的人工智慧, 在遊戲的人工智慧方面, 也有不少研究在於如何應用增強式學習技術於數位遊戲的人工智慧中, 以下各節將依序詳細討論 2.1 數位遊戲簡國斌 (2010) 在其碩士論文中整理了國內碩士論文對於數位遊戲相關的研究結果 ( 表二 ) 表二國內遊戲相關議題一覽表 ( 資料來源 : 簡國斌碩士論文,2010) 學年研究生學校系所論文名稱研究方法 90 陳慶峰南華大學資訊管理所碩士論文從心流 (flow) 理論探討線上遊戲個案訪談法文獻分析參與者之網路使用行為法問卷調查法 91 林青嵐靜宜大學資訊管理所碩士論文玩家對多人線上角色扮演遊戲產文獻分析法問卷調查法品屬性偏好之研究 91 張武成淡江大學資訊管理所碩士論文線上遊戲軟體設計因素與使用者文獻分析法問卷調查法滿意度相關聯之研究 93 楊斐羽元智大學資訊傳播所碩士論文將傳統遊戲的玩性因素導入電子焦點團體訪談專家訪談遊戲設計之研究法 95 李豐良國立交通大學工業工程與管理所動作型電腦遊戲設計因素探討問卷調查法類神經網博士論文路基因演算法 95 李炯龍國立臺北教育大學玩家與遊戲設集換式牌類遊戲之遊藝功能要素文獻分析法專家訪談計所碩士論文分析以魔法風雲會為例 96 曾世绮佛光大學資訊教育所碩士論文驗證遊戲吸引人之要素 : 內容分內容分析參與觀察法析魔獸世界 96 蘇榮章國立政治大學資訊管理所碩士論數位教育遊戲設計與評估指標之文獻分析法問卷調查法文研究 97 鄭羽汎開南大學資訊管理所碩士論文線上遊戲設計 : 個案探討與內容個案研究內容分析分析 97 陳亭光國立臺灣大學資訊管理所碩士論基於使用者經驗之多準則評分遊文獻分析法多穩額評文戲推薦系統分協同過濾 97 蔣昱雯國立臺北教育大學傳播與科技所數位遊戲學習教材評鑑指標之研文獻分析法德懷術碩士論文究 11

從表中可以看出, 以往與遊戲相關的研究大部份著重在於遊戲的本質與數位教學為主, 且目標大部份探討的是以幼兒為主, 如遊戲理論與應用 : 以幼兒遊戲與幼兒教師教學為例 ( 蔡淑苓,2004) 幼兒遊戲 - 以 0~8 歲幼兒園實務為導向 (James E. Johnson, 2005) 幼兒教育 ( 朱敬先,2005) 等書, 皆是由幼兒時期的遊戲行為來探討遊戲對於正常人成長過程的影響在朱敬先幼兒教育一書中提到, 遊戲理論又可以分成精力過剩論鬆弛論本能實踐論復演論生活實踐論自我表現論學習論心理分析論等八種論點, 但不管那一種論點都是支持遊戲對於人成長是有正向的影響, 因此也就會有研究探討怎樣的遊戲會吸引人去玩, 在遊戲理論與應用 : 以幼兒遊戲與幼兒教師教學為例 ( 蔡淑苓,2004) 一書中提到, 遊戲可以吸引人的原因不外乎遊戲是一個社交行為的縮影, 在遊戲中可以與人交流互動, 並從遊戲中學習到如何應對近年來電腦技術的成長快速, 也帶動了數位遊戲的發展 ( 詳細介紹請見第一章 ), 數位遊戲吸引人的地方不只是其聲光效果佳, 同時也未脫離遊戲的本質, 因此遊戲的互動仍然是很重要的一個因素, 除了玩家與玩家的互動外, 玩家在數位遊戲中也會與許多非玩家角色 NPCs 互動, 這些 NPCs 的行為模式也就顯的格外重要, 例如角色扮演遊戲中, 劇情的發展就是一個非常重要的因素, 如果可以藉由玩家與遊戲中的 NPCs 互動情形來決定不同的遊戲內容, 就可以大幅的提高遊戲的吸引力, 在這方面,Barber 和 Kudenko(2001) 就做過自動劇情產生器, 在這篇研究中, 他們成功的創造一個自動劇情產生器, 讓遊戲會依照玩家不同的行為產生不同的劇情, 就可以讓每個人遊戲的過程不一樣, 藉此讓遊戲可以有無限多的內容, 增強遊戲的耐玩性除了遊戲內容之外,NPCs 的行為表現也是一個重要的因素, 如果 NPCs 表現不合常理或是非常單調, 就會大幅降低遊戲的吸引力, 在遊戲中加入簡單的在因此就需要遊戲的人工智慧讓 NPCs 更具人性化的行為表現 12

2.2 遊戲人工智慧在過去遊戲人工智慧的相關研究中, 以研究桌上型遊戲 (board game) 與猜謎 (puzzle) 為最多, 桌上型遊戲如西洋棋象棋圈圈叉叉等, 這類型的遊戲通常不可能全用暴力法將所有狀態空間計算出來, 當找出較好的演算法代表著解決一個難解的數學問題, 也因此有許多的學者在研究 (Epstein,1999) 而 Ghory(2004) 試圖對增強式學習應用在桌上型遊戲做一個公式化的研究, 其結果讓許多研究應用在各種不同的桌上型遊戲上在數位遊戲上通常是用規則基礎 (rule-based) 的方式去寫入 NPCs的人工智慧, 但如此一來則需要大量的程式碼來完成許多複雜的行為, 且會有許多不合理的行為發生, 因此也有許多學者在這方面在研究,Aha (2003) 利用案例基礎 (case-based) 方式, 對戰略類型遊戲魔獸爭霸二做一個更佳的 NPCs人工智慧, 他認為在這款遊戲中的建築順序關鍵, 因此將所有可能的建築順序排成一個階層結構, 因此可以整理出許多建築序列, 不同的序列就可以當成不同的案例, 因此根據案例就可以寫出許多條規則, 最後就讓 NPCs 依照案例規則來建築, 擊敗玩家, 雖然此一方法效果卓越, 但是卻被玩家的一些特例所擊敗, 比如說玩家一開始不蓋任何建築, 直接農民快攻等等不合常理的玩法因此, 在同一款遊戲之下, Ponson(2004) 等人則是用基因演算法去改善 Aha研究的缺失之處, 就可以有效的解決這些特例情形, 並且提高成攻率, 讓 NPCs 更具挑戰另外 Jin(2008) 等人則是用類神經網路的方法去加強運動類型遊戲 NPCs的人工智慧, 讓複雜的遊戲人工智慧簡化成幾個不同的行為模式, 這些研究的其優缺點如表三這些方法的共通缺點為必須在已知的環境之下, 事先設定好許多環境的因素才能執行, 而如果環境即時改變, 如果玩家的行動改變了環境狀態, 就會有較遭的結果產生, 增強式學習可以讓代理人 (agent) 在未知的環境下學習, 但目前用在數位遊戲中的研究並不多,McPartland(2008) 將增強式學習利用在第三人稱的射擊遊戲之中, 讓 NPCs可以學習到最佳的行動路線, 以及攻擊玩家的時機與地點另外, Wender(2008) 等人則是將增強式學習利用在策略遊戲之中, 讓 NPCs選擇啟始點時適應不同的環境與玩家的行動, 讓 NPCs的行為更聰明而 Björnsson(2004) 等人則是將增強式學習應用在養成策略遊戲之中, 且讓玩家可以直接對 NPCs 做一些簡單的控制, 縮短學習的時間 13

表三遊戲人工智慧方法比較 ( 資料來源 : 本研究整理 ) 方法文獻優點缺點 Case-Based Learning to Win: 利用不同的案例來環境需要控制 Case-Based Plan Selection in a Real-Time Strategy 控制 NPCs 的行動選擇, 方法簡單且實用無法解決特定情況 Game Genetic Improving Adaptive 可調適性, 因此可以基因演算法不保 Algorithm Game AI with Evolutionary Learning 提高 NPCs 勝率且解決特定情形證最適化, 每次演化後的結果不一定是最佳的結果 Neural Evolving Game 將複雜的運動類型雖然有一定的成 Network NPCs Based on Concurrent Evolutionary Neural Networks 遊戲簡化, 使目標明確而可以應用類神經網路解決問題果, 但在結果部份並非有原本期望的好結果 14

2.3 增強式學習增強式學習是種與環境互動中, 不斷的嘗試不同的行動, 找尋最佳策略的一種學習方法增強式學習通常包含兩個角色, 環境 (environment) 代表需要解決問題的所有外在因子, 而代理人 (agent) 則負責與環境互動學習, 代理人所做出的行動 (action) 會改變整體環境的狀態 (state), 在不同的狀態下代理人會依照獎懲 (reward) 去做出應對的行動, 在多次學習過程中學習到最佳策略的方法, 其流程就如之前所看過的圖五,t 代表時間, 當代理人感知到環境 ( 目前狀態 ) 時, 選擇不同的動作, 動作又會改變環境, 並得到獎懲, 進入到下一個時間點, 代理人感知到下一時間點狀態, 並且選擇動作得到下一時間點的獎懲圖五增強式學習示意圖增強式學習其實就是模擬生物在學習事物的情形, 比如說小孩子剛開始學騎腳踏車, 一開始會不知道怎樣驅動, 也不知道傾斜多少度會跌倒, 但是每次失敗跌倒後, 自然後吸取教訓, 再反覆的練習, 跌倒了許多次之後, 就知道該如何平衡, 也知道如何轉彎而不會跌倒, 藉由過去的經驗不斷的強化自身的能力, 就是增強式學習技術的主要精神 15

增強式學習通常可以公式化為馬可決策過程, 增強式學習又可以分成主動式 (active) 增強式學習與被動式 (passive) 增強式學習, 其主要的差別在於, 被動式增強式學習的代理人用固定的策略 (fixed policy) 去學習其效用值 (utility value), 效用值所代表的意義為在該狀態下達到目標與其他狀態的相對比較值, 通常值越大代表此一狀態離目標越接近, 選擇到此一狀態的機率也越大主動式學習則是需要不停的探索環境去找到其策略 (Melenchuk,2000) 被動式學習的方法通常分成三種, LMS(least mean squares) ADP(adaptive dynamic programming) 與 TD(temporal difference learning) 三種, 這三種方法中最佳的是 TD方法 (Russell and Norvig,2003) LMS方法為隨機選取行動, 再計算到達目標的所有獎懲值, 然後再算出其各個狀態下達到目標的效用值平均數, 其缺點為需要非常久的計算時間 (Russell and Norvig,2003) ; ADP方法則是在給定特定估計模式之下, 每次行動後重覆的計算每一個狀態的效用值, 但在狀態空間大的情形下會難以計算 (Russell and Norvig,2003) ; TD 方法結合了蒙地卡羅方法 (Monte Carlo ) 與動態規劃方法 (dynamic programming) 的概念, 其公式如公式一 : V(s) V(s ) + α(r(s)+ γv(s') - V(s) ) (1) V(s) 代表效用值, α是學習函數, γ是獎賞折扣值,s 代表狀態,R(s) 為在此狀態的獎懲值, 其主要概念為藉由過去的經驗去調整預期可以到達目標的效用值 (Russell and Norvig,2003) 16

主動式增強式學習最有名的演算法為 Q-Learning與 SARSA algorithm兩種, 兩種演算法皆是建立在 TD 方法基礎之上的演算法, 藉由試誤與延遲獎懲來不斷的重複計算 Q-value(state-action value), Q-value 是在某一狀態與行動對 (State -Action pairs) 到達目標之相對比較值,Q-value 越大代表選擇此一狀態與行動對於達到目標的機會越大, 因此以 Q-value 大小來決定各個狀態與行動的機率值, 讓代理人可以藉由過往經驗選擇目前環境下最佳的行動 Q-Learning 是由 Watkins 在 1989 年提出, 是一種無策略演算法 (off-policy) 的演算法, 而其公式如公式二 (Sutton and Barto,1998) : Q(s, a) Q(s,a ) + α(r(s) + γmaxq(s',a' ) - Q(s,a) ) (2) SARSA是 State-Action-Reward-State-Action的縮寫, 在 1994年的 Rummery提出, 是一種有策略性 (on-policy) 的演算法, 其公式如公式三 : Q(s, a) Q(s,a ) + α(r(s) + γq(s',a' ) - Q(s,a) ) (3) s代表現在環境狀態, a代表代理人的行動, s 是下一時間點的狀態, a 是下一時間點的動作, 因此 Q(a,s) 代表在狀態 s下進行行動 a的期望價值, R(s) 是在狀態 s下的實際價值,maxQ(a,s ) 代表著在所有下一時間點預期的 Q-value最大值, α是學習函數, 用於控制學習收斂速度, 一般會將此值預設為 1, γ是獎懲的折扣值, 通常是一個小於 1的常數而 Q-Learning與 SARSA最大的差別在於 SARSA是在某些特定的策略下執行, 而 Q-Learning 則是完全沒有任何策略的運用, 因此必需要計算下一次行動中最大的 Q-value(Sutton and Barto,1998) 17

增強式學習的學習方式是去找到每個狀態的最佳行動, 因此需要多方嘗試, 但是如果隨機去嘗試, 就等同於不去選擇已知的最佳行動, 這樣隨機的行為就與基本精神相違背, 因此解決問題與探索新知 (exploitation and exploration) 就成為增強式學習的兩難問題, 通常會運用 ε-greedy演算法來解決, ε-greedy也是 greedy演算法的一種, 只是在其過程中會有一定機率利用隨機的方式去探索, 這樣不但可以符合找最佳行動的基本精神, 也會試圖的去探索是否有更佳的行動 (Bianchi, 2007) 例如, 設定另一參數 p=0.5, 而代理人在每一次決定行動時, 會隨機決定一個 0~1 的變數 q, 當 q>p=0.5 時, 就選擇隨機探索產生行動, 反之, 當 q p=0.5 時就從之前經驗算出最佳的行動增強式學習已經有許多應用與研究, 比較常看到應用在機械的學習與控制, 也有一些研究是應用在遊戲之中, 目前應用增強式學習最有名的遊戲為善與惡 (Black & White) 這款遊戲, 善與惡是由 Lionhead Studios在 2001年所研發製作, 是一款經營類型的遊戲, 在善與惡這款遊戲中玩家伴演造物者的角色, 而玩家可以控制一名神祇生物, 此生物會跟著玩家所做出的不同決定, 而改變其行為跟長相, 這樣的一個機制受到玩家的好評, 也因此這一款遊戲在 2005 年推出續作善與惡二代, 圖六為該遊戲二代之畫面圖六黑與白遊戲畫面 ( 資料來源 : http://lionhead.com/jobs.aspx) 18

2.4 本章小結由以上三節得知, 數位遊戲最吸引人的地方不單單只是其聲光效果, 如果可以增加遊戲與玩家的互動性, 就可以讓遊戲更具可玩性在遊戲人工智慧的發展中, 大部份的遊戲都已經具備基本的人工智慧, 如路徑搜尋或是碰撞偵測等, 或是用條件規則基礎來為遊戲的 NPCs 加入人工智慧, 但是這樣的遊戲並不能滿足目前玩家的需求, 如果可以用強的人工智慧讓 NPCs 行對更人性化, 就能讓遊戲更吸引玩家強的人工智慧如基因演算法及類神經網路等, 有許多的研究已經有效的將此類方法應用在數位遊戲之中, 可是在市面的遊戲中仍不常見, 最主要的問題如之前幾節所論, 數位遊戲中的環境變化太大, 因為玩家特性而存在著許多需要考慮的因素, 如果沒辦法有效的解決環境的因素, 建置強的人工智慧所需要的成本太大, 反而不實用但是由文獻中可以發現, 數位遊戲的 NPCs需要的人工智慧, 並非是無懈可擊的人工智慧, 一個不犯錯的 NPC 只會降低玩家的信心, 而不能為遊戲加值, 因此數位遊戲 # 不需要一個完美的人工智慧, 而是要能夠學習互動的人工智慧, 並且是可以因應遊戲環境的需求來做調整學習的人工智慧, 增強式學習正好具備以上的特性, 也因此本研究將以增強式學習做為研究的重點文獻中也可以看出, 雖然增強式學習在許多領域已經被廣為應用, 但是在數位遊戲之中仍然還未有許多研究, 其最主要的問題就是因為傳統的增強式學習通常需要很長的一段時間來學習, 這樣並不能符合數位遊戲的需求, 因此本研究將設法改進此一缺點, 下一章將探討本研究如何解決這問題以及如何應用在遊戲之中 19

第 3 章模糊增強式學習傳統增強式學習已經在各個領域廣為研究, 但其效率不好的缺點也讓增強式學習技術常常無法被實際應用, 因此有許多學者在研究用各種不同的方法去縮短增強式學習的學習時間, 本研究則是應用模擬理論來提高傳統增強式學習的效率, 以下各節將會詳細介紹傳統增強式學習的缺點, 以及本研究如何將模糊理論運用在增強式學習技術之中, 並提高其效率 3.1 傳統增強式學習的缺點增強式學習的特色為不斷的試誤過程去找到最佳解, 但其付出的代價就是需要很長的一段時間讓代理人去學習 (Epstein,2009), 有許多學者研究如何去縮短傳統增強式學習的學習時間, 像是將階層式增強式學習, 將所有狀態空間表示成一個階層式的狀態空間, 所以代理人就不必去計算下一時間點狀態所對應的所有 Q-value 值, 先從下一階層中的狀態空間去運算, 藉此降低其運算時間, 讓增強式學習更具有效率 Ponsen(2006) 嘗試等人將此應用在數位遊戲之中, 將代理人的移動先分成達到目標或遇到敵人此一階層, 再決定代理人會選擇移動的方位, 這樣的方法有效的提高學習的效率也有研究利用模糊理論來提高增強式學習的學習效率模糊理論是利用數學模式去解決人類語言學中語義不清的問題, 最初是由 Lotfi Zadeh在 1965年所提出, 例如溫度問題, 當有人表示天氣太冷, 但實際上的溫度度數卻沒有明確的表達, 不同人對於冷熱有不一樣的概念, 而這些表達不清的模糊區域就無法以傳統的二元分法來做判斷, 因此為了解決這些模糊的灰色地帶問題, 就需要用到模糊集合理論 (fuzzy set theory) 來解決模糊集合理論捨棄原本二元的分法, 而以從屬度 (membership degree) 來做判斷, 例如剛剛的溫度問題, 將溫度表達成冷暖等等區間,10 在冷區的從屬度為 0.9, 而在熱區的從屬度為 0.1 這樣的方式來對溫度做區閣, 數字越高代表越符合這個區域的特性, 而這些數值則形成所謂的模糊從屬函數 (fuzzy membership function ), 模糊理論常常應 20

Seo(2000) 等人做過將模糊邏輯應用在增強式學習上的研究, 在該研究中是將狀態轉換成模糊狀態, 因此可以將所有狀態分成許多狀態區塊, 也就能提高傳統增強式學習的學習效率這些研究都有效改善增強式學習效率不佳的問題, 但是其學習過程卻是有所限制, 因為在增強式學習的過程中, 最重要的是獎懲機制的設定, 就算有效的降低狀態空間的運算, 沒有一個適當的獎懲機制設定, 傳統增強式學習也有可能會無法學到最佳策略, 甚至是一個發散的結果, 也就是根本就找不到所謂的最佳策略, 因此增強式學習在獎懲的設定通常會需要依照不同的需求來制定, 這樣的限制也限制的增強式學習研究的一般化, 同樣的結果在另外的研究中因為獎懲的問題可能就不適用, 但是如果改善獎懲的設定, 或許可以造成不同的學習效果, 因此本論文著眼於獎懲機制上的改變, 嘗試利用模糊邏輯理論於獎懲機制之中, 讓原本固定的獎懲變成模糊化的獎懲, 不再是固定的獎懲數值, 不但讓學習速度更快, 也讓學習更加合理如果可以讓遊戲的 NPCs具有增強式學習的人工智慧, 並且用模糊邏輯理論去改善其效率, 這樣一來可以讓許多的遊戲實際的應用, 也使遊戲 NPCs 行為更有變化, 如此一來不但簡化了遊戲程式碼的複雜度, 還可以讓遊戲 NPCs 行為更人性化, 甚至因應不同玩家的程度來改變難度, 讓遊戲更具耐玩性 21

3.2 應用模糊理論於增強式學習之中如上一節所討論, 在增強式學習中最重要的因素就是奨懲的設定, 所以本研究將原本固定的獎懲改成模糊獎懲機制, 在傳統的增強式學習中, 原本獎懲的設定會給一個基本的固定值, 當代理人做出行動時如果可以接近目標, 就給予獎勵值, 但是如果越接近目標則會給予越高的獎勵值使 Q-value值提高, 反之, 則可能給予懲罰, 讓 Q-value 降低, 這樣的機制考慮了目前狀態與目標狀態的差距, 獎懲值的大小會直接影響到學習的結果, 如果一開始設定了一個很高的獎勵值, 代理人可能會因為獎勵值過高而快速學到某條策略, 但是這樣卻忽略了其他可能的策略, 如果獎勵太低又會讓代理人學習的曲線變的很平緩, 要經過很久才能學習到最佳的策略, 但是其中很重要的一點就是當獎勵越高, 對於學習的效率是有正向影響的, 只是其結果可能會不好本研究的想法是讓獎懲的機制不再是由固定的數值去做調整, 而是由另一個模糊隸屬函數來控制加入了模糊獎懲的機制就可以讓代理人在學習的過程中, 不單只是依照目標與現在狀態差距而去調整獎懲值, 也會考慮到策略在不同情形下的獎勵, 如此一來就可以將獎懲值設定成較高的數值, 再將獎懲值乘上一個模糊值, 根據該條策略的模糊隸屬程度來改變獎懲值, 也因此可以有效的改變傳統增強式學習的效率, 同時也不因為數值的加減變動過大, 最後導致無法學習到最佳策略的結果在加入了模糊函數之後還可以利用模糊函數的調整, 來達成不同的學習行為, 例如遊戲中的最終魔王可能就會需要快速學習能力, 因此就可以調整模糊函數讓這種類型的 NPC 可以快速的學習, 而其他像是魔王身邊的小兵這種 NPCs 可能就不能有那麼強大的學習能力, 除此之外, 利用不同的模糊函數或許可以用來調整難度, 增加遊戲的可玩性 22

3.3 模糊增強式學習之運算本研究將模糊獎懲取代傳統增強式學習的固應獎懲, 以下本論文就以坦克對戰遊戲為例, 解釋如何將固定的獎懲值換成模糊獎懲值, 在坦克對戰遊戲中,NPC 坦克因應不同的環境與玩家的行動, 可能會有數條不同的路線 ( 策略 ) 選擇, 每當選擇一條路徑的結果可能會被玩家擊敗, 或是順利抵達目標, 因此獎懲的數值可能是 +1 與 -1, 但是當 NPC 坦克在同樣的情形下不斷的被擊敗時, 可能因為狀態 ( 玩家所做的行為與地圖的所有因素 ) 是一樣的, 所以其懲罰值是不變的, 但是這樣的情形並不符合常理, 連續的在某條路線上被擊倒應該要有更大的懲罰值, 相對的, 連續成功的達到目標也應該有更大的獎勵值因此如果可以給每個策略不同的模糊值, 而這個模糊值可以依據每次的結果去運算, 就可以避免以上的問題, 所以本研究將獎懲值就設定為 +10*F 或 -10*F,F 為該條路線的模糊隸屬值 (fuzzy membership value, 詳細介紹在第四章 ), 為範圍介於 0~1 的一個小數值, 如此一來當 F=1 時, 就會有很高的獎懲值, 讓 NPC 坦克可以很快的學習到該條路線是否危險, 但是 F=0 時, 將不會有任何獎懲值, 也就是該次結果可能只是偶然, 不能提供 NPC 坦克做為學習的參考, 其步驟如下所示 : 1. 回合開始 2. NPC 坦克根據各路線的 Q-value 選擇此回合之路線 3. NPC 坦克撞到炸彈或順利走到終點 4. 計算各路線危險值 X, 並轉換成對應各路線的危險函數值 F 5. 將獎懲值乘上其對應的 F 值 6. 重新計算各條路線的 Q-value 值 7. 回合結束, 如果還未學到唯一一條路線, 則回到步驟 1 23

以本研究的實驗為例 ( 詳細介紹請見第四章 ), 原本的獎懲如表四, 如果將其模糊化就變成表五所示表四獎懲函數狀態 s R(s) 坦克撞到炸彈, 該條策略坦克撞到炸彈, 別條策略坦克順利走到終點, 該條策略坦克順利走到終點, 別條策略 -10 +5 +20-10 表五模糊獎懲函數狀態 s R(s) 坦克撞到炸彈, 該條策略坦克撞到炸彈, 別條策略坦克順利走到終點, 該條策略坦克順利走到終點, 別條策略 -20*F +10*F +40*F -20*F 接著下一章將詳細介紹完整實驗設計與實驗結果, 也就可以看出當把原本的固定獎懲 ( 表四 ) 變成模糊獎懲 ( 表五 ) 後, 其效率因此可以大幅提升 24

第 4 章實驗設計與實驗結果本章將介紹本研究的實驗部份, 本研究實驗共分成兩部份, 第一部份是前導實驗, 在前導實驗中將找出最適合坦克對戰遊戲類型的模糊增強式學習參數, 並應用在第二部份的遊戲實驗中, 在本章的實驗中可以看出應用模糊理論提高傳統增強式學習的效率, 並且探討不同的模糊隸屬函數在於不同類型遊戲的應用 4.1 實驗設計本研究如圖七, 共分成兩部份, 第一部份為前導實驗, 藉由簡單的遊戲路徑行為模擬, 找出最適合此遊戲的增強式學習, 再將其加入第二部份實際的遊戲之中圖七實驗架構圖 25

前導實驗中的步驟如下 : 1. 實驗平台 : 開發實驗平台, 前導實驗的平台主要是讓本研究可以測試增強式學習在坦克對戰類型遊戲中的應用情形, 藉由路線的選擇來測試增強式學習與模糊理論的實用性 2. 增強式學習 : 在前導實驗平台上的 NPC 坦克加上具有增強式學習技術之人工智慧, 讓 NPC 坦克在多次的嘗試之後, 可以經由經驗學習來選擇路線避開炸彈 3. 模糊理論 : 在增強式學習中加上模糊函數來調整獎懲值的設定, 使原本的固定獎懲變成模糊獎懲 4. 數據分析 : 實驗後把本次實驗所得到的結果回饋到各參數中, 不斷的嘗試不同的值來找出最佳函數 26

4.2 實驗環境與遊戲設計本研究中規劃設計出一個坦克對戰射擊遊戲, 遊戲中有玩家可以自行操控的坦克以及具有模糊增強式學習人工智慧的 NPC 坦克, 其遊戲規則如下 : NPC 坦克要從任意大小的地圖中某一啟始點出現, 目標為到達某些終止點, 玩家可以從任意處攻擊 NPC 坦克, 但是在地圖中會有些玩家不可擊破的牆壁, 這些牆壁可能是隨機產生或是玩家設定, 因此,NPC 坦克就會藉由這些牆壁來躲過玩家的攻擊, 並且學到最安全的一條路線來擊敗玩家, 其過程如圖八所示圖五為一個 N*N 大小的地圖, 紅色框框所示就是 NPC 坦克, 而玩家則是在地圖下方黑色框框中的坦克, 可以左右自由移動, 紅色 S 點代表 NPC 坦克的初始出現地點, A1~A5 代表可以阻擋玩家攻擊的牆, 紅色箭頭代表 NPC 坦克的目標, 只要移動通過最下面的底線, 就算 NPC 坦克勝利圖八遊戲概念圖本研究的實驗平台的軟硬體設備如下 : OS: Windows Vista Home Premium CPU:Intel Core 2 Duo processor T5500(1.6GHz,2MB L2 cache) RAM:2GB Software:Adobe Flash CS3 Pro 27

4.3 前導實驗 1. 加入增強式學習在製作遊戲之前, 本研究先做了一個前導實驗, 想利用的簡單的實驗平台來找出最適的函數, 再將此一實驗結果運用在實際製作的遊戲之中, 前導實驗利用 flash 與 action script 2.0當成實驗平台設計工具, 創造了一個在 3*3地圖中具有簡化 SARSA演算法學習能力的 NPC 坦克, 如圖九圖九前導實驗圖在此實驗中設定了一個 3*3的地圖, 在地圖的右上方為 NPC坦克的啟始點 ( 紅色框白色 S 字處 ), 而地圖的左下方則是終止點 ( 老鷹圖處 ), NPC坦克只能往左或往下走, 因此會有六種不同的策略, 如表六 28

表六坦克移動策略表 Step 1 Step2 Step 3 Step 4 Policy A left left down down Policy B left down Left down Policy C left down down left Policy D down left Left down Policy E down left down left Policy F down down Left left 同時在地圖中會有些玩家可以自由設定位置的炸彈 ( 紅色與黑色炸彈 ), 當 NPC 坦克碰撞到這些炸彈就會被摧毀, 該回合即結束, 此外, 若 NPC坦克走到終止點也算一回合結束, 每次回合結束就會用 SARSA演算法去計算其 Q-value值, 當坦克被摧毀對該條路線 Q-value 值就會給予懲罰降低, 而其他路線則給予獎勵提高, 反之, 若坦克走到終點時, 該條路線 Q-value 值則會得到獎勵, 其他路線會加予懲罰, 將各個 Q-value值的大小計來算出不同條路線的選取機率, Q-value值越大則會代表著選到該路線的機會越大, 直到只剩下一條路線時, 該遊戲才會結束, 再將其數據紀錄之 SARSA 演算法公式如公式四 : Q(s, a) Q(s,a ) + α(r(s) + γq(s',a' ) - Q(s,a) ) (4) 設定 α, γ =1. 並將此實驗的公式簡化如公式五 : Q(s, a) Q(s',a' ) + R(s) (5) 29

而在此實驗中的獎懲函數值如表七, 其中各值大小為本研究自訂, 因應本實驗給予每條路線的初始值為五十, 因此在設定函數數值時, 以加減十來測試, 在多次實驗之後, 發現對於撞到炸彈或順利走到終點此兩種狀態應該給予較高的獎懲值, 相對的其他兩種情形則需要比較低的獎懲值, 因此在本實驗中分別設定為撞到炸彈或走到終點之獎懲值的一半, 也就如表七所示表七獎懲函數狀態 s R(s) 1. 坦克撞到炸彈, 該條策略 -10 2. 坦克撞到炸彈, 別條策略 +5 3. 坦克順利走到終點, 該條策略 +20 4. 坦克順利走到終點, 別條策略 -10 在實驗的過程中, 本研究發現講懲的設定與增強式學習的效率有很大的關係, 如果提高獎懲值將對提高效率有正向的影響, 但是如果設定不當, 將造成無法學習到最佳策略的結果, 如表八, 當坦克順利撞到炸彈後別條策略的獎懲提高到 10, 就會造成如圖十所示, 當回合數非常大時仍然無法學到最佳策略 ( 本研究以一百回合當做最大值, 超過則認為此設定失敗 ) 表八失敗的獎懲函數狀態 s R(s) 1. 坦克撞到炸彈, 該條策略 -10 2. 坦克撞到炸彈, 別條策略 +10 3. 坦克順利走到終點, 該條策略 +20 4. 坦克順利走到終點, 別條策略 -10 30

圖十增強式學習失敗圖並且發現如果以固定的獎懲值, 將無法表現出路線的危險程度, 當某一路線不斷的撞到炸彈時, 增加固定的值並不合理, 應該要以模糊函數來計算獎懲值, 如果一直撞到炸彈時, 代表此一策略是非常危險的, 應該要給予更高的懲罰 2. 加入模糊理論經由實驗的結果, 本研究用模糊理論來改善此一實驗首先, 用某一危險函數來做計算,Xi為該條路線的危險變數, 初始值為 0, 當碰到炸彈時該路線危險變數為 Xi=Xi+1, 若連續碰到兩次則 Xi=Xi+2, 若連續碰到三次則 Xi=Xi+3, 最多 +3, 也就是說如果同一條路線中連續碰撞多次炸彈, 就代表該路線非常危險, 危險變數累加速度越快, 反之, 其他 j=i條路線的危險變數 Xj=Xj-1, 且一樣有累加的效果, 最多 -3 31

舉例來說, 選擇同一條路線上的九回合結果如表九 ( 炸彈可移動所以同條路線會有碰撞或沒碰撞到的情形 ) 表九危險變數例子回合 1 2 3 4 5 6 7 8 9 結果 + + + - - + - + + X 改變量 1 2 3 1 2 1 1 1 2 X總量 1 3 6 5 3 4 3 4 6 +: 代表坦克撞到炸彈 -: 代表坦克順利走到終點如果將原本固定的獎懲改變成模糊獎懲, 用危險變數 X來代表危險程度, 模糊隸屬函數 (fuzzy membership function) 則利用最基本的三角隸屬函數 (Pieczy ski and Obuchowicz 2004)( 圖十一 ), 而 f=µ(x) 的算式如算式六 : 1, if x 10 10 x μ (x) =, if 0 < x < 10 (6) 10 0, if x = 0 圖十一三角隸屬函數圖 32

此一算式所計算出來的危險模糊函數來替代原本固定的獎懲值, 新的模糊獎懲函數如表十, 因為 f期望值為 0.5, 所以新的模糊獎懲函數 R 為原本固定獎懲函數 RR 二倍再乘上 f, 例如原本第一條獎懲為 -10, 新的獎懲值就為 -20*f, 以此類推表十模糊獎懲函數狀態 s R(s) 1. 坦克撞到炸彈, 該條策略 -20*f 2. 坦克撞到炸彈, 別條策略 +10*f 3. 坦克順利走到終點, 該條策略 +40*f 4. 坦克順利走到終點, 別條策略 -20*f 兩個實驗結果比較如圖十二及表十一可以看出加入模糊獎懲後,NPC 坦克只要約 26 回合就可以學到唯一的一條路線, 比起原本未加入前的固定獎懲快了約 20 回合, 明顯的提高學習效率圖十二前導實驗結果圖 33

表十一實驗結果數據 ID E1 E2 1 58 29 2 52 28 3 54 24 4 59 25 5 55 26 6 52 32 7 56 27 8 54 28 9 47 30 10 59 23 mean 54.6 25.6667 success rate 0.56 0.67 E1: 固定獎懲 E2: 模糊獎懲表十一中的成功率 (success rate) 代表在所有回合中, 成功走到終點的機率 ( 成功走到終點次數 / 總回合次數 ), 如果以每十回合來看 E1 實驗的成功次數, 則如表十二所示表十二成功次數表 ID\ 回合 1~10 11~20 21~30 31~40 41~50 51~60 61~70 1 5 5 6 8 10 10 10 2 3 2 5 5 8 10 10 3 1 3 4 4 10 10 10 4 2 6 4 6 8 10 10 5 2 2 3 4 9 10 10 6 2 2 5 7 9 10 10 7 3 2 7 5 8 9 10 8 3 4 3 5 10 9 10 9 2 3 3 7 9 10 10 10 3 4 3 6 10 10 10 mean 2.6 3.3 4.3 5.7 9.1 9.8 10 34

在此一實驗中可以看出, 模糊理論確實可以明顯的提高增強式學習的效率, 而且不只是提高效率, 也許可以利用模糊邏輯來控制其難易度的調整, 因此實驗除了使用基本的三角隸屬模糊函數, 也利用了高斯隸屬函數 (Gaussian membership function ) 來比較兩者的差別 (Pieczy ski and Obuchowicz 2004) 高斯隸屬函數算式如公式七 : m 1 x c μ a ( x, c, s, m) = exp (7) 2 s x 為危險函數值, c 為中央值 (centre), s 為寬度值 (width), m 為模糊因子 (fuzzification factor), 其型狀如圖十三所示 (c=5,s=2,m=2): 圖十三高斯隸屬函數圖在此實驗中希望 X的值不要超過 5, 也就是如果從 0開始計算, 在連續撞到第三次時, 其危險程度就為最高, 因此固定中央值 c=5, 也就是說當 x 5其危險函數值 f=µ(x)=1, 另外如果改變二個參數值 (s,m), 就可以改變, 隸屬函數的圖型, 如果只改變 s 的話, 如圖十四所示 ( 以 c=10, m=5, s=2,3,4,5,6,7) : 35

圖十四模糊隸屬函數圖 (s 不同 ) 36

如果只改變 m 的話, 如圖十五所示 ( 以 c=10, s=5, m=3,5,7) : 圖十五模糊隸屬函數圖 (m 不同 ) 高斯隸屬函數所呈現的表現較符合本研究所期望的智能表現, 本研究所期望的智能表現並非是直線提高其危險程度, 而是要根據不同的需求, 去改變其學習的效果, 例如如果目前希望一個後知後覺的 NPC, 那應該要如圖十四中 6 號曲線 ( 黃色 ) 所呈現的結果, 相反的如要一個學習能力很強大的 NPC, 就要 s與 m兩值都提高, 如圖十四中 1 號曲線的結果 ( 或是更加垂直 ) 因此本研究期望可以利用不同參數值的隸屬函數, 可以用來做為調整難度的機制 37

4.5 實驗結果根據前三節所討論, 本研究想探討不同模糊隸屬函數參數值與不同的獎懲值大小設定對於結果的影響, 將不同的值代入實驗中, 並紀錄 NPCs 坦克需要多少回合才能學到唯一的路線, 得到的結果中發現, 原本預期依照不同的模糊參數值 (s與 m 值 ), NPCs會有不同的行為模式, 藉此可以調整遊戲的難度, 但經過實驗發現, 模糊參數值的調整並不能達到原本的預期, 在不同的參數設定下, 只會影響數據的穩定性, 而不會形成不同的行為表現, 反而是不同的獎懲設定對於 NPCs 行為模式影響程度較大, 如圖十六所示及說明圖十六模糊函數實驗結果圖圖十中, 從所有結果挑出 s=3,5與 m=3,5來呈現, 1 號 ( 藍色 ) 線條代表模糊參數值 m=3 與 s=3的四種不同獎懲值下的結果, 同理, 2 號 ( 紅色 ) 線條是 m=3與 s=5的四種結果,3 號 ( 綠色 ) 線條是 m=5與 s=3的四種結果, 4 號 ( 黑色 ) 線條是 m=5與 s=5的四種結果而 A,B,C,D 四點則是代表在該模糊參數下的四種獎懲值 ( 參考 4.3 節 ), 分別為 (40,20,20,10) (40,20,20,0) (40,15,20,10) 與 (40,20,20,5), 其中第一個數值為坦克順利走到終點, 該條策略所增加的值, 第二個數值為坦克順利走到終點, 別條策略所減少 38

,Y 軸為當坦克學到唯一一條路線所需的回合數從圖中可以看出, 改變不同的模糊函數, 並不能藉由函數的改變來改變學習的模式的不同, 但是當 s 與 m 兩者參數都增加的情型下, 會讓 NPCs 坦克的學習效果越一致, 也就是不受到不同獎懲設定的影響另外, 改變獎懲的大小會直接影響學習的表現 ( 學習的快與慢 ), 當坦克撞到炸彈, 別條策略所增加的值越少, 學習越快, 這也是合理的行為, 但是如果太少雖然學的比較快, 但也表示坦克就會減少嘗試其他路線的機會, 如此一來當環境改變時 NPC 坦克可能就不懂得如何應變, 因此從以上結果可以看出, 不同的需求會有不同的參數值, 換句話說, 在不同類型的遊戲環境下, 會有不同的參數設定雖然從結果可以看出模糊函數並不能改變行為模式, 但是整體而言, 模糊獎懲的結果會比固定獎懲更有效率 ( 學習的回合數較少 ), 因此雖然從實驗結果無法得到調整難度機制的方法, 但是利用模糊獎懲的增強式學習還是會比固定獎懲的傳統增強式學習更有效率此外, 如果是不同類型的遊戲, 可能需要不同的學習曲線, 像是第一人稱射擊遊戲與即時戰略類型中,NPCs 需要的可能是比較穩定的學習曲線, 讓 NPCs 可以從與玩家互動中穩定的學習, 不會讓玩家突然覺得強度變化太大, 不可預測 ; 但是像是運動或動作類型遊戲可能需要變化較大的學習曲線, 這類型的遊戲對於強度的敏感度較低, 畢竟人類本來就會有失誤的情形產生, 在這種類型遊戲中, 如果 NPCs 突然做變強或變弱並不會讓玩家覺得奇怪, 反而只會覺得 NPCs 只是產生失誤, 但是整體而言並不會造成影響 39

4.6 遊戲呈現與遊戲結果在實際的遊戲上, 本研究利用魔獸爭霸三的編輯器做出一個實際可以玩的遊戲, 魔獸爭霸三為 Blizzard 公司在 2000年所發表製作的遊戲, 遊戲中附有遊戲編輯器 (world editor, 圖十七 ) 來讓玩家自己設計自己想要的關卡, 可以發表在遊戲官方伺服器戰網 (Battle net, 圖十八 ) 之上, 讓所有玩家玩到自己設計的圖, 因為其功能非常齊全, 因此受到玩家的愛戴, 創造出許多小遊戲, 如圖如當下很紅的 Dota TD等等小遊戲都是從玩家自行設計進而發表在戰網上面, 許多遊戲甚至成為經典且被視為一種新的遊戲類型, 如 Dota 類型遊戲, 原是為 Defend of the Ancient, 是一名歐洲玩家 eul 所自行設計出的新遊戲類型, 玩家分成兩邊陣營控制英雄去攻打對方軍營, 該遊戲融合了許多要素, 如升級系統道具系統技能系統等, 擁有龐大的玩家群, 雖然在魔獸爭霸資料片時停止更新, 但是因此有非常多的玩家按照這樣此類型設計去研發新圖, 像是國外的 Dota allstar 與 Dota chaos, 國內的真三國無雙信長的野望等等, 甚至還有遊戲公司專門獨立研發此一類型的遊戲, 如 League of Lengends(Riot games,2009) Heros of Newerth(S2 games,2010) 與中國自行研發的夢三國 ( 杭州電魂,2010) 等等遊戲圖十七遊戲編輯器 ( 資料來源 : 魔獸爭霸 III 截圖, 版權所有 :Blizzard) 40

圖十八戰網示意圖 ( 資料來源 : 魔獸爭霸 III 截圖, 版權所有 :Blizzard) 根據之前所提的遊戲概念, 本研究製作了一個坦克對戰的遊戲 ( 如圖十九 ), 在這一遊戲中, 玩家可以控制在下方的玩家坦克移動且攻擊, 會有 NPC 坦克從上面出現, 並且會有隨機的牆 ( 圖十四中藍色的橫槓 ) 出現來阻擋玩家的攻擊, NPC坦克會利用模糊增強式學習技術不斷的學習到玩家的攻擊行為, 進而利用牆壁來躲開玩家的攻擊, 當 NPC 坦克往下走到玩家的基地時, 玩家將會受到攻擊, 並降低生命值, 而當玩家成功擊敗 NPC 坦克時就會提高自身的分數, 當玩家生命值降低成零時遊戲就結束, 分數最高的玩家就是此一遊戲的贏家 41

圖十九遊戲畫面圖 ( 資料來源 : 魔獸爭霸 III 截圖, 版權所有 :Blizzard) 本實驗讓 NPC 坦克具有模糊增強式學習的人工智慧, 一開始 NPC 坦克會隨機選擇路線並且紀錄路線到路線資料庫內, 當 NPC 坦克被玩家擊敗或是成功走到最底部, 就算本回合結束, 接著下一回合開始 NPC 坦克會從隨機或是從路線資料庫中選擇出這回合要執行的路線, 如果是由隨機選擇路線的話, 則會判斷是否是一條新的路線, 新的路線就再將這條路線紀錄起來到資料庫內, 其流程圖如圖二十 42

圖二十遊戲進行流程圖 43

在此實驗中, 使用 ε-greedy 演算法來決定 NPC 是否決定探索新路線, 設定的機率為 10%, 而路線的選擇機制則是利用前導實驗所做出的結果, 使用 SARSA 演算法的模糊增強式學習, 模糊隸屬函數是使用高斯隸屬函數, 參數為 c=10 s=5 以及 m=5, 每條新產生的路線都會給予路線的選擇值 t, 其初始值設定為 50, 每回合結束後都會做重複運算, 此值就會決定路線被選擇出來的機率大小, 也就是說當 NPC 坦克在此條路線被擊敗時, 就會根據 SARSA 演算法去懲罰此條路線, 減少 t 值, 反之則會增加 t 值 NPC 坦克會學習到如何利用地型避開玩家的攻擊, 因實驗需求, 本實驗設定一面牆讓 NPC 坦克必能成功避開攻擊並成功抵達目標, 也就是玩家一定會因為生命被扣完而結束遊戲, 最後再以玩家所取得的分數來當勝負的判別遊戲完成之後, 再將此遊戲放到戰網上讓玩家下載, 在遊戲的過程中可以發現, 玩家對於 NPC 坦克會避開攻擊感到很有趣, 且為了取得更高分會想盡辦法去擊敗 NPC 坦克, 如果想要挑戰不同的難度或玩法, 也可以藉著改變牆的位置或是改變增強式學習的獎懲值設定, 讓 NPC 坦克可以有不同的表現, 玩家因此可以與 NPC 坦克鬥智產生樂趣 44

4.7 如何實際應用模糊增強式學習從本研究得知, 模糊增強式學習確實是可以應用在坦克類型遊戲之中, 但是數位遊戲有很多類型, 在不同的遊戲類型可能會有不同的應用情形 1. 第一人稱遊戲類型例如在第一人稱射擊遊戲中就可以本研究所做的路徑搜尋功能, 第一人稱射擊遊戲中的 NPCs 跟坦克對戰類型遊戲有異曲同工之妙,NPCs 都需要知道去避開危險, 找到一條安全且可以擊敗的玩家的路徑, 不同的是第一人稱射擊遊戲通常會更複雜, 會有更多因素來影響 NPCs 的決定, 例如與玩家的距離武器的不同是否要與玩家硬碰硬等等, 要將更多的因素加入路線危險程度的考慮, 但是同樣的是可以讓模糊增強式學習成為 NPCs 選擇路徑的一個依據, 讓 NPCs 有更具人性化的行動表現 2. 角色扮演類型如果是以目前最熱門的線上角色扮演類型的遊戲, 或許可以將模糊增強式學習技術應用在敵方 NPCs 的出招模式上, 在此類型的遊戲中, 最吸引玩家的過程通常是集合許多玩家一起去打敗強大的敵方頭目 (NPCs) 來取得稀有的物品獎勵, 而不同的 NPCs 可能就會有不一樣的行為模式, 雖然同樣的一個 NPC 可能會有許多不同的行為, 但是不同的行為通常會是隨機產生的, 因此玩家在玩過幾次後通常會知道 NPC 會有哪幾種行為, 該如何避開 NPC 的招式, 所以玩過幾次後打頭目 NPC 的過程就變成有固定的模式且不斷重複的無趣過程, 遊戲公司也必須要一直出更多不同的場景與不同的 NPCs 來因應玩家的需求, 因此如果能讓 NPCs 都具有模糊增強式學習的人工智慧, 讓 NPCs 可以學習到玩家的行為, 進而選擇不同的行為模式, 就可以讓遊戲變得更有趣, 延長遊戲的壽命 45

3. 即時戰略遊戲類型以即時戰略類型遊戲而言, 模糊增強式學習可以應用在 NPC 的出兵選擇上, 在此類型的遊戲中, 兵種的相剋是取得勝利的一個重要因素, 但是玩家常會異想天開的發展出許多不同的兵種來做搔擾戰術, 如果要用規則基礎方法來做 NPCs 人工智慧技術的話, 可能需要很非龐大的程式碼才能達到目標, 而且這類型的遊戲會不斷的更新以求平衡, 如此一來各個兵種在不同的版本可能會有不一樣的功能, 但 NPCs 卻不會像人類玩家一樣用經驗去學習在不同版本情形下的玩法, 如果有增強式學習的技術, 也就可以不需要重新寫 NPCs 的人工智慧程式碼, 而是直接讓 NPCs 去學習玩家的玩法, 並且做出相對應的兵種來剋制玩家的玩法, 如此一來就可以讓遊戲更具挑戰且有趣 4. 回合式戰略類型遊戲在回合式戰略類型遊戲中, 通常玩家會挑戰同樣的一個局面很多次, 想出不同的戰略來打贏電腦, 就像是下一盤棋一樣, 因此, 這類型遊戲的流程非常適用增強式學習技術, 如果可以讓 NPCs 學習到移動不同的棋子 ( 或遊戲中電腦所控制的兵力 ) 時, 玩家會有怎樣不同的反應, 並且瞭解到玩家曾出現過的怪招, 就可以加強難度, 並且讓玩家更具挑戰, 畢竟這類型的遊戲就是要讓玩家不斷的嘗試不同的戰略去取得勝利, 因此增強式學習會非常適用 5. 其他類型除此之外, 還可以應用在許多不同種類的遊戲之中, 但是最主要的應用在於當 NPCs 要選擇如何應對玩家的行為時, 如以上所提到的 NPCs 要選擇不同的路徑避開玩家, 或是選擇不同的招式來打敗玩家等等, 這也就是玩家想要遊戲中 NPCs 具有人工智慧技術的一大原因, 只要 NPCs 應對玩家行為可以更人性化且聰明, 那就會讓玩家覺得自己並不是在跟單調的電腦玩, 而是一個會思考的機器, 如此一來就可以增加遊戲的耐玩性與樂趣 46

雖然增強式學習技術可以應用在許多不同類型的的遊戲中, 但仍然有許多不合適的類型, 像是 : 6. 運動遊戲類型在運動遊戲類型中, 大部份的 NPCs 行為模式都非常複雜, 而且常常不只有一兩個行為目標, 同時運動遊戲類型的玩家常常是兩個人以上, 在此種情形下, 要應用增強式學習技術可能會非常的困難, 除了要有更複雜的演算法之外, 還不一定可以有很好的效率, 如果要應用增強式學習技術的話, 可能就要限制許多的條件 7. 動作遊戲類型 ( 如格鬥遊戲等 ) 增強式學習技術在動作遊戲類型中會非常的不適用, 如同運動遊戲類型一樣, 動作遊戲類型有太複雜的行為模式, 且這類型的遊戲的 NPCs 並不需要太聰明或是複雜的行為, 通常只需要幾種簡單的行為, 讓玩家在玩的過程中知道如何擊敗, 並因此取得快感, 如果 NPCs 具有太強大的學習能力, 會讓遊戲變得太過複雜與困難, 反而失去樂趣 47

4.8 本章小結從本章對於模糊增強式學習的一個前導實驗中可以看出以下幾點 : I. 模糊增強式學習的一個實作中可以看出, 增強式學習確實可以讓 NPC 坦克在一段時間內找到一條正確的路線, II. 用模糊獎懲機制去取代固定獎懲機制可以提高增強式學習的效率, III. 另外, 模糊隸屬函數的選擇可以改變 NPCs 的學習模式, 但是並無規律可尋, 在不同的遊戲環境下可能需要不同的隸屬函數來改變 NPCs 的行為模式此外, 本研究也實際的做出了一個坦克對戰的遊戲, 在遊戲中的 NPC 坦克具有模糊增強式學習的能力,NPC 坦克依據不同環境 ( 障礙物與玩家行為 ) 下做出不同的反應, 讓玩家覺得 NPC 坦克是具有智慧的從實驗中就可以看出模糊增強式學習確實可應用在數位遊戲之上, 並且也可以有很好的效率 48

第 5 章結論本章將對本研究所獲得之結果進行總結與討論, 從前導實驗中可以看出增強式學習的效果, 以及模糊理論提高效率的成果, 實驗的結果也證明了本研究的研究假設, 以下各節將依序對於本研究做一個整體的結論, 以及探討如何應用模糊增強式學習在不同類型的遊戲之中, 最後是本研究的各種限制與未來可以發展的研究議題 5.1 摘要遊戲人工智慧對數位遊戲而言是很重要的一個環節, 遊戲人工智慧讓遊戲中的 NPCs 可以表現得更聰明, 但是數位遊戲中 NPCs 所需要的人工智慧並非完美的人工智慧, 不會出錯的人工智慧會讓玩家產生壓力, 反而讓玩家對遊戲失去耐心, 在此一前題之下, 增強式學習技術是一個解決方案增強式學習是一種以過去經驗來學習的人工智慧技術, 目前已經在各個領域被廣為應用, 但是在數位遊戲中的應用還非常少, 最大的原因就是因為其需要很長的一段試誤學習過程, 但是這樣的特性並不適用於數位遊戲之中, 因此本研究就利用模糊獎懲來取代原本的固定獎懲, 以期改善其效率本研究實際的做出一款坦克對戰的遊戲來當作實驗的平台, 讓其中的 NPC 坦克具有模糊增強式學習的人工智慧, 在此之前, 也做了一個前導實驗去探討不同參數對於模糊增強式學習的影響實驗的結果顯示, 本研究成功的利用增強式學習讓遊戲中的 NPC具有如人類的學習思考模式, 模擬獎懲可以加快增強式學習的效率, 當學習的效率提高後, 就可以實際的應用在數位遊戲之中, 從前導實驗之中得知, 獎懲機制對於整體的表現有很大的影響, 如果獎勵過高, 雖然會正向的提高效率, 但是過高則會造成實驗永遠不會結束的後果, 如果太低, 又會讓代理人學習過慢, 變得非常沒有效率, 而且不同的遊戲設計之下, 會需要有不同的獎懲值設定, 根據遊戲的需求來調整獎懲值的高低與模糊獎懲函數模擬函數雖然很明顯的可以提高效率, 但是並不能如原本預期的來調整其遊戲難度 49

5.2 結論本研究成功的應用增強式學習技術在數位遊戲之中, 因應本研究的研究假設 (p.11), 可以得到以下幾點結論 : 研究假設 I: 本研究假設在傳統數位遊戲中加入增強式學習技術可以讓遊戲中的 NPCs 具有學習的能力, 會依據玩家不同的行為來做出不同的反應, 並可適應遊戲環境的改變進行調整從本研究的實驗中, 可以看出 NPCs 具有增強式學習的人工智慧時可以讓 NPCs 學習到如何避開炸彈, 學到唯一的策略, 如表十二 ( 詳細介紹見本論文 4.3 節 ) 固定獎懲 (E1) 平均約 55 次可以學到唯一路線 (E2 為模糊獎懲 ), 即使環境改變或是玩家行為不同導致的狀態不同,NPCs 都可以馬上感知到, 改變自己的行為, 選擇不同的路線, 如圖二十一所示圖二十一實驗環境改變坦克學習圖 50

研究假設 II: 利用模糊理論提昇增強式學習效率從本研究的實驗數據可以看出, 模糊獎懲與固定獎懲有很大的差距 ( 相差約二十回合, 詳細說明見 4.3 節 ), 模糊獎懲可以有效的改善學習效率, 當效率改善後實際在數位遊戲中應用的可行性將會大大的提昇從實驗結果也可以看出 ( 見表十三 ), 應用增強式學習技術於數位遊戲 NPCs 中的關鍵在於獎懲機制的設定, 獎懲值的高低直接影響到增強式學習的效果與效率設定不當, 反而可能會無法發揮效果, 模糊獎懲的機制可以讓獎懲的設定更有變化, 同時也改善了傳統增強式學習的效率, 當增強式學習效率改善後, 就可以應用在許多不同類型的遊戲中, 讓數位遊戲的 NPCs 更聰明, 行為更人性化, 遊戲也會因此增加耐玩性與互動性表十三實驗結果表 ID E1 E2 1 58 29 2 52 28 3 54 24 4 59 25 5 55 26 6 52 32 7 56 27 8 54 28 9 47 30 10 59 23 mean 54.6 25.6667 success rate 0.56 0.67 E1: 固定獎懲 E2: 模糊獎懲 51

5.3 研究限制與未來研究 1. 研究限制 : 本研究所受到的限制, 如下所述 : 首先, 因為數位遊戲有太多種類型, 因此本研究只能選擇其中一種來做實驗, 並且結果無法一般化, 是否有更好的方法可以應用在所有的遊戲類型之中會是一個非常具有挑戰性的問題另外在本研究的坦克對戰類型遊戲中, 為了瞭解增強式學習技術與模糊理論的實用性, 本論文簡化了遊戲的過程, 讓 NPC 坦克的目標只是移動到玩家的陣地, 但是實際的遊戲不應該是如此簡單, 在路徑中或許會有一些可以增益的道具或是不同的機關讓遊戲更有趣, 在這樣的情形下就需要有更多的因素加入在獎懲機制之中, 並且反映到 SARSA 演算法中, 因此未來可以研究多目標增強式學習運算方式 2. 未來研究 I. 如研究限制中所提到, 如果除了懲罰因素 ( 如本研究的炸彈 ) 加入了獎勵因素 ( 如在本研究中加入替 NPC 坦克抵擋玩家攻擊之道具 ), 會有更複雜的情形產生, 在這樣的狀態下該如何應用增強式學習是一個值得研究的議題 II. 另外, 現在的數位遊戲常常是可以多人進行的, 如果是可以多人進行的遊戲, 那 NPCs 應該也會有不同的反應, 同時如果是線上即時的遊戲時, 那可能會有更複雜的情形產生, 如何有效的應用模糊增強式學習在這些複雜的情形下也會是一個有趣的議題 III. 除此之外還可以探討增強式學習中各種不同的演算法 (q-learning 與 SARSA 等 ) 應用在不同的遊戲類型上的表現等, 在這其中仍然有許多的研究議題值得深入去做研究 52

參考文獻中文 : 1. 丁一賢與陳牧言 (1995) 資料探勘台中市 : 滄海書局 2. 朱敬先 (2005) 幼兒教育台北市 : 五南出版社 3. 李豐良 (2006) 動作型電腦遊戲設計因素探討國立交通大學工業工程與管理所博士論文新竹市 4. 陳尤中 (2006) 數位遊戲中玩家介入遊戲的分類國立交通大學資訊科學與工程研究所碩士論文新竹市 5. 陳亭光 (2008) 基於使用者經驗之多準則評分遊戲推薦系統國立臺灣大學資訊管理所碩士論文台北市 6. 斐善成 (2007) 應用強化式學習建構模糊類神經控制系統國立中山大學電機工程所碩士論文高雄市 7. 曾世绮 (2007) 驗證遊戲吸引人之要素 : 內容分析魔獸世界佛光大學資訊教育所碩士論文宜蘭縣 8. 詹姆士強森 (2005) 幼兒遊戲 - 以 0~8 歲幼兒園實務為導向華騰文化譯台北市 9. 蔡淑苓 (2004) 遊戲理論與應用 : 以幼兒遊戲與幼兒教師教學為例台北市 : 五南書局 10. 簡國斌 (2010) 數位遊戲之游藝功能要素分析國立臺北教育大學玩具與遊戲設計所碩士論文台北市英文 : 11. Aha, D. W., Molineaux, M. and Ponsen, M. (2003), Learning to Win: Case-Based Plan Selection in a Real-Time Strategy Game, In Proceedings of the Sixth International Conference on Case-Based Reasoning, Trondheim, Norway, June 23-26, pp. 5-20. 12. Buckland, M.(2005), Programming game AI by example, Jones & Bartlett Publishers, Sudbury MA. 13. Bianchi, R. A. C. and Ribeiro, C. H.C. and Costa, A. H. R.(2007), Heuristic selection of actions in multiagent reinforcement learning, In Proceedings of the 20th International Joint Conference on Artifical Intelligence, India,January 6-12, pp. 690-696. 53

14. Björnsson, Y., Hafsteinsson, V., Jóhannsson, A. and Jónsson, E.(2004), Efficient Use of Reinforcement Learning in A Computer Game, In Proceedings of the International Conference on Computer Games: Artificial Intelligence, Design and Education, University of Wolverhampton, UK, November8-10, pp.379-383. 15. Barber, H. and Kudenko, D. (2007), Adaptive Generation of Dilemma-based Interactive Narratives, Advanced Intelligent Paradigms in Computer Games in Book series of Studies of Computational Intelligence (71), Springer Berlin / Heidelberg, pp. 19-37. 16. Bourg, D. M. and Seemann, G.(2004), AI for Game Developers, O'Reilly Media, Cambridge, Massachusetts. 17. Charles, D.(2004), "Enhancing Gameplay: Challenges for Artificial Intelligence in Digital. Games", LNCS 3166, Springer Berlin / Heidelberg, pp.57-108. 18. Ghory, I.(2004), Reinforcement learning in board games., Technical Report of Department of Computer Science, University of Bristol, England, UK 19. Graepel, T. Herbrich, R. and Gold, J. (2004), Learning to fight, In Proceedings of the International Conference on Computer Games: Artificial Intelligence, Design and Education. University of Wolverhampton, UK, November8-10, pp.193-200. 20. Pieczy ski, A. and Obuchowicz, A.(2004), Application of the General Gaussian Membership Function for the Fuzzy Model Parameters Tunning, LNCS 3070, Springer Berlin / Heidelberg, pp.350-355. 21. Jin, X. H., Jang, D. H. and Kim, T.Y.(2008), Evolving Game NPCs Based on Concurrent Evolutionary Neural Networks, LNCS 5093, Springer Berlin / Heidelberg, pp. 230 239. 22. Livingstone D. & Charles D(2004), Intelligent Interfaces for Digital Games, Springer Berlin / Heidelberg LNCS 3166, pp.57-108. 23. McPartland, M. and Gallagher, M.(2008), Creating a Multi-Purpose First Person Shooter Bot with Reinforcement Learning, In Proceedings of Computational Intelligence and Games, Perth, Australia, December 15-18, pp. 143-150. 24. Ponson, M et al.(2006), Hierarchical Reinforcement Learning with Deictic, In Proceedings of the 18th Belgium-Netherlands Conference on Artificial Intelligence (BNAIC 2006), University of Namur, Belgium, October 5-6, pp. 251-258. 25. Ponson, M. and Spronck, P.(2004), Improving Adaptive game AI With Evolutionary Learning, In proceedings of 15 th International Conference on Computer Games: AI, 54

Animation, Mobile, Interactive Multimedia, Educational & Serious Games, University of Wolverhampton, UK. pp. 389-396 26. Russell, S. and Norvig, P.(2003), Artificial Intelligence A Modern Approach, Prentice Hall, New Jersey. 27. Sutton, R. S. and A. G. Barto (1998). Reinforcement Learning: An Introduction. MIT Press, Cambridge, MA. 28. Szita, I. and Lorincz, A.(2007), Learning to Play Using Low-Complexity Rule-Based Policies:Illustrations through Ms. Pac-Man, Journal of Artificial Intelligence Research (30), pp.659-684 29. Seo, H.(2000), A Fuzzy Reinforcement Function for the Intelligent Agent to process Vague Goals. In Proceedings of the 19th IEEE International Conference of the North American Fuzzy Information Processing Society, Atlanta, Georgia, Usa, July 13-15, pp.29-33. 30. Spronck, P., Ponsen, M., Sprinkhuizen-Kuyper, I., Postma, I. (2006), Adaptive game AI with dynamic scripting, Machine Learning (63), pp. 217 248 31. Wender, S. and Watson, I.(2008), Using Reinforcement Learning for City Site Selection in the Turn-Based Strategy Game Civilization IV, In proceedings of the International Conference on Computational Intelligence and Games, Perth, Australia, December 15-18, pp. 372-377. 32. Watkins, C. J. C. H. and P. Dayan (1992). Q-learning. Machine Learning (8), pp.279 292. 33. Zadeh, L.A. (1968). Fuzzy Algorithms". Information and Control 12 (2), pp. 94 102. 網站 : 34. 台灣經濟研究院 (2008) 2010 年 6 月全球消費性電子產品業產業研究報告, 取自 :http://www.tier.org.tw 35. 行政院六大新興產業主題網 (2010) 文化創意產業 2010 年 6 月取自 : http://www.ey.gov.tw/lp.asp?ctnode=3038&ctunit=1254&basedsd=7&mp=97 36. 杭州電魂 (2010) 夢三國 2010 年 7 月取自 :http://www.m3guo.com 37. 資策會資訊市場情報中心 (2008) 台灣遊戲市場發展現況與趨勢 2010 年 6 月取自 :http://mic.iii.org.tw/aisp/ 38. Blizzard(2000), world editor of warcraft III, Retrieved May 20, 2009, from the World 55

Wide Web: http://classic.battle.net/war3/faq/worldeditor.shtml 39. Epstein, S. L.(1999), Games & Puzzles, Retrieved July 8, 2010, from the World Wide Web: http://www.aaai.org/aitopics/pmwiki/pmwiki.php/aitopics/games 40. Melenchuk, P.(2000), Reinforcement Learning, Retrieved 15 May 2009, from the World Wide Web: http://pages.cpsc.ucalgary.ca/~jacob/courses/winter2000/cpsc533/pages/cpsc-533-c ourseoutlein.html 41. Riot games (2009).League of Lengends. Retrieved July 8, 2010, from the World Wide Web: http://www.leagueoflegends.com 42. S2 games (2010). Heroes of newerth. Retrieved July 8, 2010, from the World Wide Web: http://www.heroesofnewerth.com 56