MAXQ BA ( ) / 20

Similar documents
.1.2 MAXQ.3.4.5

机器任务学习和协同

关于2007年硕士研究生培养方案修订几点要求的说明

.... 2D (USTC) 2D / 18

ii


46 數 學 傳 播 26 卷 3 期 民 91 年 9 月 表 演, 有 些 賭 場 還 每 小 時 發 遊 客 1 美 元, 可 連 發 7 小 時 一 個 目 的, 都 是 吸 引 遊 客 流 連 忘 返, 持 續 地 賭 開 賭 場 當 然 是 為 了 賺 錢, 利 用 機 率 來 設 計

(Microsoft Word \256\325\260\310\267|\304\263\254\366\277\375.doc)

Welch & Bishop, [Kalman60] [Maybeck79] [Sorenson70] [Gelb74, Grewal93, Maybeck79, Lewis86, Brown92, Jacobs93] x R n x k = Ax k 1 + Bu k 1 + w

I (a) I I % I I 14A (b) 14A.90 14A (c) I % 14A.76 14A 2


Microsoft Word 記錄附件

女性健美保健(中).doc

汉 学 研 究 学 刊 第 六 卷 (2015) Journal of Sinological Studies, Vol.6 (2015) 一 唐 太 宗 的 書 法 文 化 建 設 唐 太 宗 ( 李 世 民, , 在 位 ) 酷 愛 書 法, 宣 和 書 譜 評 爲 :

(i) (ii) (iii) 2

小论文草稿2_邓瀚

<4D F736F F D20B8BDBCFE3220BDCCD3FDB2BFD6D8B5E3CAB5D1E9CAD2C4EAB6C8BFBCBACBB1A8B8E6A3A8C4A3B0E5A3A92E646F6378>

國家圖書館典藏電子全文

國立中山大學學位論文典藏.PDF

卫生洁具

JOURNAL OF DISTANCE EDUCATION International View [1] ( ) ; (NITRD) (Basic R&D) (Cross-cutting R&D Foundations) ( ) ( 1) (1) ;(2) ;(3) ;(4) ;(5)

标题

第壹章

Microsoft Word _4

郑州大学(下).doc

厨房小知识(六)

广 东 纺 织 职 业 技 术 学 院 发 展 党 员 公 示 制 实 施 办 法 关 于 推 荐 优 秀 团 员 作 为 党 的 发 展 对 象 工 作 的 意 见 后 勤 管 理 工 作 广 东 纺 织 职 业 技 术 学 院 新 引 进 教 职 工 周 转 房 管 理


游戏攻略大全(五十).doc

金融英语证书考试大纲


健康知识(二)

中南财经大学(二).doc

广西大学(一).doc

根据学校教学工作安排,2011年9月19日正式开课,也是我校迁址蓬莱的第一学期开学

山东大学(一).doc

2

主 编 : 杨 林 副 主 编 : 张 新 民 邹 兰 曹 纯 纯 周 秋 婷 李 雅 清 黄 囡 囡 评 审 顾 问 : 杨 林 张 新 民 评 审 : 张 新 民 邹 兰 曹 纯 纯 周 秋 婷 李 雅 清 黄 囡 囡 李 忆 萍 徐 如 雪 文 字 编 辑 : 曹 纯 纯 邹 兰 李 雅 清

最新文物管理执法全书(十四).doc

园林常识(二).doc

前 言 二 一 六 年 四 月 四 日, 兒 童 節, 誕 生 了 一 件 美 事 : 中 國 作 家 曹 文 軒 在 意 大 利 博 洛 尼 亞 國 際 童 書 展 榮 獲 國 際 安 徒 生 文 學 獎, 是 該 獎 創 設 六 十 年 來, 第 一 位 摘 桂 的 中 國 作 家, 意 義 重

湖 南 科 技 大 学

上海外国语大学(二).doc

2009 陳 敦 德

切 实 加 强 职 业 院 校 学 生 实 践 能 力 和 职 业 技 能 的 培 养 周 济 在 职 业 教 育 实 训 基 地 建 设 工 作 会 议 上 的 讲 话 深 化 教 育 教 学 改 革 推 进 体 制 机 制 创 新 全 面 提 高 高 等 职 业 教 育 质 量 在

鸽子(三)

兽药基础知识(四)

园林植物卷(十).doc

园林植物卷(十七).doc

临床手术应用(三)

家装知识(二十)

医疗知识小百科

家庭万事通(一)

家装知识(三)

园林绿化(一)

园林植物卷(十五).doc

最新监察执法全书(一百五十).doc

兽药基础知识(三)

奥运档案(四).doc

最新监察执法全书(五十).doc

最新执法工作手册(三百八十四)

中华美食大全4

动物杂谈_二_.doc

抗非典英雄赞歌(三)

新时期共青团工作实务全书(三十五)

经济法法律法规第十九卷

游戏攻略大全(五十九).doc

火灾安全实例

兽药基础知识(七)

实用玉米技术(二)

中国政法大学(一).doc

水产知识(一)

招行2002年半年度报告全文.PDF

(Microsoft Word - outline for Genesis 9\243\2721\243\25529.doc)

穨Shuk-final.PDF

2

國立中山大學學位論文典藏.PDF

Microsoft Word mpc-min-chi.doc

( ) 1

穨cwht.PDF

900502_Oasis.indb

bnb.PDF

untitled

Microsoft Word - om388-rnt _excl Items 16 & 38_ _final_for uploading_.doc

% 25% (i) 95% 96,290,900 (ii) 99.9% 17,196,000 (iii) 99.9% 89,663,100 2

¨Æ·~½g¡ã¾·~¤ÀÃþ


公務員懲戒法實務及新制

大小通吃-糖尿病


98825 (Project Sunshine) Chi_TC_.indb

游戏攻略大全(五十二).doc

游戏攻略大全(五十一).doc

1 引言

2013 年 7 月 总 第 235 期 主 办 单 位 : 中 国 科 学 院 自 动 化 研 究 所 CONTENTS 中 国 科 学 院 自 动 化 研 究 所 所 刊 卷 首 语 节 令 是 一 种 命 令 毕 淑 敏 1 聚 焦 CASIA 自 动 化 所 召 开 庆 祝 建 党 92 周

填 写 要 求 一 以 word 文 档 格 式 如 实 填 写 各 项 二 表 格 文 本 中 外 文 名 词 第 一 次 出 现 时, 要 写 清 全 称 和 缩 写, 再 次 出 现 时 可 以 使 用 缩 写 三 涉 密 内 容 不 填 写, 有 可 能 涉 密 和 不 宜 大 范 围 公

國立高雄大學數位論文典藏

ii

双 语 教 学 之 中 综 上 所 述, 科 大 讯 飞 畅 言 交 互 式 多 媒 体 教 学 系 统, 围 绕 语 音 核 心 技 术 的 研 究 与 创 新, 取 得 了 一 系 列 自 主 产 权 并 达 到 国 际 领 先 水 平 的 技 术 成 果, 同 时 获 得 发 明 专 利 3

untitled

Transcription:

MAXQ BA11011028 2016 6 7 () 2016 6 7 1 / 20

1 2 3 4 () 2016 6 7 2 / 20

RoboCup 2D 11 11 100ms/ 1: RoboCup 2D () 2016 6 7 3 / 20

2: () 2016 6 7 4 / 20

() 2016 6 7 5 / 20

Markov Decision Theory [Puterman, 1994] 3 1 MDP 2 MDP POMDP 3 POMDP DEC-POMDP () 2016 6 7 6 / 20

MDP 1 S = { s 1, s 2,, s S } 2 A = { a 1, a 2,, a A } 3 T(s s, a) [0, 1] 4 R(s, a) R 5 π : S A POMDP 1 O = { o 1, o 2,, o O } 2 Z(o a, s ) [0, 1] 3 π : (S) A 3: MDP () 2016 6 7 7 / 20

DEC-POMDP POMDP 1 I 2 A = i I A i 3 O = o I O i 4 5 π i : H i A i () 2016 6 7 8 / 20

P NP PSAPCE EXP NEXP MDP P POMDP PSPACE DEC-POMDP NEXP () 2016 6 7 9 / 20

[Puterman, 1994] [Ross et al., 2008] [Barto and Mahadevan, 2003] () 2016 6 7 10 / 20

MAXQ MAXQ MAXQ [Dietterich, 1999] MDP M = {M 0, M 1,, M n } M i = {T i, A i, R i } T i A i 4: MAXQ R i M 0 M () 2016 6 7 11 / 20

POMDP[Cassandra et al., 1995] MAXQ[Dietterich, 1999] POMDP [Silver and Veness, 2010] [Browne et al., 2012] [Wu et al., 2011] () 2016 6 7 12 / 20

[Barry et al., 2011] MDP [Gmytrasiewicz and Doshi, 2005] POMDP [Ramírez and Geffner, 2011] Goal POMDP MAXQ () 2016 6 7 13 / 20

RoboCup 2D 2D RoboCup 2D 3-4 () 2016 6 7 14 / 20

MAXQ-OP MAXQ MDP [Bai et al., 2012b] MAXQ MAXQ [Bai et al., 2012c] RoboCup 2D [Bai et al., 2012a, Bai et al., 2013, Bai et al., 2012c] () 2016 6 7 15 / 20

Bai, A., Chen, X., MacAlpine, P., Urieli, D., Barrett, S. and Stone, P. (2012a). Wright Eagle and UT Austin Villa: RoboCup 2011 Simulation League Champions. In RoboCup-2011: Robot Soccer World Cup XV, (Roefer, T., Mayer, N. M., Savage, J. and Saranli, U., eds), vol. 7416, of Lecture Notes in Artificial Intelligence. Springer Verlag Berlin Bai, A., Wu, F. and Chen, X. (2012b). Online Planning for Large MDPs with MAXQ Decomposition (Extended Abstract). In Proc. of 11th Int. Conf. on Autonomous Agents and Multiagent Systems (AAMAS 2012) Bai, A., Wu, F. and Chen, X. (2012c). Online Planning for Large MDPs with MAXQ Decomposition. In Proc. of the Autonomous Robots and Multirobot Systems workshop (at AAMAS-12) Bai, A., Wu, F. and Chen, X. (2013). Towards a Principled Solution to Simulated Robot Soccer. In RoboCup-2012: Robot Soccer World Cup XVI, (Chen, X., Stone, P., Sucar, L. E. and der Zant, T. V., eds), vol. 7500, of Lecture Notes in Artificial Intelligence. Springer Verlag Berlin () 2016 6 7 16 / 20

1 2013.1-2013.3 2 2013.4-2013.7 3 2013.8-2013.11 4 2013.12-2014.2 5 2014.3-2014.6 () 2016 6 7 17 / 20

I Bai, A., Chen, X., MacAlpine, P., Urieli, D., Barrett, S. and Stone, P. (2012a). Wright Eagle and UT Austin Villa: RoboCup 2011 Simulation League Champions. In RoboCup-2011: Robot Soccer World Cup XV, (Roefer, T., Mayer, N. M., Savage, J. and Saranli, U., eds), vol. 7416, of Lecture Notes in Artificial Intelligence. Springer Verlag Berlin. Bai, A., Wu, F. and Chen, X. (2012b). Online Planning for Large MDPs with MAXQ Decomposition (Extended Abstract). In Proc. of 11th Int. Conf. on Autonomous Agents and Multiagent Systems (AAMAS 2012). Bai, A., Wu, F. and Chen, X. (2012c). Online Planning for Large MDPs with MAXQ Decomposition. In Proc. of the Autonomous Robots and Multirobot Systems workshop (at AAMAS-12). Bai, A., Wu, F. and Chen, X. (2013). Towards a Principled Solution to Simulated Robot Soccer. In RoboCup-2012: Robot Soccer World Cup XVI, (Chen, X., Stone, P., Sucar, L. E. and der Zant, T. V., eds), vol. 7500, of Lecture Notes in Artificial Intelligence. Springer Verlag Berlin. Barry, J., Kaelbling, L. and Lozano-Perez, T. (2011). DetH*: Approximate Hierarchical Solution of Large Markov Decision Processes. In International Joint Conference on Artificial Intelligence pp. 1928 1935,. Barto, A. and Mahadevan, S. (2003). Recent advances in hierarchical reinforcement learning. Discrete Event Dynamic Systems 13, 341 379. () 2016 6 7 18 / 20

II Browne, C., Powley, E. J., Whitehouse, D., Lucas, S. M., Cowling, P. I., Rohlfshagen, P., Tavener, S., Perez, D., Samothrakis, S. and Colton, S. (2012). A Survey of Monte Carlo Tree Search Methods. IEEE Trans. Comput. Intellig. and AI in Games 4, 1 43. Cassandra, A., Kaelbling, L. and Littman, M. (1995). Acting optimally in partially observable stochastic domains. In Proceedings of the National Conference on Artificial Intelligence pp. 1023 1023, JOHN WILEY & SONS LTD. Dietterich, T. G. (1999). Hierarchical Reinforcement Learning with the MAXQ Value Function Decomposition. Journal of Machine Learning Research 13, 63. Gmytrasiewicz, P. and Doshi, P. (2005). A framework for sequential planning in multiagent settings. Journal of Artificial Intelligence Research 24, 49 79. Puterman, M. L. (1994). Markov Decision Processes: Discrete Stochastic Dynamic Programming. John Wiley & Sons, Inc. Ramírez, M. and Geffner, H. (2011). Goal recognition over POMDPs: Inferring the intention of a POMDP agent. In Proceedings of the Twenty-Second international joint conference on Artificial Intelligence-Volume Volume Three pp. 2009 2014, AAAI Press. () 2016 6 7 19 / 20

III Ross, S., Pineau, J., Paquet, S. and Chaib-Draa, B. (2008). Online planning algorithms for POMDPs. Journal of Artificial Intelligence Research 32, 663 704. Silver, D. and Veness, J. (2010). Monte-Carlo planning in large POMDPs. Advances in Neural Information Processing Systems (NIPS) 46. Wu, F., Zilberstein, S. and Chen, X. (2011). Online planning for multi-agent systems with bounded communication. Artificial Intelligence 175, 487 511. () 2016 6 7 20 / 20