<4D F736F F F696E74202D20D6C7C4DCBFD8D6C65FB2A9DEC4BFD8D6C65F31205BBCE6C8DDC4A3CABD5D>

Similar documents

PowerPoint 演示文稿

書本介紹


礼仪玉和葬玉


诺贝尔经济学经典选读 Selected Reading of the Classic of Nobel Economic Prize

( ),,,,,,,, ` ', :,,,,??? :,, ( : ~, ) : ( ) :,, ( ),,,,, ~ :, :,,,,, ( ),,,,,,, :, :, ( )? :, ( ) :, :

网络结构与效应原理

論 制 裁 北 韓 之 新 決 議 案,5 個 常 任 理 事 國 以 及 日 本 韓 國 等 7 國 (G5+2) 之 駐 聯 合 國 大 使 召 開 一 連 串 的 協 調 會 議 但 由 於 美 日 韓 3 國 與 中 俄 2 國 在 制 裁 內 容, 是 否 應 包 括 軍 事 措 施 在

MergerPdf.dll

幻灯片 1

¼ ½ ¾ À Á Â

赵 靓等 伦理学视角下的囚徒困境 m m m m m z m m z B z k w q m m mm k w m K w N Eq m P D mm m m 论中的 参与人 而个体可能发生的行为就对应 一 引言 伦理学与博弈论 于博弈论所说的 策略 但是 博弈论关心的是 在参与人确定 策略空间确定

幻灯片 1

(d) 该博弈是否存在一个均衡, 其中两个投机者分别选择攻击和不攻击两种不同的策略? 解 释你的结论 (e) 给定 c = 8, 该博弈是否存在一个均衡, 其中两个投机者均选择不攻击? 该博弈是否存 在一个均衡, 其中两个投机者均选择攻击? 请解释你的回答 (f) 给定 c = 0.8, 该博弈是否



Microsoft Word - mei.doc

!

策略, 从而没有任何人有积极性打破这种均衡 本节将要介绍的古诺产量竞争模型 伯特兰德价格竞争模型和豪泰林产品决策模型都是完全信息静态博弈的经典模型 古诺 (Courot) 产量竞争模型双寡头古诺竞争模型法国经济学家奥古斯丁 古诺于 838 年首次提出了双寡头进行产量竞争的静态博弈模型, 这实际上是以

验资报告的 虚假 与 真实 法律界与会计界的对立 二 德阳案对注册会计师职业的冲击

第壹章


第 三 期 前 言 近 年 來 由 於 資 訊 科 技 的 進 步 及 網 際 網 路 的 蓬 勃 發 展, 使 電 腦 遊 戲 不 再 僅 限 於 原 來 2D 或 基 本 3D 的 簡 易 表 現, 而 是 配 合 硬 體 演 算 技 術 與 遊 戲 儲 存 介 面, 朝 更

Microsoft Word - 佳琳決策.doc

2



Vol. The Working Papers of RCEWCC Prisoners Dilemma A B Economic Man A B A B A A A B B B A - A A - A B B A B A A B 7 M. Smith, G. Price97M. Sm

<4D F736F F D BDEC5FC8EDBCFED1A7D4BA5FC3E2CAD4D1D0BEBFC9FAB9A4D7F7CFB8D4F2BCB0B9DCC0EDCEC4B5B55FC8B7B6A8B8E55F2E646F63>

一 台湾地区 大法官会议 如何诠释法治与人性尊严 % %


关剑月-教师特邀评述.doc

Microsoft PowerPoint - 博弈论小组汇报材料(雷福民)

新 社 會 政 策 雙 月 刊 內 地 女 性 在 香 港 所 生 的 活 產 嬰 兒 數 目 年 份 活 產 嬰 兒 數 目 其 配 偶 為 香 港 永 久 性 居 民 其 配 偶 為 非 香 港 永 久 性 居 民 其 他 小 計 ,219 L


Microsoft Word - 日本赈灾志愿者手册.doc

封面.cdr


鹰鸽博弈中量子演化策略

<4D F736F F D20B2A9DEC4C2DBBBF9B4A12DC5A9C7ECC7D9B7BDC6E6D6BE2E646F63>

14-1-人文封面

信息与博弈

Corporate Profile

<4D F736F F D20A8ECABC8AE61C9DCEBD0EBD05FA4F1C1C95F2E646F63>

2

<4D F736F F F696E74202D203320BCC6CBE3D1A7BFC6D6D0B5C4B5E4D0CDCECACCE2C7F3BDE22E BBCE6C8DDC4A3CABD5D>

重勘信息的哲学含义 ¼ ½ ¾ ¼ ½ ¾

Microsoft Word - 成唯識論述記_01_終稿.doc

不对称相互依存与合作型施压 # # ( # ( %


C E P A 的 实 施 对 我 市 经 济 的 影 响 的 调 研 我 会 各 部 门 也 都 按 年 初 要 求, 完 成 了 1 ~2 篇 质 量 较 高 的 调 研 报 告 如 经 济 部 完 成 了 深 圳 市 总 商 会 开 展 会 员 科 技 服 务 工 作 情 况 报 告 关 于

信息与博弈


亮麗水顏


(單位名稱)大事記---96學年度(96

¼ ½ ¾ ¼ ½ ¾

英美特殊关系 文化基础与历史演变

ゲーム理論入門

极少思想 极少思想与工业建筑 工业建筑 年第 卷第 期

Aoeiuvbpmfdtnlgkhjqxzcszhchshrywaieiuiaoouiuieveeraneninunvnangengingong


Microsoft Word - TRIZ系統化創新方法題庫.doc

IET 跨文化传播学 Intercultural Communication (An Ran/Akhtar Nadeem) 跨文化传播学 Intercultural Communication (An Ran/Akhtar Nadeem) 2018 Internati

模糊数学在飞行控制系统故障诊断的应用



专题 第 10 卷 第 9 期 2014 年 9 月 人博弈 但通过一些扩展 比如 可能是 J 或 K 单纯地选择下注 手利用则关注于发现对手中 扩充牌堆和增加玩家数量 就可 将会带来不必要的损失 而坚持 的漏洞并给出针对性的 以 以很容易地将其变换为多人博弈 选择不下注也会放过赢得奖池的 便在博弈

indd

2006年会讯第二期.doc

中国海外集团内部刊物 月刊 2009 年 4 月总第九十期 1 C O N T E N T S 1 故乡 他乡

Microsoft Word 简报第3期 修改

國立高雄大學數位論文典藏

<4D F736F F D DBED4B2A4A9D2A9DBA5CDB8EAB054A7B9BEE3AAA92DB3D5A468AF5A2E646F63>


untitled

第 2 期华承昊, 等 : 多机器人最大熵博弈协同定位算法 193 之一 [8 为此, 根据信息论和博弈论的基本原 [13 理, 提出运用最大熵博弈获取整体观测信息量化一致程度最优的 EKF 协同定位方法 经仿真实验验证了算法在协同定位时能有选择地融合和共享相互间的观测信息 ; 在保障协同定位精度提


428 28,,,, 1. 1 Fig. 1 Scheme of a series HEV 2, P ft (t) t /, P bat (t) t, P el (t) t,, P req (t) t.,,,,.,, P ft (t) + P bat (t) = P req (t) + P el (


第七讲 重复博弈

反 馈 问 题 1 请 申 请 人 对 比 同 行 业 上 市 公 司 资 产 负 债 率 有 息 负 债 率 等 指 标, 分 析 说 明 本 次 偿 还 银 行 借 款 的 必 要 性 和 合 理 性 其 中, 部 分 拟 偿 还 的 银 行 借 款 为 流 动 资 金 借 款, 请 说 明 通

真 理 大 學 統計與精算學系


h h 2 h p p p Peter Unger S P S S S P 1 S S s q s q h s h P. Unger Ignorance A Case for Skepti

上 海 市 锦 天 城 律 师 事 务 所 关 于 上 海 合 晟 资 产 管 理 股 份 有 限 公 司 申 请 股 票 在 全 国 中 小 企 业 股 份 转 让 系 统 挂 牌 并 公 开 转 让 之 ( 一 ) (2015) 沪 锦 律 非 证 项 字 第 526 号 致 : 上 海 合 晟

一、陞遷資格事項

<473A5CCEC4D7D6CAFDBEDDF0A4BACFB0E CD0CBD6A4D7CAB9DCF6CEB3C93636BAC5B9FAC6F3BBECB8C4D6F7CCE2BCAFBACFD7CAB2FAB9DCC0EDBCC6BBAE C4EAB5DAB6FEBCBEB6C8D7CAB2FAB9DCC0EDB1A8B8E62E646F63>

<4D F736F F D B8BDBCFE332D3120C8EDBCFEB9A4B3CCCBB6CABFC5E0D1F8B7BDB0B8>

2006年產業電子化運籌管理學術暨實務研討會論文全文稿格式


# # # # # # # # #

政府与企业的交换模式及其演变规律! &!!! & % % ( (

( *

MAXQ BA ( ) / 20

以色列希伯莱大学教授罗伯特 奥曼恩 (Robert J.A u m a n n ) 和美国马里兰大学经济学系和公共政策学院教授托马斯 斯基林 (Thomas C.S c h e l l i n g )

j.si

表彰他们在机制设计理论方面所作出的杰出贡献 2012 年诺贝尔经济学奖再一次荣归博弈论专家美国加州大学洛杉矶分校的夏普利 (LloydS Shapley) 和哈佛大学商学院的罗斯 (AlvinE Roth) 教授, 以表彰他们在稳定配置理论和市场设计实践方面所作出的杰出贡献, 标志着博弈论的发展进入

Transcription:

智能控制 基于博弈的控制 吴建设

第一讲 : 绪论 1 博弈与智能的关系 2 博弈与控制 3 博弈论简介

1 博弈与智能的关系 博弈需要智能 博弈的过程需要智能 博弈的结果体现出智能 博弈的策略是智能的载体 传统人工智能的研究内容 机器学习 进化计算 模糊集 专家系统 * 神经网络 * 粗糙集 * 粒度计算 * 多智能体理论, 等等

1 博弈与智能的关系 美国新墨西哥大学 Geoge F. Luger 的书 :Artificial Intelligence: structures and strategies for complex problem solving. 对 人工智能 研究范围的定义 : 人工智能研究者们研究的问题和方法的集合 最新的研究动态 : 博弈成为人工智能研究的热点 IEEE Computational Intelligence Society 新创期刊 IEEE Transactions on Computational Intelligence and AI in Games

2 博弈与控制 人工智能的发展离不开博弈 神经网络 生物的神经系统 神经控制系统 进化计算 生物的进化现象 进化控制系统 免疫计算 生物的免疫现象 免疫控制系统 专家系统 专家的知识与经验 专家控制系统 博弈计算或系统 来源于生物或人类社会的博弈现象 博弈控制系统

3 博弈论简介 1 什么是博弈论 (Game Theory) 一个经典的例子 : 囚徒困境 (Prisoner s s Dilemma) D C D C D P P T S D -5-5 0-10 S T R R C C -10 0-1 -1 T>R>P>S, 2R>T+S

3 博弈论简介 2 囚徒困境的启示 (D, D) 这个状态, 谁也不能通过单方面改变自 己的策略增加自己的收益 因此, 谁也不会主 动离开这个状态, 即改变自己的策略为 C 当然, 这两个人可以订立攻守同盟, 即合作, 这时的博弈状态是 (C, C)

3 博弈论简介 囚徒困境的启示 ( 续 ) (C, C) 这个状态是不稳定的, 任何人都能 通过单方面改变自己的策略增加自己的 收益 因此, 每个人都有意愿离开这个 状态, 即改变自己的策略为 D 囚徒困境反映了个人理性与集体利益的 矛盾

2 纳什均衡 假设有 n 个玩家 (agent, player) 参与博弈, 给定其他人策略的条件下, 每个玩家选择自己的最优策略 ( 个人最优策略可能依赖于也可能不依赖于他人的战略 ), 从而使自己效用最大化 所有局中人策略构成一个策略组合 (Strategy Profile) 各个参与人的在某个时间点的策略的有序集称为策略组合, 比如囚徒困境中的 (D, D), (C, C), (C, D) 都是策略组合

2 纳什均衡 纳什均衡指的是这样一种策略组合, 即在给 定别人策略的情况下, 没有人愿意单方面改变自 己的策略, 从而打破这种均衡

纳什均衡的数学表示 纳什均衡的定义 : 在博弈 G= { S 1,,S n :u 1,,u n } 中, 如果由各个博弈方的各一个策略组成的某个策论组合 (s 1 *,,s n *) 中, 任一博弈方 i 的策略 s i 都是对其余博弈方策略的组合 (s 1 *, s i-1 *,s i+1 *,,s n * ) 的最佳对策, 即 u i (s 1 * s,,s n *) u i (s 1,,s n *) 对任意 s i S i 都成立, 则称 (s 1 *,,s n *) 为 G 的一个纳什均衡

纳什均衡的定义 策略空间 : S, 1 S n 博弈方 i 的第 j 个策略 : s i 博弈方 i的得益 : u i 博弈 : G S, S ; u, u } { 1 n 1 n j S i 纳什均衡 : 在博弈 G { S1, Sn; u1, un} 中, 如果由各个博弈方 * * 的各一个策略组成的某个策略组合 ( si, s n ) 中, 任一博弈方 * * * * 的策略, 都是对其余博弈方策略的组合 ( si, si 1, si 1,... sn ) u ( s * * * * * *, s, s, s,... s ) u ( s, s,... s 的最佳对策, 也即 i i i 1 i i 1 n i i i 1 ij i 1 n * * 对任意 s S 都成立, 则称 ( s, s ) 为 G 的一个纳什均衡 i j i ( i n *, s, s * * i )

纳什均衡的一致预测性质 一致预测 : 如果所有博弈方都预测一个特定博弈结果会出现, 所有博弈方都不会利用该预测或者这种预测能力选择与预测结果不一致的策略, 即没有哪个博弈方有偏离这个预测结果的愿望, 因此预测结果会成为博弈的最终结果 只有纳什均衡才具有一致预测的性质 一致预测性是纳什均衡的本质属性 一致预测并不意味着一定能准确预测, 因为有多重均衡, 预测不一致的可能

3 纳什均衡的意义 纳什均衡首先对亚当 斯密的 看不见的手 的原理提出挑战 按照斯密的理论, 在市场经济中, 每一个人都从利己的目的出发, 而最终全社会达到利他的效果 富国论是法家所主张的经济政策, 代表作为荀子的 富国, 主张通过各种经济手段来增加国库收入 富国论 : 通过追求个人的自身利益, 他常常会比想做的那样更有效的促进社会利益

纳什均衡的意义 但是我们可以从 纳什均衡 中 引出 看不见的手 原理的一个悖论 : 从利己目的出发, 结果损人不利己, 既不 利己也不利他 从这个意义上说, 纳什均衡 实际上动摇了西方经济学的基石

定义 : 什么是博弈论 博弈论又称对策论, 它使用严谨的数学模型 研究冲突对抗条件下的最优决策问题 是研究竞 争的逻辑和规律的数学分支 简单的说, 博弈论是研究决策主体在给定信 息结构条件下, 如何决策以使自己的效用最大化, 以及不同决策主体之间决策的均衡 决策的均衡

定义 : 什么是博弈论 博弈的字面意思就是赌博 下棋, 赌博和下棋就 是游戏了, 所以也有人把博弈论叫做游戏理论 赌博和游戏常常要前方百计的应付对手, 所以博 弈论有人也称为对策论

4 博弈的要素 参与人 ( 玩家, Player, Agent) 是博弈的参与主体, 他通过选择自己的行动 ( 策略 ) 来使自己的收益最大化 参与人可以是 自然人, 企业, 国家等 在基于博弈的优化算法中, 参与人代表算法 中的某个元素

4 博弈的要素 参与人的策略集 是参与人可供选择的策略的集合 比如囚徒困境中的欺骗和合作 计算参与人收益的效用函数 给定所有参与人的策略, 通过这个效 用函数计算出各个参与人的收益

4 博弈的要素 行动 参与人在博弈的某个时间点的策略 变量

4 博弈的要素 行动的顺序 在动态博弈中, 行动的顺序对博弈的结果有重要影响 同样的策略集, 行动的顺序不同, 每个人的最优策略就不同, 博弈的结果就不同 尤其在不完全信息博弈中, 后行动者根据先行动者的行动来获取信息

4 博弈的要素 信息 参与人有关博弈的知识, 特别是关于其它参与人的特征和行动的知识, 以及自然的选择 完美信息是指参与人对其它参与人的行动选择有准确的掌握

4 博弈的要素 共同知识 所有参与人知道每一步的信息集步的信息集

策略 ( 战略 ) 4 博弈的要素 参与人在给定信息集情况下的行动规则, 它规定参与人在什么情况下选择什么行动 策略与行动 : 策略是行动的规则而不是行动本身 在静态博弈中, 策略和行动是相同的 策略必须是完备的 : 必须给出参与人在每一种可能的情况下的行动选择

4 博弈的要素 收益 ( 效用, 支付 ) 在给定的策略组合下, 参与人得到的确定的效用水平, 或是参与人得到的期望效用水平 收益由收益函数来计算

4 博弈的要素 均衡 指所有参与人的最优策略组合