《多智能体机器学习–强化学习方法》Howard M.Schwartz | PDF下载|ePub下载
类别: 计算机
作者:
Howard M.Schwartz
出版社: 机械工业出版社
副标题: 强化学习方法
原作名: Multi-agent machine learning: a reinforcement approach
译者: 连晓峰
出版年: 2017-7-10
页数: 185
ISBN: 9787111569602
出版社: 机械工业出版社
副标题: 强化学习方法
原作名: Multi-agent machine learning: a reinforcement approach
译者: 连晓峰
出版年: 2017-7-10
页数: 185
ISBN: 9787111569602
内容简介 · · · · · ·
本书主要介绍了多智能体机器人强化学习的相关内容。全书共6章,首先介绍了几种常用的监督式学习方法,在此基础上,介绍了单智能体强化学习中的学习结构、值函数、马尔科夫决策过程、策略迭代、时间差分学习、Q学习和资格迹等概念和方法。然后,介绍了双人矩阵博弈问题、多人随机博弈学习问题,并通过3种博弈游戏详细介绍了纳什均衡、学习算法、学习自动机、滞后锚算法等内容,并提出LR-I滞后锚算法和指数移动平均Q学习算法等,并进行了分析比较。接下来,介绍了模糊系统和模糊学习,并通过仿真示例详细分析算法。后,介绍了群智能学习进化以及性格特征概念和应用。全书内容丰富,重点突出。
作者简介 · · · · · ·
Howard M.Schwartz 博士,在加拿大魁北克蒙特利尔的麦吉尔大学获得工学学士学位,在美国马萨诸塞州剑桥麻省理工学院获得硕士和博士学位,现为加拿大渥太华卡尔顿大学系统与计算机工程系的教授,研究领域包括自适应和智能控制系统、机器人、机器学习、多智能体学习、系统辨识和状态估计。
目录 · · · · · ·
目 录
译者序
原书前言
第1章监督式学习概述
1 1 LS算法
1 2 RLS算法
1 3 LMS算法
1 4随机逼近法
参考文献
第2章单智能体强化学习
2 1简介
2 2 n臂赌博机问题
2 3学习结构
2 4值函数
2 5最优值函数
2 5.1网格示例
2 6 MDP
2 7学习值函数
2 8策略迭代
2 9 时间差分学习
2 10状态一行为函数的时间差分学习
2 11 Q学习
2 12资格迹
参考文献
第3章双人矩阵博弈学习
3 1矩阵博弈
3 2双人矩阵博弈中的纳什均衡
3 3双人零和矩阵博弈中的线性规划
3 4学习算法
3 5梯度上升算法
3 6 WoLF – IGA算法
3 7 PHC算法
3 8 WoLF – PHC算法
3 9矩阵博弈中的分散式学习
3 10学习自动机
3 11线性回报一无为算法
3 12线性回报一惩罚算法
3 13滞后锚算法
3 14 LR.滞后锚算法
3 14.1仿真
参考文献
第4章多人随机博弈学习
4 1简介
4 2多人随机博弈
4 3极大极小Q学习算法
4 3.1 2 x2网格博弈
4 4纳什Q学习算法
4 4.1学习过程
4 5单纯形算法
4 6 Lemke – Howson算法
4 7纳什Q学习算法实现
4 8朋友或敌人Q学习算法
4 9无限梯度上升算法
4 10 PHC算法
4 11 WoLF – PHC算法
4 12 网格世界中的疆土防御问题
4 12.1仿真和结果
4 13 LR.滞后锚算法在随机博弈中的扩展
4 14 EMA Q学习算法
4 15 EMA Q学习与其他方法的仿真与结果比较
4 15.1矩阵博弈
4 15 2随机博弈
参考文献
第5章微分博弈
5 1简介
5 2模糊系统简述
5 2.1模糊集和模糊规则
5 2 2模糊推理机
5 2 3模糊化与去模糊化
5 2 4模糊系统及其示例
5 3模糊Q学习
5 4 FACL
5 5疯狂司机微分博弈
5 6模糊控制器结构
5.7 Q(A)学习模糊推理系统
5 8疯狂司机博弈的仿真结果
5 9双车追捕者一逃跑者博弈中的学习算法
5 10双车博弈仿真
5 11 疆土防御微分博弈
5 12疆土防御微分博弈中的形成回报
5 13仿真结果
5 13.1 -个防御者对一个人侵者
5 13 2两个防御者对一个人侵者
参考文献
第6章群智能与性格特征的进化
6 1简介
6 2群智能的进化
6 3环境表征
6 4群机器人的性格特征
6 5性格特征的进化
6 6仿真结构框架
6 7零和博弈示例
6 7.1收敛性
6 7 2仿真结果
6 8后续仿真实现
6 9机器人走出房间
6 10机器人跟踪目标
6 11小结
参考文献
· · · · · ·
译者序
原书前言
第1章监督式学习概述
1 1 LS算法
1 2 RLS算法
1 3 LMS算法
1 4随机逼近法
参考文献
第2章单智能体强化学习
2 1简介
2 2 n臂赌博机问题
2 3学习结构
2 4值函数
2 5最优值函数
2 5.1网格示例
2 6 MDP
2 7学习值函数
2 8策略迭代
2 9 时间差分学习
2 10状态一行为函数的时间差分学习
2 11 Q学习
2 12资格迹
参考文献
第3章双人矩阵博弈学习
3 1矩阵博弈
3 2双人矩阵博弈中的纳什均衡
3 3双人零和矩阵博弈中的线性规划
3 4学习算法
3 5梯度上升算法
3 6 WoLF – IGA算法
3 7 PHC算法
3 8 WoLF – PHC算法
3 9矩阵博弈中的分散式学习
3 10学习自动机
3 11线性回报一无为算法
3 12线性回报一惩罚算法
3 13滞后锚算法
3 14 LR.滞后锚算法
3 14.1仿真
参考文献
第4章多人随机博弈学习
4 1简介
4 2多人随机博弈
4 3极大极小Q学习算法
4 3.1 2 x2网格博弈
4 4纳什Q学习算法
4 4.1学习过程
4 5单纯形算法
4 6 Lemke – Howson算法
4 7纳什Q学习算法实现
4 8朋友或敌人Q学习算法
4 9无限梯度上升算法
4 10 PHC算法
4 11 WoLF – PHC算法
4 12 网格世界中的疆土防御问题
4 12.1仿真和结果
4 13 LR.滞后锚算法在随机博弈中的扩展
4 14 EMA Q学习算法
4 15 EMA Q学习与其他方法的仿真与结果比较
4 15.1矩阵博弈
4 15 2随机博弈
参考文献
第5章微分博弈
5 1简介
5 2模糊系统简述
5 2.1模糊集和模糊规则
5 2 2模糊推理机
5 2 3模糊化与去模糊化
5 2 4模糊系统及其示例
5 3模糊Q学习
5 4 FACL
5 5疯狂司机微分博弈
5 6模糊控制器结构
5.7 Q(A)学习模糊推理系统
5 8疯狂司机博弈的仿真结果
5 9双车追捕者一逃跑者博弈中的学习算法
5 10双车博弈仿真
5 11 疆土防御微分博弈
5 12疆土防御微分博弈中的形成回报
5 13仿真结果
5 13.1 -个防御者对一个人侵者
5 13 2两个防御者对一个人侵者
参考文献
第6章群智能与性格特征的进化
6 1简介
6 2群智能的进化
6 3环境表征
6 4群机器人的性格特征
6 5性格特征的进化
6 6仿真结构框架
6 7零和博弈示例
6 7.1收敛性
6 7 2仿真结果
6 8后续仿真实现
6 9机器人走出房间
6 10机器人跟踪目标
6 11小结
参考文献
· · · · · ·
发表回复
要发表评论,您必须先登录。