新書推薦:
《
汉娜·阿伦特与以赛亚·伯林 : 自由、政治与人性
》
售價:NT$
500.0
《
女性与疯狂(女性主义里程碑式著作,全球售出300万册)
》
售價:NT$
500.0
《
药食同源中药鉴别图典
》
售價:NT$
305.0
《
设计中的比例密码:建筑与室内设计
》
售價:NT$
398.0
《
冯友兰和青年谈心系列:看似平淡的坚持
》
售價:NT$
254.0
《
汉字理论与汉字阐释概要 《说解汉字一百五十讲》作者李守奎新作
》
售價:NT$
347.0
《
汗青堂丛书144·决战地中海
》
售價:NT$
765.0
《
逝去的武林(十周年纪念版 武学宗师 口述亲历 李仲轩亲历一九三零年代武人言行录)
》
售價:NT$
250.0
|
內容簡介: |
本书详细介绍了强化学习的理论推导、算法细节。全书共12章,包括强化学习概述、马尔可夫决策过程、退化的强化学习问题、环境已知的强化学习问题、基于价值的强化学习算法、基于策略的强化学习算法、AC型算法、基于模型的强化学习算法等相关知识。本书系统性强、概念清晰,内容简明通俗。除了侧重于理论推导,本书还提供了许多便于读者理解的例子,以及大量被实践证明有效的算法技巧,旨在帮助读者进一步了解强化学习领域的相关知识,提升其现实中的工程能力。本书可作为高等院校数学、计算机、人工智能等相关专业的强化学习教材,但需要有机器学习、深度学习等前置课程作为基础。
|
關於作者: |
余欣航,本科毕业于北京大学数学科学院,广东交通数据中心算法主要负责人,using.ai早期合伙人,广东联合电子资深工程师,主要研究方向为机器学习、强化学习以及其在智能制造、智慧交通等领域的应用。科幻作家,代表作为《情诗恋曲》、《疑云龙影》、《一中攻防战》等
|
目錄:
|
第1章 绪论1 1.1 强化学习是什么1 1.2 强化学习的基本思想3 1.2.1 从环境中产生数据3 1.2.2 求解最优策略5 1.3 强化学习为什么重要6 1.4 本书内容介绍9 参考文献10 第2章 马尔可夫决策过程11 2.1 马尔可夫过程11 2.2 马尔可夫决策过程的定义12 2.3 马尔可夫过程与马尔可夫决策过程的对比15 2.4 马尔可夫决策过程的分类15 2.4.1 马尔可夫决策过程是否发生退化16 2.4.2 环境是否已知17 2.4.3 环境的确定性与随机性18 2.4.4 马尔可夫决策过程的时齐性20 2.4.5 状态与动作的连续性22 *2.4.6 时间的连续性23 2.4.7 小结24 2.5 马尔可夫决策过程的奖励函数25 思考题26 参考文献27 第3章 退化的强化学习问题28 3.1 盲盒售货机问题28 3.2 探索-利用困境31 3.3 各种不同的探索策略33 3.3.1 -贪心策略33 3.3.2 玻尔兹曼探索策略35 3.3.3 上置信界策略36 3.4 总结36 思考题37 参考文献37 第4章 最优控制38 4.1 基于价值的思想38 4.1.1 三连棋游戏策略38 4.1.2 价值的定义42 4.1.3 基于价值和基于策略45 4.1.4 小结46 思考题47 4.2 动态规划47 4.2.1 策略迭代法47 4.2.2 雅可比迭代法48 4.2.3 值迭代法50 4.2.4 软提升51 4.2.5 小结53 思考题54 4.3 LQR控制55 4.3.1 基本LQR控制问题55 4.3.2 LQR控制器56 *4.3.3 环境随机的LQR控制问题59 4.3.4 iLQR控制器61 4.3.5 实时规划63 4.3.6 小结64 思考题65 4.4 总结65 参考文献66 第5章 基于价值的强化学习68 5.1 Q-Learning68 5.1.1 Q表格69 5.1.2 产生数据集的方式:探索与利用69 5.1.3 探索策略71 5.1.4 使用训练数据的方法:经验回放73 思考题74 5.2 Sarsa74 5.2.1 基本Sarsa算法74 5.2.2 同策略与异策略76 5.2.3 n步Sarsa77 5.2.4 -return算法78 *5.2.5 n步Q-Learning79 思考题80 5.3 DQN及其变体81 5.3.1 固定Q目标结构81 5.3.2 双重DQN84 5.3.3 优先回放机制86 5.3.4 优势函数88 5.3.5 Dueling DQN90 *5.3.6 Rainbow92 思考题94 *5.4 NAF94 *5.4.1 标准化优势函数94 *5.4.2 NAF的训练96 5.5 总结:基于价值的强化学习算法97 参考文献98 第6章 策略函数与策略梯度100 6.1 策略函数与期望回报100 6.2 无梯度方法101 6.2.1 增强随机搜索102 6.2.2 交叉熵算法104 6.2.3 进化算法104 6.3 策略梯度106 6.3.1 策略网络的构造106 6.3.2 策略梯度的计算108 6.3.3 基本策略梯度算法111 *6.3.4 动作连续的策略梯度113 6.4 策略梯度的训练技巧114 6.4.1 基准法114 6.4.2 经验回放116 6.4.3 探索策略118 6.5 总结119 思考题120 参考文献121 第7章 AC算法122 7.1 基本AC算法122 7.1.1 AC算法的出发点122 7.1.2 化简策略梯度公式123 7.1.3 AC算法的基本思想126 7.1.4 单步更新与回合更新128 思考题129 7.2 AC算法的训练技巧129 7.2.1 广义优势函数估计129 7.2.2 控制训练两个网络的步调131 7.2.3 ACER133 思考题134 7.3 A3C与A2C135 7.3.1 并行训练135 7.3.2 A3C137 7.3.3 A2C140 思考题141 参考文献141 第8章 AC型算法143 8.1 自然梯度法143 8.1.1 牛顿法144 8.1.2 信赖域方法146 8.1.3 近似点法146 *8.1.4 自然策略梯度147 8.2 TRPO与PPO算法149 8.2.1 策略提升149 8.2.2 TRPO算法151 8.2.3 PPO算法152 8.2.4 TRPO与PPO算法的训练技巧155 8.2.5 小结156 思考题157 8.3 DDPG157 8.3.1 动作连续问题的网络结构158 8.3.2 从基于价值的角度理解DDPG算法158 8.3.3 DDPG算法及训练技巧159 8.3.4 确定策略下的策略梯度162 8.3.5 从基于策略的角度理解DDPG算法163 思考题165 *8.4 Soft AC165 8.5 总结:基于策略的算法168 8.5.1 基于价值和基于策略169 8.5.2 偏差-方差取舍170 8.5.3 策略的空间172 8.5.4 训练数据的产生与使用172 8.5.5 小结173 参考文献174 第9章 基于模型的基本思想175 9.1 MBRL概述175 9.2 模型是什么177 9.2.1 各种模型及其基本用法178 9.2.2 更多的模型变体179 9.2.3 模型的一些特点180 *9.2.4 对模型的理解185 思考题188 9.3 如何使用黑盒模型189 9.3.1 用黑盒模型增广数据189 9.3.2 权衡数据成本与准确性191 9.3.3 黑盒模型的其他用途193 9.3.4 小结194 思考题194 9.4 如何使用白盒模型195 9.4.1 用白盒模型辅助进行策略优化195 9.4.2 用白盒模型解最优控制197 9.4.3 小结199 思考题199 参考文献200 第10章 基于模型的强化学习进阶202 10.1 如何学习模型202 10.1.1 让学习更符合最终目标202 10.1.2 让学习本身成为目标203 10.1.3 以学习作为唯一目标206 10.1.4 小结209 思考题209 10.2 世界模型210 10.2.1 观察210 10.2.2 POMDP212 10.2.3 为世界建模214 10.2.4 Dreamer218 思考题220 10.3 实时规划221 10.3.1 实时规划的基本思想221 10.3.2 蒙特卡洛树搜索224 10.3.3 模型预测控制230 思考题233 10.4 MBRL算法思想总结233 参考文献235 *第11章 连续时间的最优控制238 11.1 时间连续的最优控制问题238 11.2 H-J-B方程239 11.2.1 连续时间的贝尔曼方程239 *11.2.2 用H-J-B方程求解LQR控制问题242 11.2.3 总结:关于价值的方程245 思考题247 *11.3 变分原理247 11.3.1 从有穷维空间到无穷维空间247 11.3.2 变分问题250 *11.3.3 欧拉-拉格朗日方程252 *11.3.4 用变分法求解最优控制问题255 11.3.5 总结:策略的最优化257 思考题258 参考文献258 *第12章 其他强化学习相关内容259 12.1 奖励函数的改造与混合259 12.2 逆向强化学习261 12.3 层次强化学习262 12.4 离线强化学习264 参考文献266
|
|