新書推薦:
《
资治通鉴臣光曰辑存 资治通鉴目录(司马光全集)(全二册)
》
售價:NT$
1316.0
《
明代社会变迁时期生活质量研究
》
售價:NT$
1367.0
《
律令国家与隋唐文明
》
售價:NT$
332.0
《
紫云村(史杰鹏笔下大唐小吏的生死逃亡,新历史主义小说见微之作,附赠5张与小说内容高度契合的宣纸彩插)
》
售價:NT$
449.0
《
现代吴语的研究(中华现代学术名著3)
》
售價:NT$
296.0
《
天下的当代性:世界秩序的实践与想象(新版)
》
售價:NT$
352.0
《
德国天才4:断裂与承续
》
售價:NT$
500.0
《
妈妈的情绪,决定孩子的未来
》
售價:NT$
194.0
編輯推薦:
本书旨在帮助读者在短时间内理解和运用强化学习。本书的主要特点是:点明问题,以问题为驱动组织内容;注重解释算法的原理;语言力求简练与严谨。
內容簡介:
本书介绍强化学习原理、算法及其实现。内容涉及基于模型的强化学习、基于采样-估计的强化学习、基于逼 近理论的强化学习及深度强化学习等。 本书以教学为目标进行选材,力求阐述严谨、重点突出、深入浅出,以便于教学与自学。 本书面向所有对强化学习感兴趣的读者,可作为高等学校理工科高年级本科生、研究生强化学习课程教材或 参考书。
目錄 :
第 1章绪论. 1
1.1引言 . 1
1.2解决复杂问题的朴素思想 . 3
1.2.1数学建模与优化 4
1.2.2采样和估计 . 4
1.2.3逼近 . 5
1.2.4迭代 . 5
1.3强化学习简史 . 7
1.4本书主要内容及结构 . 7
1.5小结 . 8
1.6习题 . 9
参考文献 9
第 2章基础知识 .10
2.1运筹学简明基础 .10
2.1.1无约束非线性规划优化方法 11
2.1.2 KKT条件 .13
2.1.3凸规划的性质 13
2.2概率与统计简明基础 14
2.2.1概率论基本概念 .14
2.2.2概率论的收敛定理 16
2.2.3统计学的基本概念 17
2.2.4最大似然估计法 .17
2.2.5估计量的优良性评估 18
2.2.6采样与随机模拟 .19
2.2.7 Monte Carlo方法简介 .20
2.2.8重要采样法 21
2.3小结 22
2.4习题 23
参考文献 .23
第
第一一篇
基于于模模型型的的强强化化学学习
一篇基
于模型的强化学习
第 3章多摇臂问题26
3.1动作值方法 27
3.2非平稳多摇臂问题 28
3.3 UCB动作选择 .29
3.4梯度摇臂算法 30
3.5习题 30
参考文献 .30
第 4章 Markov决策过程 .31
4.1定义和记号 31
4.2有限 Markov决策过程 .32
4.3 Bellman方程 .33
4.4最优策略 .35
4.5小结 38
4.6习题 38
参考文献 .39
第 5章动态规划 .40
5.1策略评估 .40
5.2策略改进 .41
5.3策略迭代 .42
5.4值迭代 44
5.5异步动态规划 45
5.6收敛性证明 46
5.7小结 47
5.8习题 47
参考文献 .47
第
第二二篇
基于于采采样估计计的的强强化化学学习
二篇基
于采样
-估
计的强化学习
第 6章策略评估 .50
6.1基于 Monte Carlo方法的策略评估 50
6.1.1同策略 Monte Carlo策略评估 .51
6.1.2异策略 Monte Carlo策略评估 .53
6.2基于时序差分方法的策略评估 .55
6.3 n步预测 .60
6.4小结 63
6.5习题 63
参考文献 .64
第 7章策略控制 .65
7.1同策略 Monte Carlo控制 .65
7.2同策略时序差分学习 67
7.3异策略学习 69
7.4基于 TD的策略控制 71
7.5实例 72
7.5.1问题介绍 .73
7.5.2 MDP模型的要素 .73
7.5.3策略评估 .74
7.5.4策略控制 .74
7.6小结 75
7.7习题 75
参考文献 .75
第 8章学习与规划的整合76
8.1模型和规划 76
8.2 Dyna:整合规划、动作和学习 .77
8.3几个概念 .79
8.4在决策关头的规划 80
8.4.1启发式算法 80
8.4.2 rollout算法 .81
8.4.3 Monte Carlo树搜索 .81
8.5小结 82
8.6习题 83
参考文献 .83
第
第三三篇
基于于逼逼近近理理论论的的强强化化学学习
三篇基
于逼近理论的强化学习
第 9章值函数逼近86
9.1基于随机梯度下降法的值函数逼近 87
9.2基于随机梯度下降法的 Q-值函数逼近 90
9.3批处理 92
9.3.1线性最小二乘值函数逼近 92
9.3.2线性最小二乘 Q-值函数逼近 .93
9.4小结 94
9.5习题 94
参考文献 .94
第 10章策略逼近 .95
10.1策略梯度法 95
10.1.1最优参数问题的目标函数 96
10.1.2策略梯度 97
10.1.3梯度计算 97
10.1.4 REINFORCE算法 .99
10.2方差减少方法 .99
10.2.1利用一个评论 .99
10.2.2利用基准线 101
10.3小结 104
10.4习题 104
参考文献 . 105
第 11章信赖域策略优化 . 106
11.1预备知识 . 107
11.2单调改进一般性随机策略的方法 109
11.3参数化策略的优化 110
11.4基于采样的目标和约束估计 . 111
11.5实用算法 . 113
11.6小结 114
11.7习题 114
参考文献 . 114
第
第四四篇
深度度强强化化学学习
四篇深
度强化学习
第 12章深度学习 . 116
12.1神经网络基础 . 116
12.1.1神经网络解决问题的基本流程 117
12.1.2激活函数 117
12.1.3损失函数 119
12.1.4优化算法 120
12.2典型深度神经网络结构 . 123
12.2.1深度的作用 123
12.2.2卷积神经网络 . 124
12.2.3循环神经网络 . 125
参考文献 . 127
第 13章深度 Q-网络 128
13.1 DQN原理 . 129
13.1.1预处理 . 129
13.1.2网络结构 130
13.1.3算法 131
13.1.4深度 Q-网络的训练算法 . 132
13.1.5算法详细说明 . 132
13.2 DQN实例 . 133
13.2.1 Atari 2600游戏介绍 . 133
13.2.2 DQN算法的实现 133
13.3小结 142
13.4习题 142
参考文献 . 142
第 14章深度确定性策略梯度. 144
14.1 DDPG算法介绍 144
14.1.1 DDPG算法的发展介绍 . 144
14.1.2 DDPG算法的原理解析 . 145
14.2 DDPG算法的实现 . 147
14.2.1 Mujoco的安装及使用 . 147
14.2.2 DDPG算法的实现解析 . 149
14.2.3 DDPG算法的训练和测试 . 153
参考文献 . 154
第 15章多智能体强化学习 155
15.1多智能体强化学习介绍 . 155
15.1.1多智能体强化学习的发展简述 155
15.1.2随机博弈 156
15.1.3纳什 Q-学习 . 157
15.2平均场多智能体强化学习原理 . 158
15.2.1平均场近似理论 158
15.2.2平均场多智能体强化学习算法 161
15.3平均场多智能体实验 . 163
15.3.1 MAgent平台 163
15.3.2混合合作-竞争的战斗游戏介绍 . 165
15.3.3 MF-Q和 MF-AC算法的实现解析 . 167
15.3.4战斗游戏的训练与测试 171
参考文献 . 176
內容試閱 :
强化学习是人工智能的核心内容之一。掌握强化学习需要概率与统计、运筹学、泛函分析等数学知识,而且强化学习发展迅速、知识更新快,这导致学习强化学习是一件有挑战性的事。本书旨在帮助读者在短时间内理解和运用强化学习。
本书的主要特点是:点明问题,以问题为驱动组织内容;注重解释算法的原理;语言力求简练与严谨。
本书主要包括以下内容:基于模型的强化学习、基于采样 -估计的强化学习、基于逼近理论的强化学习和深度强化学习。前三部分主要参考 Richard S. Sutton和 Andrew G. Barto的书 Reinforcement Learning: An Introduction以及 David Silver的课件。第四部分的深度学习参考了吴恩达的深度学习公开课以及 David Silver的深度强化学习讲义和相关论文。多智能体强化学习主要参考 Wang Jun等的论文。本书内容由柯良军统稿,王小强整理并解读了部分程序。在写作过程中,作者参考了《机器学习》《强化学习数学基础》以及《深入浅出强化学习》等相关书籍;同时,作者也大量阅读了网络资料。本书在吕同富的 Latex模板基础上用 TexLive写作。在此,作者对以上所有人员表示感谢!本书得到国家自然科学基金项目(编号: 61573277)的资助,在此表示诚挚感谢!
作者综合各种素材重新组织内容,从不同的视角将强化学习呈现给读者,衷心希望读者开卷有益!
柯良军
2019年 11月