新書推薦:
《
宏观经济学(第三版)【2024诺贝尔经济学奖获奖者作品】
》
售價:NT$
709.0
《
UE5虚幻引擎必修课(视频教学版)
》
售價:NT$
505.0
《
真需求
》
售價:NT$
505.0
《
阿勒泰的春天
》
售價:NT$
230.0
《
如见你
》
售價:NT$
234.0
《
人格阴影 全新修订版,更正旧版多处问题。国际分析心理学协会(IAAP)主席力作
》
售價:NT$
305.0
《
560种野菜野果鉴别与食用手册
》
售價:NT$
305.0
《
中国官僚政治研究(一部洞悉中国政治制度演变的经典之作)
》
售價:NT$
286.0
|
編輯推薦: |
深度强化学习——算法原理与金融实践入门,将算法原理与金融实践结合,让读者深入理解深度强化学习的原理
|
內容簡介: |
深度强化学习是人工智能和机器学习的重要分支领域,有着广泛应用,如AlphaGo和ChatGPT。本书作为该领域的入门教材,在内容上尽可能覆盖深度强化学习的基础知识和经典算法。全书共10章,大致分为4部分:第1部分(第1~2章)介绍深度强化学习背景(智能决策、人工智能和机器学习);第2部分(第3~4章)介绍深度强化学习基础知识(深度学习和强化学习);第3部分(第5~9章)介绍深度强化学习经典算法(DQN、AC、DDPG等);第4部分(第10章)为总结和展望。每章都附有习题并介绍了相关阅读材料,以便有兴趣的读者进一步深入探索。 本书可作为高等院校计算机、智能金融及相关专业的本科生或研究生教材,也可供对深度强化学习感兴趣的研究人员和工程技术人员阅读参考。
|
關於作者: |
谢文杰,男,湖南浏阳人,应用数学博士,上海市晨光学者。现任职华东理工大学商学院金融学系副教授、硕士研究生导师、金融物理研究中心成员,主要研究复杂金融网络、机器学习、深度强化学习、金融风险管理等。获2016年度上海市自然科学奖二等奖(4/5),主持完成4项国家或省部级科研项目。
周炜星,男,浙江诸暨人。青年长江学者、上海领军人才、新世纪优秀人才、上海市曙光学者、上海市青年科技启明星。现任职于华东理工大学商学院、数学学院,二级教授,博士生导师,金融物理研究中心主任。现兼任中国优选法统筹法与经济数学研究会理事、风险管理分会副理事长,中国系统工程学会理事、金融系统工程专业委员会副主任,管理科学与工程学会理事、金融计量与风险管理分会副理事长,中国工业统计教学研究会金融科技与大数据技术分会副理事长,中国数量经济学会经济复杂性专业委员会副理事长,中国复杂性科学学会副理事长。主要从事金融物理学、经济物理学和社会经济系统复杂性研究,以及相关领域大数据分析。
|
目錄:
|
第 1章智能决策与复杂系统 . 1
1.1智能决策.1
1.1.1智能决策简介 . 1
1.1.2复杂金融系统中的智能决策 . 2
1.2复杂系统.4
1.2.1复杂性科学 . 4
1.2.2复杂系统定义 . 6
1.2.3复杂系统类型 . 6
1.2.4复杂系统研究 . 8
1.3复杂环境特征 .13
1.3.1完全可观察的和部分可观察的环境 . 13
1.3.2单智能体和多智能体 . 14
1.3.3确定的和随机的环境 . 14
1.3.4片段式和延续式环境 . 15
1.3.5静态和动态环境 . 15
1.3.6离散和连续环境 . 16
1.3.7已知和未知环境 . 16
1.4复杂环境建模 .17
1.5智能体建模 . 21
1.5.1典型决策系统模型框架 .21
1.5.2智能体建模框架 . 21
1.6智能决策系统建模 24
1.6.1问题提炼 24
1.6.2数据采集 25
1.6.3模型构建 26
1.6.4算法实现 26
1.6.5模型训练 26
1.6.6模型验证 26
1.6.7模型改进 27
1.6.8模型运用 27
1.7应用实践 . 27
第 1章习题 29
第 2章人工智能与机器学习 30
2.1人工智能简介 .30
2.1.1人工智能 农业 31
2.1.2人工智能 教育 31
2.1.3人工智能 工业 31
2.1.4人工智能 金融 32
2.2人工智能前沿 .32
2.3人工智能简史 .33
2.4人工智能流派 .34
2.4.1符号主义学派 35
2.4.2联结主义学派 36
2.4.3行为主义学派 37
2.5人工智能基础 .37
2.5.1运筹学.38
2.5.2最优化控制 38
2.5.3交叉学科 39
2.5.4人工智能和机器学习相关会议 39
2.6机器学习分类 .39
2.6.1监督学习 41
2.6.2无监督学习 41
2.6.3强化学习 43
2.7机器学习基础 .44
2.7.1激活函数 44
2.7.2损失函数 46
2.7.3优化算法 50
2.8应用实践 . 57
第 2章习题 58
第 3章深度学习入门 .59
3.1深度学习简介 .59
3.1.1深度学习与人工智能 . 59
3.1.2深度学习与机器学习 . 59
3.1.3深度学习与表示学习 . 61
3.2深度神经网络 .62
3.2.1深度神经网络构建 . 62
3.2.2深度神经网络实例 . 64
3.3深度卷积神经网络 68
目录
3.4深度循环神经网络 69
3.5深度图神经网络.71
3.5.1图神经网络简介 . 72
3.5.2图神经网络聚合函数 . 72
3.5.3图神经网络更新函数 . 72
3.5.4图神经网络池化函数 . 73
3.6深度神经网络训练 73
3.6.1模型训练挑战 73
3.6.2数据预处理 74
3.6.3参数初始化 75
3.6.4学习率调整 76
3.6.5梯度优化算法 77
3.6.6超参数优化 78
3.6.7正则化技术 80
3.7应用实践 . 80
3.7.1 TensorFlow安装.81
3.7.2 TensorFlow基本框架 81
3.7.3 TensorBoard.82
3.7.4 scikit-learn 82
3.7.5 Keras83
第 3章习题 83
第 4章强化学习入门 .84
4.1强化学习简介 .84
4.2马尔可夫决策过程 86
4.3动态规划方法 .87
4.3.1策略函数 88
4.3.2奖励函数 88
4.3.3累积回报 89
4.3.4状态值函数 89
4.3.5状态-动作值函数 .90
4.3.6状态-动作值函数与状态值函数的关系 90
4.3.7 Bellman方程 91
4.3.8策略迭代算法 92
4.3.9值函数迭代算法 . 95
4.4蒙特卡洛方法 .97
4.4.1蒙特卡洛估计 97
4.4.2蒙特卡洛强化学习算法伪代码 .100
· VII ·
4.5时序差分学习 100
4.5.1时序差分学习算法 100
4.5.2时序差分学习算法、动态规划和蒙特卡洛算法比较 101
4.5.3 Q-learning102
4.5.4 SARSA.104
4.6策略梯度方法 105
4.7应用实践 110
4.7.1强化学习的智能交易系统框架 .110
4.7.2智能交易系统环境模型编程 . 110
第 4章习题 .116
第 5章深度强化学习 Q网络 . 117
5.1深度 Q网络 . 117
5.1.1智能策略 . 117
5.1.2策略函数与 Q表格 . 118
5.1.3策略函数与 Q网络 . 120
5.2 DQN算法介绍 121
5.2.1经验回放 . 121
5.2.2目标网络 . 122
5.3 DQN算法 .123
5.4 DoubleDQN 125
5.4.1 Double DQN背景 125
5.4.2双 Q网络结构126
5.4.3 Double DQN算法伪代码 . 127
5.5 Dueling DQN128
5.5.1 Dueling DQN算法框架简介 128
5.5.2 Dueling DQN算法核心思想 128
5.6 Distributional DQN . 129
5.7 DQN的其他改进 130
5.7.1优先级经验回放 131
5.7.2噪声网络 DQN . 132
5.7.3多步(Multi-step)DQN134
5.7.4分布式训练 . 135
5.7.5 DQN算法改进 . 136
5.7.6 DQN算法总结 . 136
5.8应用实践 137
5.8.1智能投资决策系统 137
5.8.2核心代码解析 .139
目录
5.8.3模型训练 . 140
5.8.4模型测试 . 142
第 5章习题 .143
第 6章深度策略优化方法 . 144
6.1策略梯度方法简介 . 144
6.1.1 DQN的局限 . 144
6.1.2策略梯度方法分类 145
6.2随机性策略梯度算法 . 147
6.2.1轨迹数据 . 147
6.2.2目标函数 . 147
6.2.3梯度计算 . 148
6.2.4更新策略 . 150
6.3随机性策略梯度定理 . 150
6.3.1随机性策略梯度定理介绍 . 150
6.3.2随机性策略梯度定理分析 . 151
6.4策略梯度优化几种实现方法 152
6.4.1策略梯度优化理论 152
6.4.2完整轨迹的累积奖励回报 . 152
6.4.3部分轨迹的累积奖励回报 . 153
6.4.4常数基线函数 .153
6.4.5基于状态的基线函数 153
6.4.6基于状态值函数的基线函数 . 154
6.4.7基于自举方法的梯度估计 . 154
6.4.8基于优势函数的策略梯度优化 .154
6.5深度策略梯度优化算法.155
6.6置信阈策略优化算法 . 157
6.6.1置信阈策略优化算法介绍 . 157
6.6.2重要性采样 . 158
6.6.3置信阈策略优化算法核心技巧 .160
6.6.4置信阈策略优化算法伪代码 . 160
6.7近端策略优化算法 . 162
6.7.1近端策略优化算法介绍162
6.7.2近端策略优化算法核心技巧 . 162
6.7.3近端策略优化算法(PPO2)伪代码 .164
6.8应用实践 165
6.8.1模型参数 . 166
6.8.2模型训练 . 167
· IX ·
6.8.3模型测试 . 167
第 6章习题 .168
第 7章深度确定性策略梯度方法 169
7.1确定性策略梯度方法应用场景 169
7.2策略梯度方法比较 . 170
7.3确定性策略函数的深度神经网络表示 . 172
7.4确定性策略梯度定理 . 173
7.5深度确定性策略梯度算法 175
7.5.1算法核心介绍 .175
7.5.2经验回放 . 176
7.5.3目标网络 . 176
7.5.4参数软更新 . 177
7.5.5深度确定性策略梯度算法伪代码 178
7.6孪生延迟确定性策略梯度算法 179
7.6.1 TD3算法介绍 179
7.6.2 TD3算法的改进 179
7.6.3 TD3算法伪代码 181
7.7应用实践 183
7.7.1核心代码解析 .183
7.7.2模型训练 . 184
7.7.3模型测试 . 184
第 7章习题 .185
第 8章 Actor-Critic算法 186
8.1 Actor-Critic简介 186
8.2 AC算法 .187
8.2.1 AC算法介绍 . 187
8.2.2 AC算法参数更新.188
8.2.3 AC算法伪代码 . 189
8.3 A2C算法190
8.3.1 A2C算法介绍 190
8.3.2优势函数和基线函数 192
8.3.3 A2C算法伪代码 193
8.4 A3C算法193
8.4.1 A3C算法介绍 194
8.4.2 A3C算法的改进和优化 .194
8.4.3 A3C算法伪代码 196
8.5 SAC算法 . 197
目录
8.5.1 SAC算法介绍 197
8.5.2智能体动作多样性 198
8.5.3 SAC算法理论核心 . 199
8.5.4 SAC算法伪代码201
8.6应用实践 203
8.6.1核心代码解析 .203
8.6.2模型训练 . 204
8.6.3模型测试 . 204
第 8章习题 .205
第 9章深度强化学习与规划 .206
9.1学习与规划 206
9.2基于模型的深度强化学习 207
9.2.1深度强化学习模型分类207
9.2.2深度强化学习中的学习模块 . 208
9.2.3深度强化学习中的规划模块 . 209
9.3 Dyna框架 .210
9.3.1 Dyna框架介绍 . 210
9.3.2 Dyna框架的模型学习 211
9.4 Dyna-Q算法 212
9.4.1 Dyna-Q算法介绍.212
9.4.2 Dyna-Q算法伪代码 213
9.5 Dyna-Q改进 215
9.6 Dyna-2框架 .217
9.7应用实践 218
9.7.1编程实践模块介绍 218
9.7.2 Gym . 218
9.7.3强化学习代码库 219
第 9章习题 .221
第 10章深度强化学习展望 223
10.1深度强化学习背景 223
10.1.1源于学科交叉 . 223
10.1.2用于序贯决策 . 223
10.1.3强于深度学习 . 224
10.2深度强化学习简史 224
10.2.1游戏控制崭露头角 . 224
10.2.2 AlphaGo风靡全球 225
10.2.3通用智能备受期待 . 225
· XI ·
10.3深度强化学习分类 226
10.3.1基于值函数和基于策略函数的深度强化学习 226
10.3.2基于模型和无模型的深度强化学习 . 226
10.3.3异策略和同策略学习 .228
10.4深度强化学习面临的挑战 . 228
10.4.1样本效率 228
10.4.2灾难性遗忘 229
10.4.3虚实映射鸿沟 . 230
10.4.4有效表征学习 . 231
10.4.5可拓展性与规模化 . 232
10.4.6延迟奖励 233
10.4.7稀疏奖励 233
10.4.8探索和利用 234
10.4.9复杂动态环境 . 235
10.5深度强化学习前沿 236
10.5.1多智能体深度强化学习 236
10.5.2深度逆向强化学习 . 237
10.5.3模仿学习 238
10.5.4行为克隆 239
10.5.5图强化学习 241
10.6深度强化学习实践 241
10.6.1深度强化学习建模框架 241
10.6.2深度强化学习模型的核心模块242
第 10章习题 245
|
內容試閱:
|
2016年,谷歌的 DeepMind团队研究人员在顶级期刊 Nature推出 AlphaGo,震撼了全世界。AlphaGo是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军( 2016年李世石)的人工智能程序, AlphaGo使强化学习重新焕发出蓬勃生机。结合深度学习,深度强化学习在各大计算机科学顶级会议和科技公司的研究成果频频给人们带来激动人心的应用,让人们对通用人工智能的未来极为憧憬。深度强化学习融合深度学习的感知智能和强化学习的决策智能,在复杂环境决策模型中具有显著优势。同时,也有很多人对深度强化学习的未来提出质疑。伴随着质疑和赞美,深度强化学习领域持续改进和迭代,将走得更远,走得更长,为人类社会带来更多有益的成果。
人类不满足于深度强化学习在棋类游戏或者特定领域的进步,希望深度强化学习在人类社会中也能为社会经济体系统风险(如金融危机、经济危机、社会冲突等)的识别、度量、预警、防控和处置提供新的思路和方案。围棋策略空间的复杂度已经超出了一般人的决策能力范围,但相较于社会经济系统,围棋博弈的状态空间毕竟还是可数的且有限的,而社会系统、金融系统等都是无穷维数的复杂巨系统,能够在人类社会经济系统中训练智能体完成一些任务,具有巨大的挑战性,其难度远远大于 AlphaGo的设计和工程实践。
2008年,肇始于美国次贷危机的全球金融海啸促使科学家重新审视主流经济学和金融学理论。2008年 10月,Bouchaud在 Nature杂志上撰文指出,传统理论无法预见金融风暴的发生,需要在理论和方法上进行根本性的科学革命,新的理论需要从实际数据出发来探寻市场规律。金融风险的度量、表示、传染、防控、预警、预测等问题,可以通过合适的建模转换成深度强化学习能够解决的问题。危机发生后的应急处置和风险处置,也能够融合深度强化学习算法进行深度分析和讨论。同时,粮食和能源是当今世界金融经济系统中极为重要的交易对象,是各个国家的重要战略资源,是经济发展的重要基础,还是极为重要的军事、外交资源。全球粮食市场一直处于波动状态,经历了数次巨变,粮食价格大涨大落已成为常态。我们应该如何防御和应对这些难题?这些极具挑战的难题都可以建模成深度强化学习能够探索的问题,也需要深入地学习和探究。
深度强化学习领域的算法,浩如烟海,令人眼花缭乱。对于初学者而言,如何在有限的时间内掌握这一门复杂的学科及其问题分析方法,如何将自己遇到的科学问题和现实问题转换成深度强化学习能够解决的问题,是一个非常值得讨论和尝试的课题。
本书旨在提供深度强化学习原理和算法入门。不同于侧重代码实现和应用的书籍,本书期望能够让非计算机和数理相关专业的学生也可以从算法原理入门,将开源社区中优秀的深度强化学习算法代码库,结合自身领域内的特殊问题,构建自己的深度强化学习模型,解决一些棘手的经典或领域内传统算法不能解决的问题。在原理学习和编程实践的过程中,本书也提供了开源的示例代码,不需要过多的编程工作量,也能够运用强大的深度强化学习算法解决特定的专业问题。
本书内容安排
第 1章介绍深度强化学习应用的潜在领域背景和需要解决的问题,包括复杂性科学和复杂系统的相关知识以及人工智能应用的背景。从复杂金融系统开始,讨论复杂金融环境下的新金融、互联网金融、计算金融、科技金融等。
第 2章将从人工智能的历史讲起,简要介绍机器学习、深度学习、强化学习以及深度强化学习的基本发展情况,使读者在整体上对深度强化学习、机器学习、人工智能有大致的了解,为后续的深入分析和研究提供基础。另外,本章还简要介绍了基本的机器学习范畴知识,包括监督学习、无监督学习和强化学习,以及优化算法、激活函数、损失函数等基本概念和原理。深度强化学习是一项复杂的数据分析方法,扎实的人工智能和机器学习基础能使学习者更快地入门这一蓬勃发展的领域。
第 3章简要介绍深度学习的基础模型,包括深度神经网络( Deep Neural Networks)、深度卷积神经网络( Convolutional Neural Networks)、深度循环神经网络( Recurrent Neural Networks)、深度图神经网络( Graph Neural Networks)。深度学习模型是深度强化学习模型框架中一个关键的模块,也是强化学习再次蓬勃发展的核心模块。深入理解深度学习模型,能够为深度强化学习模型的改进和策略优化提供强大的技术支持。该模块犹如汽车的发动机,通过更换发动机模块,能够得到汽车的不同性能。
第 4章介绍经典的强化学习算法。强化学习是深度强化学习的算法基础,是入门深度强化学习的基础,介绍的算法包括时序差分算法、 SARSA算法和 Q-learning算法。理解了经典的强化学习算法,才能理解复杂的深度强化学习算法模型,深度强化学习算法在经典的强化学习模型基础上进行了大量的改进和性能提升。对强化学习理论和算法的深入理解,能够为智能交易系统的构建提供理论和技术支持。深度强化学习已经发展了非常多的高效算法,在不同领域取得了非常多的有效落地应用,但是基本都没有脱离强化学习理论中的在线学习、离线学习、基于模型的学习、模型无关学习、值学习和策略学习等框架。
第 5章介绍 Deep Q Network(DQN)。DQN基于 Q-learning演化而来,Q-learning作为强化学习的核心算法,有着悠久的历史,在强化学习发展过程中发挥了重要的作用。 Q-learning算法的核心是学习状态 -动作值函数,基于状态 -动作值函数在给定的状态下选择最优动作,做出最优决策,最大化累积奖励值。
第 6章介绍随机性策略梯度算法,如置信阈策略优化 (Trust Region Policy Optimiza-tion,TRPO)和近端策略优化 (Proximal Policy Optimization,PPO)等。在连续高维空间中动作数量是无穷的,对于连续函数找最大值是一个需要耗费额外资源的问题,因此 DQN对于连续型动作空间问题表现出了一定的限制,在动作空间为离散情况时 DQN比较有效,拓展的 DQN也能够对连续问题进行求解。随机性策略梯度算法直接学习策略函数,输出动作的概率值,保证了动作的随机性和多样性,在一些复杂环境中具有较好表现。
· II ·
前言
第 7章介绍确定性策略梯度算法,如深度确定性策略梯度( Deep Deterministic Policy Gradient, DDPG)方法和双延迟 DDPG(Twin Delayed DDPG, TD3)等。为了能够更好地处理连续动作空间的最优化策略问题,确定性策略梯度算法的策略函数直接输出动作值,通过确定性策略梯度定理更新和学习策略函数。
第 8章介绍 Actor-Critic算法,也就是“行动者 -评论家算法”。行动者对应能够产生动作的策略函数,评论家对应能够评估动作好坏的值函数。深度强化学习的终极目标是通过学习获得一个策略函数,在与环境交互过程中做出最优化动作,获得最大的累计收益。本章将结合值函数和策略梯度,学习最优化策略函数。 Actor-Critic算法提供了一个优秀的算法框架,DDPG等算法也同样包含了 Actor-Critic算法框架。
第 9章介绍深度强化学习与规划,主要涉及基于模型的深度强化学习算法。规划是指智能体并不实际与环境进行交互,而是通过构建一个环境模型,产生模拟数据,基于模拟数据完成对值函数和策略函数的更新和优化。在规划过程中,智能体必须对环境模型拥有完全的信息,能够完成虚拟的交互。例如围棋博弈中,对弈者不需要真正的落子也能够在脑海中模拟落子后对方的行动以及自己可采取的下一步行动。
第 10章介绍深度强化学习算法的背景、历史、分类、挑战、前沿和其他应用实践,比如如何玩 Atari视频游戏以及如何构建深度强化学习模型进行投资决策。
本书实践内容安排
本书对案例中所涉及的代码都提供了源代码和注释,希望读者能够在学习深度强化学习原理和算法过程中,通过一些简单的入门级的应用,提升对深度强化学习算法的理解。
第 1章实践内容为熟悉复杂金融系统和金融科技背景知识,为后续智能交易系统构建提供基础知识;熟悉金融市场数据获取和数据预处理,能够获得金融市场决策变量。第 2章实践内容为经典机器学习算法应用于时间序列和复杂网络分析之中,挖掘对应复杂系统演化规律。第 3章实践内容为熟悉深度学习计算实验平台,了解深度学习相关经典模型的构建和训练过程,构建基础的深度学习模型,包括深度神经网络、深度卷积神经网络和深度循环神经网络,为深度强化学习打基础。第 4章实践内容为构建金融市场马尔可夫决策环境,分析金融市场状态转换、状态特征提取、动作设定、回报函数等模块。第 5~8章实践内容为基于前几章中的深度神经网络模型和金融市场环境模型,运用 DQN(第 5章)、 PPO(第 6章)、DDPG(第 7章)以及 A2C(第 8章)训练智能体进行智能投资决策。第 9章实践内容为了解一些深度强化学习开源程序库。
本书适合人群
*
金融学系本科生
*
金融专业研究生
*
计算机系本科生
|
|