登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入 新註冊 | 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / EMS,時效:出貨後2-3日

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

2023年09月出版新書

2023年08月出版新書

2023年07月出版新書

2023年06月出版新書

2023年05月出版新書

2023年04月出版新書

2023年03月出版新書

2023年02月出版新書

『簡體書』基于函数逼近的强化学习与动态规划

書城自編碼: 3338620
分類: 簡體書→大陸圖書→自然科學數學
作者: [罗]卢西恩·布索尼 [荷]罗伯特·巴布斯卡 [荷]巴特·德
國際書號(ISBN): 9787115508300
出版社: 人民邮电出版社
出版日期: 2019-04-01


書度/開本: 16开 釘裝: 平装

售價:NT$ 813

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
生活不是掷骰子:理性决策的贝叶斯思维
《 生活不是掷骰子:理性决策的贝叶斯思维 》

售價:NT$ 386.0
万有引力书系·基辅罗斯:东斯拉夫文明的起源
《 万有引力书系·基辅罗斯:东斯拉夫文明的起源 》

售價:NT$ 661.0
康熙的红票:全球化中的清朝
《 康熙的红票:全球化中的清朝 》

售價:NT$ 437.0
PyTorch语音识别实战
《 PyTorch语音识别实战 》

售價:NT$ 386.0
多卖三倍
《 多卖三倍 》

售價:NT$ 252.0
海盗之书
《 海盗之书 》

售價:NT$ 381.0
亲美与反美:战后日本的政治无意识
《 亲美与反美:战后日本的政治无意识 》

售價:NT$ 325.0
亲爱的安吉维拉:或一份包含15条建议的女性主义宣言
《 亲爱的安吉维拉:或一份包含15条建议的女性主义宣言 》

售價:NT$ 274.0

編輯推薦:
1.本书针对连续变化的控制问题,重点集中在近似动态规划(DP)和强化学习(RL)方面。给出了DP和RL问题及其解的形式化描述,给出了带函数逼近的DP和RL方法的一个扩展的解释,对带模糊逼近的值迭代算法进行了讨论,专业性很强。
2.本书在国际同行中具有很高知名度,一度被很多国家作为研究生和工程师的技术教程,影响力很大。
3.强化学习成为了目前人工智能方向的研究热点,尤其是将强化学习应用于实际项目中,成为通用人工智能(GAI)研究的主要思路。
內容簡介:
本书讨论大规模连续空间的强化学习理论及方法,重点介绍使用函数逼近的强化学习和动态规划方法。该研究已成为近年来计算机科学与技术领域中*活跃的研究分支之一。
全书共分6 章。第1 章为概述;第2 章为动态规划与强化学习介绍;第3 章为大规模连续空间中的动态规划与强化学习;第4 章为基于模糊表示的近似值迭代;第5 章为用于在线学习和连续动作控制的近似策略迭代;第6 章为基于交叉熵基函数优化的近似策略搜索。
本书可以作为理工科高等院校计算机专业和自动控制专业研究生的教材,也可以作为相关领域科技工作者和工程技术人员的参考书。
關於作者:
Lucian Bu?oniu:荷兰代尔夫特理工大学代尔夫特系统与控制中心博士后研究员。2009 年获得代尔夫特理工大学博士学位,2003 年获得罗马尼亚克卢日纳波卡科技大学硕士学位。他目前的主要研究方向包括强化学习与近似动态规划、面向控制问题的智能与学习技术以及多Agent学习等。
Robert Babu?ka:荷兰代尔夫特理工大学代尔夫特系统与控制中心教授。1997 年获得代尔夫特理工大学控制专业博士学位,1990 年获得布拉格捷克技术大学电机工程专业硕士学位。他目前的主要研究方向包括模糊系统建模与识别、神经模糊系统的数据驱动结构与自适应、基于模型的模糊控制和学习控制,并将这些技术应用于机器人、机电一体化和航空航天等领域。
Bart De Schutter:荷兰代尔夫特理工大学代尔夫特系统与控制中心海洋与运输技术系教授。1996 年获得比利时鲁汶大学应用科学博士学位。他目前的主要研究方向包括多Agent 系统、混杂系统控制、离散事件系统和智能交通系统控制等。
Damien Ernst:分别于1998 年和2003 年获得比利时列日大学理学硕士及博士学位。他目前是比利时FRS-FNRS 的助理研究员,就职于列日大学的系统与建模研究院。Damien Ernst在20032006年间为FRS- FNRS 的博士后研究人员,并在此期间担任剑桥管理机构、麻省理工学院和美国国立卫生研究院的访问研究员,20062007学年在高等电力学院(法国)担任教授。他目前的主要研究方向包括电力系统动力学、最优控制、强化学习和动态治疗方案设计等。
目錄
第 1章 概述 1
1.1 动态规划与强化学习问题 2
1.2 动态规划与强化学习中的逼近 5
1.3 关于本书 7

第 2章 动态规划与强化学习介绍 9
2.1 引言 9
2.2 马尔可夫决策过程 12
2.2.1 确定性情况 12
2.2.2 随机性情况 16
2.3 值迭代 20
2.3.1 基于模型的值迭代 20
2.3.2 模型无关的值迭代与探索的必要性 25
2.4 策略迭代 27
2.4.1 基于模型的策略迭代 28
2.4.2 模型无关的策略迭代 33
2.5 策略搜索 35
2.6 总结与讨论 38

第3章 大规模连续空间中的动态规划与强化学习 40
3.1 介绍 40
3.2 大规模连续空间中近似的必要性 43
3.3 近似框架 45
3.3.1 带参近似 45
3.3.2 无参近似 48
3.3.3 带参与无参逼近器的比较 49
3.3.4 附注 50
3.4 近似值迭代 51
3.4.1 基于模型的带参近似值迭代算法 51
3.4.2 模型无关的带参近似值迭代算法 54
3.4.3 无参近似值迭代算法 58
3.4.4 非扩张近似的作用及收敛性 59
3.4.5 实例:用于直流电机的近似Q值迭代 62
3.5 近似策略迭代 67
3.5.1 用于近似策略评估的类值迭代算法 68
3.5.2 基于线性带参近似的模型无关策略评估 70
3.5.3 基于无参近似的策略评估 80
3.5.4 带回滚的基于模型的近似策略评估 80
3.5.5 策略改进与近似策略迭代 81
3.5.6 理论保障 84
3.5.7 实例:用于直流电机的最小二乘策略迭代 86
3.6 自动获取值函数逼近器 90
3.6.1 基函数最优化方法 91
3.6.2 基函数构造 93
3.6.3 附注 95
3.7 近似策略搜索 95
3.7.1 策略梯度与行动者-评论家算法 96
3.7.2 梯度无关的策略搜索 101
3.7.3 实例:用于直流电机问题的梯度无关策略搜索 103
3.8 近似值迭代、近似策略迭代及近似策略搜索算法的比较 106
3.9 总结与讨论 108

第4章 基于模糊表示的近似值迭代 110
4.1 引言 110
4.2 模糊Q值迭代 112
4.2.1 模糊Q值迭代的近似和投影映射 112
4.2.2 同步和异步模糊Q值迭代 116
4.3 模糊Q值迭代的分析 119
4.3.1 收敛性 119
4.3.2 一致性 126
4.3.3 计算复杂度 131
4.4 优化隶属度函数 132
4.4.1 隶属度函数优化的一般方法 132
4.4.2 交叉熵优化 133
4.4.3 基于交叉熵隶属度函数优化的模糊Q值迭代 135
4.5 实验研究 137
4.5.1 直流电机:收敛性和一致性研究 137
4.5.2 双连杆机械臂:动作插值的效果以及与拟合Q值迭代的比较 142
4.5.3 倒立摆:实时控制 146
4.5.4 过山车:隶属度函数优化的效果 149
4.6 总结与讨论 152

第5章 用于在线学习和连续动作控制的近似策略迭代 154
5.1 引言 154
5.2 最小二乘策略迭代的概述 155
5.3 在线最小二乘策略迭代 157
5.4 使用先验知识的在线LSPI 161
5.4.1 使用策略近似的在线LSPI 161
5.4.2 具有单调策略的在线LSPI 162
5.5 采用连续动作、多项式近似的LSPI 165
5.6 实验研究 167
5.6.1 用于倒立摆的在线LSPI 167
5.6.2 用于双连杆机械臂的在线LSPI 178
5.6.3 使用直流电机先验知识的在线LSPI 181
5.6.4 在倒立摆中使用带有连续动作逼近器的LSPI 183
5.7 总结与讨论 187

第6章 基于交叉熵基函数优化的近似策略搜索 189
6.1 介绍 189
6.2 交叉熵优化方法 190
6.3 交叉熵策略搜索 192
6.3.1 一般方法 192
6.3.2 基于径向基函数的交叉熵策略搜索 197
6.4 实验研究 199
6.4.1 离散时间二重积分 199
6.4.2 自行车平衡 206
6.4.3 HIV传染病控制的计划性间断治疗 212
6.5 总结与讨论 215

附录A 极端随机树 217
附录B 交叉熵方法 221
缩略语 227
参考文献 232
內容試閱
本书对使用函数逼近器的强化学习和动态规划方法由浅入深地展开讨论。首先对经典的DP和RL进行简要介绍,这一部分是本书后续章节的基础。然后对基于函数逼近的DP和RL最新方法做了比较详尽的阐述,对所得到的解给出了理论上的保证,并使用数值算例,通过比较来说明各种方法的性能。第4~6章分别介绍了三大类主要技术中的代表性算法,其中的三大类技术包括值迭代、策略迭代和策略搜索,通过一系列控制应用方面的仿真和实验研究,进一步体现出了这些算法的特点和性能。
本书的每一章节都力求做到实用算法、理论分析、综合实例等方面相辅相成。这使得本书不仅适合于最优和自适应控制、机器学习和人工智能等领域的研究者、教师和研究生,还适合于解决现实控制问题的从业者,为他们在解决具有挑战性的问题时提供一些创新思路。
这本书可以采取以下几种方式来阅读。针对不熟悉该领域的读者,建议从第1章一般性的介绍开始,然后继续阅读第2章(讨论经典的DP和RL)和第3章(考虑基于近似的方法)。针对熟悉RL和DP基本概念的读者,可以先参考本书末尾给出的缩略语,然后直接从第3章开始。本书的第一部分(1~3章)是一个对该领域非常全面的概述。读者可以根据自己的兴趣选择性地阅读第4~6章的内容:近似值迭代(第4章)、近似策略迭代和在线学习(第5章)以及近似策略搜索(第6章)。
与本书有关的一些补充材料,包括在实验研究中使用的计算机代码及完整的文档,可在网站上获得。欢迎对本书或网站提出您的意见、建议或问题,也希望有兴趣的读者通过网站上的联系人信息与作者联系。
多年来,本书的几位作者一直受到许多科学家的鼓励和启发,因此,这些科学家无疑也在这本书上留下了他们的印记。他们是:Louis Wehenkel、Pierre Geurts、GuyBart Stan、Rmi Munos、Martin Riedmiller以及Michail Lagoudakis。Pierre Geurts还提供了用于构建回归树集合的计算机程序,在本书中有几个例子用到了这些程序。如果没有我们的同事及学生的支持和帮助,没有荷兰代尔夫特理工大学代尔夫特系统与控制中心、比利时列日大学蒙特菲尔学院和法国雷恩高等电力学院为我们提供的优质的专业环境,这项工作也不可能顺利完成。在代尔夫特的同事中,需要重点提出的是Justin Rice,他对本书的手稿做了认真的校对。对于在本书出版过程中给予支持和帮助的所有朋友,在此一并表示感谢。
感谢Sam Ge给了我们在泰勒弗朗西斯出版集团(CRC)出版该书的机会,同时也感谢泰勒弗朗西斯集团的编辑和制作团队给予我们的帮助。我们诚挚地感谢BSIKICIS项目交互式协作信息系统(批准号:BSIK03024)以及荷兰资助组织NWO和STW的经费支持。Damien Ernst是FRS-FNRS的助理研究员,感谢FRS- FNRS对他的经费支持。感谢IEEE提供的许可,允许我们从以前的著作中复制相应的内容。
最后,感谢我们的家人一贯的理解、耐心和支持。

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.