登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入   新用戶註冊
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2024年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / 物流,時效:出貨後2-4日

2025年02月出版新書

2025年01月出版新書

2024年12月出版新書

2024年11月出版新書

2024年10月出版新書

2024年09月出版新書

2024年08月出版新書

2024年07月出版新書

2024年06月出版新書

2024年05月出版新書

2024年04月出版新書

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

『簡體書』深度强化学习:基于Python的理论及实践(英文版)

書城自編碼: 3582166
分類: 簡體書→大陸圖書→教材研究生/本科/专科教材
作者: [美] 劳拉·格雷泽 [Laura,Graesser], [
國際書號(ISBN): 9787111670407
出版社: 机械工业出版社
出版日期: 2020-12-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:NT$ 714

我要買

share:

** 我創建的書架 **
未登入.



內容簡介:
这本书是针对计算机科学专业大学生和软件工程师的。本课程旨在介绍深度强化学习,无需事先了解相关主题。但是,我们假设读者对机器学习和深度学习有基本的了解,并且对Python编程有中级的了解。一些使用PyTorch的经验也是有用的,但不是必需的。
關於作者:
劳拉·格雷泽(Laura Graesser)是一名研究软件工程师,在谷歌从事机器人技术方面的工作。她拥有纽约大学计算机科学硕士学位,专攻机器学习。
龚辉伦(Wah Loon Keng)是Machine Zone的一名人工智能工程师,他致力于将深度强化学习应用于工业问题。他拥有理论物理和计算机科学的背景。
他们共同开发了两个深度强化学习软件库,并就此进行了多次主题讲座和技术辅导。
目錄
第1章 强化学习简介11.1 强化学习11.2 强化学习中的MDP61.3 强化学习中的学习函数91.4 深度强化学习算法111.4.1 基于策略的算法121.4.2 基于值的算法131.4.3 基于模型的算法131.4.4 组合方法151.4.5 本书中的算法151.4.6 同策略和异策略算法161.4.7 小结161.5 强化学习中的深度学习171.6 强化学习与监督学习191.6.1 缺乏先知191.6.2 反馈稀疏性201.6.3 数据生成201.7 总结21第一部分 基于策略的算法和基于值的算法第2章 REINFORCE252.1 策略262.2 目标函数262.3 策略梯度272.3.1 策略梯度推导282.4 蒙特卡罗采样302.5 REINFORCE算法312.5.1 改进的REINFORCE算法322.6 实现REINFORCE332.6.1 一种最小化REINFORCE的实现332.6.2 用PyTorch构建策略362.6.3 采样动作382.6.4 计算策略损失392.6.5 REINFORCE训练循环402.6.6 同策略内存回放412.7 训练REINFORCE智能体442.8 实验结果472.8.1 实验:评估折扣因子的影响472.8.2 实验:评估基准线的影响492.9 总结512.10 扩展阅读512.11 历史回顾51第3章 SARSA533.1 Q函数和V函数543.2 时序差分学习563.2.1 时序差分学习示例593.3 SARSA中的动作选择653.3.1 探索和利用663.4 SARSA算法673.4.1 同策略算法683.5 实现SARSA693.5.1 动作函数:ε-贪婪693.5.2 计算Q损失703.5.3 SARSA训练循环713.5.4 同策略批处理内存回放723.6 训练SARSA智能体743.7 实验结果763.7.1 实验:评估学习率的影响773.8 总结783.9 扩展阅读793.10 历史回顾79第4章 深度Q网络814.1 学习DQN中的Q函数824.2 DQN中的动作选择834.2.1 Boltzmann策略864.3 经验回放884.4 DQN算法894.5 实现DQN914.5.1 计算Q损失914.5.2 DQN训练循环924.5.3 内存回放934.6 训练DQN智能体964.7 实验结果994.7.1 实验:评估网络架构的影响994.8 总结1014.9 扩展阅读1024.10 历史回顾102第5章 改进的深度Q网络1035.1 目标网络1045.2 双重DQN1065.3 优先级经验回放1095.3.1 重要性抽样1115.4 实现改进的DQN1125.4.1 网络初始化1135.4.2 计算Q损失1135.4.3 更新目标网络1155.4.4 包含目标网络的DQN1165.4.5 双重DQN1165.4.6 优先级经验回放1175.5 训练DQN智能体玩Atari游戏1235.6 实验结果1285.6.1 实验:评估双重DQN与PER的影响1285.7 总结1325.8 扩展阅读132第二部分 组合方法第6章 优势演员–评论家算法1356.1 演员1366.2 评论家1366.2.1 优势函数1366.2.2 学习优势函数1406.3 A2C算法1416.4 实现A2C1436.4.1 优势估计1446.4.2 计算价值损失和策略损失1476.4.3 演员–评论家训练循环1476.5 网络架构1486.6 训练A2C智能体1506.6.1 在Pong上使用n步回报的A2C算法1506.6.2 在Pong上使用GAE的A2C算法1536.6.3 在BipedalWalker上使用n步回报的A2C算法1556.7 实验结果1576.7.1 实验:评估n步回报的影响1586.7.2 实验:评估GAE中的影响1596.8 总结1616.9 扩展阅读1626.10 历史回顾162第7章 近端策略优化算法1657.1 替代目标函数1657.1.1 性能突然下降1667.1.2 修改目标函数1687.2 近端策略优化1747.3 PPO算法1777.4 实现PPO1797.4.1 计算PPO的策略损失1797.4.2 PPO训练循环1807.5 训练PPO智能体1827.5.1 在Pong上使用PPO算法1827.5.2 在BipedalWalker上使用PPO算法1857.6 实验结果1887.6.1 实验:评估GAE中的影响1887.6.2 实验:评估裁剪变量的影响1907.7 总结1927.8 扩展阅读192第8章 并行方法1958.1 同步并行1968.2 异步并行1978.2.1 Hogwild!算法1988.3 训练A3C智能体2008.4 总结2038.5 扩展阅读204第9章 算法总结205第三部分 实践细节第10章 深度强化学习工程实践20910.1 软件工程实践20910.1.1 单元测试21010.1.2 代码质量21510.1.3 Git工作流21610.2 调试技巧21810.2.1 生命迹象21910.2.2 策略梯度诊断21910.2.3 数据诊断22010.2.4 预处理器22210.2.5 内存22210.2.6 算法函数2
內容試閱
当DeepMind在Atari街机游戏中取得突破性进展时,我们第一次发现了深度强化学习(DeepRL)。人工智能体在只使用图像而不使用先验知识的情况下,首次达到了人类的水平。人工智能体在没有监督的情况下,通过反复试验自学的想法激发了我们的想象力,这是一种新的、令人兴奋的机器学习方法,它与我们熟悉的监督学习领域有很大的不同。我们决定一起学习这个主题,我们阅读书籍和论文,学习在线课程,学习代码,并尝试实现核心算法。我们意识到,深度强化学习不仅在概念上具有挑战性,而且在实现过程中需要像大型软件工程项目一样经过许多努力。随着我们的进步,我们了解了更多关于深度强化学习的知识—算法如何相互关联以及它们的不同特征是什么。形成这种心理模型是困难的,因为深度强化学习是一个新的研究领域,尚无全面的理论书籍,我们必须直接从研究论文和在线讲座中学习。另一个挑战是理论与实现之间的巨大差距。通常,深度强化学习算法有许多组件和可调的超参数,这使其变得敏感且脆弱。为了成功运行,所有组件都需要正确地协同工作,并使用适当的超参数值。从理论上讲,实现这一目标所需的细节并不是很清楚,但同样重要。在我们的学习过程中,那些理论和实现相结合的资源是非常宝贵的。我们觉得从理论到实现的过程应该比我们发现的更简单,我们希望通过自己的努力使深度强化学习更易于学习。这本书是我们的尝试。它采用端到端的方法来引入深度强化学习—从直觉开始,然后解释理论和算法,最后是实现和实践技巧。这也是为什么这本书附带了一个软件库SLM Lab,其中包含了所有算法的实现。简而言之,这是我们在开始学习这一主题时希望拥有的书。深度强化学习属于强化学习中一个较大的领域。强化学习的核心是函数逼近,在深度强化学习中,函数是用深度神经网络学习的。强化学习与有监督和无监督学习一起构成了机器学习的三种核心技术,每种技术在问题的表达方式和算法的数据学习方式上都有所不同。在这本书中,我们专注于深度强化学习,因为我们所经历的挑战是针对强化学习这一子领域的。这从两个方面限制了本书的范围。首先,它排除了在强化学习中可以用来学习函数的所有其他技术。其次,虽然强化学习从20世纪50年代就已经存在,但本书强调从2013年到2019年之间的发展。最近的许多发展都是建立在较老的研究基础上的,因此我们认为有必要追溯主要思想的发展。然而,我们并不打算给出这一领域的全面历史介绍。这本书是针对计算机科学专业学生和软件工程师的,旨在介绍深度强化学习,无须事先了解相关主题。但是,我们假设读者对机器学习和深度学习有基本的了解,并且有中级Python编程水平。一些使用PyTorch的经验也是有用的,但不是必需的。这本书的结构如下。第1章介绍深度强化学习问题的不同方面,并对深度强化学习算法进行综述。第一部分是基于策略和基于值的算法。第2章介绍第一种策略梯度方法(REINFORCE算法)。第3章介绍第一种基于值的方法(SARSA)。第4章讨论深度Q网络(DQN)算法。第5章重点讨论改进的深度Q网络—目标网络、双重DQN算法和优先级经验回放技术。第二部分重点研究基于策略和基于值的方法相结合的算法。第6章介绍对REINFORCE算法进行扩展的演员–评论家算法。第7章介绍对演员–评论家算法进行扩展的近端策略优化(PPO)算法。第8章讨论同步和异步并行技术,适用于本书中的任何算法。最后,第9章总结了所有的算法。每个算法章节的结构都是相同的。首先,介绍该章的主要概念,并通过相关的数学公式进行研究。然后,描述算法并讨论在Python中的实现。最后,提供一个可在SLM Lab中运行的可调超参数配置算法,并用图表说明该算法的主要特点。第三部分重点介绍实现深度强化学习算法的具体细节。第10章介绍工程和调试实现,包括关于超参数和实验结果的小结。第11章为配套的SLM Lab提供使用参考。第12章介绍神经网络设计。第13章讨论硬件。本书的最后一部分(第四部分)是关于环境设计的,由第14~17章组成,分别讨论了状态、动作、奖励和转换函数的设计。我们推荐从第1章开始顺序阅读到第10章。这些章节介绍了本书中的所有算法,并提供了实现算法的实用技巧。接下来的三章(第11~13章)集中在更专业的主题上,可以按任何顺序阅读。对于不想深入研究的读者来说,第1、2、3、4、6和10章是本书的一个连贯子集,重点关注了一些算法。最后,第四部分包含了一组独立的章节,供对更深入地理解环境或构建自己的环境有特殊兴趣的读者阅读。SLM Lab[67]是本书的配套软件库,是一个使用PyTorch[114]构建的模块化深度强化学习框架。SLM是Strange Loop Machine的缩写,向侯世达的名著《哥德尔、艾舍尔、巴赫:集异璧之大成》[53]致敬。SLM Lab的具体例子包括使用PyTorch的语法和特性来训练神经网络。然而,实现深度强化学习算法的基本原理也适用于其他的深度学习框架,比如TensorFlow[1]。SLM Lab的设计旨在帮助初学者通过将其组成部分组织成概念清晰的片段来学习深度强化学习。这些组成部分也与学术文献中讨论的深度强化学习相一致,以便于从理论转换到代码。学习深度强化学习的另一个重要方面是实验。为了方便实验,SLM Lab还提供了一个实验框架,帮助初学者设计和测试自己的假设。SLM Lab库作为GitHub上的开源项目发布。我们鼓励读者安装它(在Linux或MacOS机器上),并按照存储库网站上的说明运行第一个演示(https:github.comkengzSLM-Lab)。已经创建了一个专用的git分支“book”,其代码版本与本书兼容。从存储库网站复制的简短安装说明显示在代码0.1中。代码0.1 从book git分支安装SLM-Lab我们建议你先设置它,这样就可以使用本书中介绍的算法来训练智能体了。除了安装和运行演示程序外,在阅读算法章节(第一部分和第二部分)之前,不需要熟悉SLM Lab,我们会在需要的地方向训练智能体发出所有命令。在第11章中,我们将重点从算法转移到更实际的深度强化学习方面,对SLM Lab进行了更广泛的讨论。

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 台灣用户 | 香港/海外用户
megBook.com.tw
Copyright (C) 2013 - 2025 (香港)大書城有限公司 All Rights Reserved.