《深度强化学习》 - 台灣·大書城 - [印度]莫希特·塞瓦克[Mohit Sewak]著，尹大伟， - 国防工业出版社

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　聯絡我們　 \|　運費計算　 \|　幫助中心　\|　加入書簽
		會員登入新用戶註冊

HOME

新書上架

暢銷書架

好書推介

2024年度TOP

香港／國際用戶

最新/最熱/最齊全的簡體書網

品種：超過100萬種書，正品正价，放心網購，悭钱省心

送貨：速遞 / 物流，時效：出貨後2-4日

『簡體書』深度强化学习

書城自編碼： 4013592
分類：簡體書→大陸圖書→計算機/網絡→人工智能
作者： [印度]莫希特·塞瓦克[Mohit Sewak]著，尹大伟，
國際書號(ISBN)： 9787118131796
出版社：国防工业出版社
出版日期： 2024-06-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：NT$ 454

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《中国国家图书馆藏敦煌文献·第二册》
售價：NT$ 14280.0

《中国诗歌艺术十五讲》
售價：NT$ 254.0

《 HALCON机器视觉算法及应用》
售價：NT$ 454.0

《牙周再生术》
售價：NT$ 3050.0

《古今名人写给孩子的家书》
售價：NT$ 356.0

《馆窥——我的图书馆之旅（公共编）》
售價：NT$ 510.0

《广东藏书印谱》
售價：NT$ 1326.0

《明末清初西洋汉语词典三种》
售價：NT$ 2448.0

建議一齊購買：

NT$ 407
《 AI创造力：智能产品设计与研究（动画与数字媒体专业系列教材）》

NT$ 458
《机器学习公式详解第2版周志华西瓜书《机器学习》伴侣书南瓜书新版上市！了解人工智能ChatGpt底层数学逻辑！》

NT$ 560
《人工智能辅助药物设计》

NT$ 394
《智能制造：技术前沿与探索应用》

NT$ 505
《奇点临近》

NT$ 407
《 AIGC提示词美学定义》

內容簡介：

本书从强化学习的基础入手，以非常直观易懂的例子和实际应用来解释其中的每个概念，接着介绍一些前沿的研究及进展，这些进展使得强化学习可以超过其他（人工）智能系统。本书的目的不仅在于为读者阐释多种前沿强化学习算法背后的数学原理，而且也希望读者们能在各自的应用领域中实际运用这些算法及类似的先进深度强化学习智能体。
本书从强化学习的基本模块开始，涵盖了流行的经典动态规划方法和经典强化学习方法，如价值迭代和策略迭代；同时也包括一些传统的强化学习算法，如时序差分学习、SARSA和Q学习。在此基础之上，本书介绍了适用于现代强化学习环境和智能体的深度学习和辅助工具。本书继而开始深入研究深度强化学习的概念，并介绍相应的算法，如深度Q网络、双DQN、竞争DQN、（深度）同步演员-评论家，（深度）异步优势演员-评论家和深度确定性策略梯度。在每一个介绍这些概念的理论／数学原理的章节之后都附有可用于这些智能体实现的代码。

第1章强化学习简介：AI智能体背后的智能
1.1 什么是人工智能，强化学习与它有什么关系
1.2 理解强化学习的基本设计
1.3 强化学习中的奖励和确定一个合适的奖励函数所涉及的问题
1.4 强化学习的状态
1.5 强化学习中的智能体
1.6 小结
第2章强化学习的数学和算法理解：马尔可夫决策过程与解决方法
2.1 马尔可夫决策过程
2.2 贝尔曼方程
2.3 动态规划和贝尔曼方程
2.4 价值迭代和策略迭代方法
2.5 小结
第3章编码环境和马尔可夫决策过程的求解：编码环境、价值迭代和策略迭代算法
3.1 以网格世界问题为例
3.2 构建环境
3.3 平台要求和代码的工程架构
3.4 创建网格世界环境的代码
3.5 基于价值迭代方法求解网格世界的代码
3.6 基于策略迭代方法求解网格世界的代码
3.7 小结
第4章时序差分学习、SARSA和Q学习：几种常用的基于值逼近的强化学习方法
4.1 经典DP的挑战
4.2 基于模型和无模型的方法
4.3 时序差分（TD）学习
4.4 SARSA
4.5 Q学习
4.6 决定“探索”和“利用”之间概率的算法（赌博机算法）
4.7 小结
第5章 Q学习编程：Q学习智能体和行为策略编程
5.1 工程结构与依赖项
5.2 代码
5.3 训练统计图
第6章深度学习简介
6.1 人工神经元——深度学习的基石
6.2 前馈深度神经网络（DNN）
6.3 深度学习中的架构注意事项
6.4 卷积神经网络——用于视觉深度学习
6.5 小结
第7章可运用的资源：训练环境和智能体实现库
7.1 你并不孤单
7.2 标准化的训练环境和平台
7.3 Agent开发与实现库
第8章深度Q网络、双DQN和竞争DQN
8.1 通用人工智能
8.2 Google“Deep Mind”和“AlphaGo”简介
8.3 DQN算法
8.4 双DQN算法
8.5 竞争DQN算法
8.6 小结
第9章双DQN的代码：用￡衰减行为策略编码双DQN
9.1 项目结构和依赖关系
9.2 双DQN智能体的代码（文件：DoubleDQN.py）
9.3 训练统计图
第10章基于策略的强化学习方法：随机策略梯度与REINFORCE算法
10.1 基于策略的方法和策略近似介绍
10.2 基于价值的方法和基于策略的方法的广义区别
10.3 计算策略梯度的问题
10.4 REINFORCE算法
10.5 REINFORCE算法中减少方差的方法
10.6 为REINFORCE算法选择基线
10.7 小结
第11章演员-评论家模型和A3C：异步优势演员-评论家模型
11.1 演员-评论家方法简介
11.2 演员-评论家方法的概念设计
11.3 演员-评论家实现的架构
11.4 异步优势行动者-评论家实现（A3C）
11.5 （同步）优势演员-评论家实现（A2C）
11.6 小结
第12章 A3C的代码：编写异步优势演员-评论家代码
12.1 项目结构和依赖关系
12.2 代码（A3C_Master—File：a3c_master.py）
12.3 训练统计图
第13章确定性策略梯度和DDPG：基于确定性策略梯度的方法
13.1 确定性策略梯度（DPG）
13.2 深度确定性策略梯度（DDPG）
13.3 小结
第14章 DDPG的代码：使用高级封装的库编写DDPG的代码
14.1 用于强化学习的高级封装的库
14.2 Mountain Car Continuous（Gym）环境
14.3 项目结构和依赖关系
14.4 代码（文件：ddpg_continout_action.py）
14.5 智能体使用“MountainCarContinous-v0”环境
参考文献

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	台灣用户　\|　香港/海外用户

megBook.com.tw
Copyright (C) 2013 - 2025 （香港）大書城有限公司　All Rights Reserved.