登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入   新用戶註冊
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / 物流,時效:出貨後2-4日

2024年10月出版新書

2024年09月出版新書

2024年08月出版新書

2024年07月出版新書

2024年06月出版新書

2024年05月出版新書

2024年04月出版新書

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

2023年09月出版新書

『簡體書』策略前展、策略迭代与分布式强化学习

書城自編碼: 3746449
分類: 簡體書→大陸圖書→教材研究生/本科/专科教材
作者: [美]德梅萃·P. 博赛卡斯[Dimitri P. Bert
國際書號(ISBN): 9787302599388
出版社: 清华大学出版社
出版日期: 2022-04-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:NT$ 709

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
冯友兰和青年谈心系列
《 冯友兰和青年谈心系列 》

售價:NT$ 762.0
利他主义的生意:偏爱“非理性”的市场(英国《金融时报》推荐读物!)
《 利他主义的生意:偏爱“非理性”的市场(英国《金融时报》推荐读物!) 》

售價:NT$ 352.0
认知行为疗法:心理咨询的顶层设计
《 认知行为疗法:心理咨询的顶层设计 》

售價:NT$ 454.0
FANUC工业机器人装调与维修
《 FANUC工业机器人装调与维修 》

售價:NT$ 454.0
吕著中国通史
《 吕著中国通史 》

售價:NT$ 286.0
爱琴海的光芒 : 千年古希腊文明
《 爱琴海的光芒 : 千年古希腊文明 》

售價:NT$ 908.0
不被他人左右:基于阿德勒心理学的无压力工作法
《 不被他人左右:基于阿德勒心理学的无压力工作法 》

售價:NT$ 301.0
SDGSAT-1卫星热红外影像图集
《 SDGSAT-1卫星热红外影像图集 》

售價:NT$ 2030.0

建議一齊購買:

+

NT$ 1188
《 经济学原理(第8版)(套装微观经济学分册+宏观经济学分册 曼昆) 》
+

NT$ 454
《 中国高校艺术专业技能与实践系列教材 中外工艺美术史 》
+

NT$ 514
《 线性代数及其应用(原书第5版) 》
+

NT$ 399
《 中国文学理论批评史教程(修订本) 》
+

NT$ 290
《 中医基础理论·全国中医药行业高等教育“十三五”规划教材 》
+

NT$ 278
《 财务管理学(第9版·立体化数字教材版) 》
編輯推薦:
读者通过本书可以了解强化学习中策略迭代,特别是Rollout方法在分布式和多智能体框架下的进展和应用。本书可用作人工智能或系统与控制科学等相关专业的高年级本科生或研究生作为一个学期的课程教材。也适用于开展相关研究工作的专业技术人员作为参考书阅读。
內容簡介:
本书目的是从作者近出版的《强化学习预控制》教科书中更深入地发展一些方法。特别是,提出了有关涉及多个代理,分区架构和分布式异步计算的系统的新研究。本书还将详细讨论该方法在挑战离散/组合优化问题(例如路由,调度,分配和混合整数编程)中的应用,包括在这些情况下使用神经网络近似。
本书可作为计算机科学与技术、控制科学与技术、电子科学与技术等相关领域研究生和高年级本科生的教学参考书,也可供信息、通信、控制、优化等领域的科研人员参考。
關於作者:
Dimitri P. Bertsekas,德梅萃 P.博塞克斯(Dimitri P. Bertseka),美国MIT终身教授,美国国家工程院院士,清华大学复杂与网络化系统研究中心客座教授。电气工程与计算机科学领域国际知名作者,著有《非线性规划》《网络优化》《动态规划》《凸优化》《强化学习与控制》等十几本畅销教材和专著。
內容試閱
本书作者德梅萃·P.博赛卡斯(Dimitri P.Bertsekas)是美国麻省理工学院教授和亚利桑那州立大学教授,也是美国工程院院士。本书是作者近年来相关研究成果的总结。
强化学习,也称为近似动态规划、神经元动态规划。本书的内容围绕强化学习中的策略迭代这一核心概念展开。策略迭代指从某个策略出发,不断产生改进策略的过程。如果仅仅生成一步改进策略,就称为策略前展(Rollout)。大量经验表明,策略前展是当前用得广、为可靠的强化学习方法之一。主要内容: 第1章为动态规划原理; 第2章为策略前展与策略改进; 第3章为专用策略前展算法; 第4章为值和策略的学习; 第5章为无限时间分布式和多智能体算法。
横空出世的围棋软件AlphaZero算法对本书有很大影响。本书内容同样基于策略迭代、值网络和策略网络的神经网络近似表示、并行与分布式计算和前瞻小化约简技术的核心框架构建,并对算法的适用范围做了拓展。本书的特色在于给出了分布式计算和多智能体系统框架下的强化学习策略改进计算的效率提升技术,建立了一步策略改进策略前展方法同控制系统中广泛使用的模型预测控制(MPC)设计方法之间的联系,并描述了策略前展方法在复杂离散和组合优化问题方面的应用。
  通过阅读本书,读者可以了解强化学习中的策略迭代,特别是策略前展方法在分布式和多智能体框架下的进展和应用。本书可用作人工智能或系统与控制科学等相关专业的高年级本科生或研究生的教材,也适合开展相关研究工作的专业技术人员作为参考书。
赵千川
清华大学自动化系教授
清华大学智能与网络化系统研究中心主任
2021年10月

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 台灣用户 | 香港/海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.