登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　聯絡我們　 \|　運費計算　 \|　幫助中心　\|　加入書簽
		會員登入新用戶註冊

HOME

新書上架

暢銷書架

好書推介

2025年度TOP

香港／國際用戶

最新/最熱/最齊全的簡體書網

品種：超過100萬種書，正品正价，放心網購，悭钱省心

送貨：速遞 / 物流，時效：出貨後2-4日

『簡體書』智能决策：方法与技术

書城自編碼： 4027033
分類：簡體書→大陸圖書→計算機/網絡→人工智能
作者：孙怡峰，王玉宾，吴疆
國際書號(ISBN)： 9787030770479
出版社：科学出版社
出版日期： 2024-08-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：NT$ 612

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《超级合作者》
售價：NT$ 663

《清华大学藏战国竹简校释（陆）：越公其事》
售價：NT$ 383

《古今英国园林》
售價：NT$ 500

《奇迹时刻：获得全新的认知与领悟，如何爱自己，打破原生家庭限制，找寻真正的自由与自爱》
售價：NT$ 305

《学会卓越》
售價：NT$ 510

《 365日自我肯定之书：你是你自己人生的主角！增强自我肯定感》
售價：NT$ 356

《小儿推拿轻松学，脾肺同养百病消》
售價：NT$ 184

《海洋之思：俄罗斯的海洋观（1997~2021）》
售價：NT$ 653

建議一齊購買：

NT$ 254
《大模型技术（2023版）中国人工智能学会系列研究报告》

NT$ 505
《人人可懂的模式识别（原书第2版）石井健一郎上田修功前田》

NT$ 352
《智能简史——从大爆炸到元宇宙》

NT$ 407
《AI创造力：智能产品设计与研究（动画与数字媒体专业系列教材）》

NT$ 574
《大疆TT教育无人机从入门到精通》

NT$ 301
《从零开始设计你的智能小车》

內容簡介：

智能决策是迈向通用人工智能的必经之路。2016年，围棋智能体AlphaGo战胜韩国棋手李世石，智能决策引起人们的广泛关注；2022年底，ChatGPT火爆全球，凸显出大模型的价值。可以预见，神经网络大模型将进一步推动智能决策在自主学习和应用范围上的突破。《智能决策：方法与技术》围绕智能决策领域涉及的基本方法与技术展开介绍，主要内容包括：智能决策与智能体的基本概念，智能体所处环境的分类与建模，确定环境下智能体的搜索推理决策方法，不确定环境下决策策略强化学习方法、博弈学习方法，复杂策略的深层神经网络建模与应用，以及网格世界游戏、“雅达利”游戏、围棋对弈、“星际争霸”即时战略对抗游戏、陆战对抗等实例下智能体的决策策略生成技术和部分Python代码实现。

目录前言第1章智能决策概述 11.1 智能决策的内涵 11.1.1 基本概念 11.1.2 两个关键问题 21.1.3 虚拟环境 31.2 当前成果与技术流派 61.2.1 当前成果 61.2.2 三大流派 91.3 未来应用与发展方向 101.3.1 为复杂体系提供辅助决策 101.3.2 为无人系统提升自主能力 12第2章基本理论与模型 142.1 决策的基本理论 142.1.1 人类决策的一般过程 142.1.2 决策的认知心理学描述 162.2 智能体模型理论 182.2.1 智能体的基本概念 182.2.2 与一般决策的不同 202.3 知识与环境描述 212.3.1 知识表示 212.3.2 环境描述方法 222.3.3 环境与智能体分类 23第3章确定环境下的搜索推理决策方法 273.1 智能体的描述与分析 273.1.1 智能体的决策问题 273.1.2 问题的形式化 283.1.3 问题蕴含的知识 293.2 搜索推理决策方法 313.2.1 智能体的决策 313.2.2 搜索算法基础 323.2.3 无信息搜索策略 363.2.4 启发式搜索策略 413.3 自动规划与知识描述 423.3.1 集合论描述 423.3.2 **规划描述 473.3.3 时态规划模型 52第4章不确定环境下的决策策略生成方法 544.1 不确定环境下的基本决策方法 544.1.1 随机不确定环境下的最大期望效用决策 544.1.2 博弈不确定环境下的纯策略决策 564.1.3 博弈不确定环境下的混合策略决策 644.2 决策策略的强化学习算法 684.2.1 强化学习的基本概念 684.2.2 有模型的强化学习 704.2.3 无模型的强化学习 75第5章神经网络与决策策略建模 875.1 神经网络的基本概念 875.1.1 神经网络的定义 875.1.2 神经元模型 895.2 全连接反向传播与监督学习 915.2.1 反向传播算法 915.2.2 前馈多层神经网络 965.2.3 监督学习下的损失函数 975.2.4 参数初始化与参数更新方法 1005.3 卷积神经网络及其反向传播 1065.3.1 卷积神经网络结构 1065.3.2 卷积神经网络中的反向传播 1145.4 神经网络在决策策略建模中的应用 1175.4.1 拟合状态价值函数与直接生成动作 1175.4.2 策略网络的训练 1195.4.3 Actor-Critic方法 121第6章简单游戏中的智能决策技术 1246.1 OpenAI Gym与虚拟环境 1246.2 表格Q学习与网格世界游戏决策 1256.2.1 游戏环境与Q学习实现 1256.2.2 湖面溜冰游戏决策 1286.3 DQN与打砖块游戏决策 1296.3.1 打砖块游戏环境 1296.3.2 DQN算法过程 1306.3.3 DQN核心代码 1366.3.4 打砖块游戏智能体的实现 142第7章完全信息下的棋类智能决策技术 1497.1 AlphaZero算法原理 1497.1.1 基本思路 1497.1.2 蒙特卡罗树搜索基础 1517.1.3 自我博弈与神经网络设计 1567.2 棋盘游戏环境实现 1607.2.1 N子棋走子 1607.2.2 棋盘环境 1647.3 AlphaZero算法实现 1707.3.1 自我博弈实现 1707.3.2 蒙特卡罗树搜索 1747.3.3 策略价值网络 1767.3.4 训练与决策 183第8章不完全信息下的对抗策略的博弈学习 1938.1 博弈学习算法 1938.1.1 博弈学习的基本概念 1938.1.2 博弈及其策略的形式化描述 1948.1.3 博弈学习动力学及学习算法 1968.2 “星际争霸”游戏对抗问题分析 2008.2.1 “星际争霸”游戏环境 2008.2.2 决策问题分析 2068.3 AlphaStar中的决策神经网络和博弈学习技术 2078.3.1 动作体系与状态观测量 2078.3.2 神经网络结构概况与监督学习 2098.3.3 神经网络强化学习的基本方法 2128.3.4 加权虚拟自我博弈与联盟学习 214第9章战术级陆战对抗策略的智能生成 2169.1 陆战人机对抗环境 2169.1.1 陆战对抗场景 2169.1.2 庙算平台的环境接口 2189.2 智能体的基本框架 2199.2.1 智能体对棋子的控制 2199.2.2 高层动作的实施逻辑 2229.3 基于先验收益的目标点位选择的初始策略 2239.3.1 目标点位选择问题分析 2239.3.2 博弈模型构建 2249.3.3 收益值计算与混合策略求解 2259.4 目标点位选择策略的博弈学习 2329.4.1 博弈学习架构设计 2329.4.2 神经网络结构设计 2349.4.3 神经网络参数博弈学习 238参考文献 244附录A 神经网络的使用 246A.1 PyTorch框架下神经网络的使用 246A.2 TensorFlow Keras框架下神经网络的使用 248附录B 庙算平台接口 251B.1 态势接口 251B.2 机动动作接口 256

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	台灣用户　\|　香港/海外用户

megBook.com.tw
Copyright (C) 2013 - 2026 （香港）大書城有限公司　All Rights Reserved.