新書推薦:
《
女人的胜利
》
售價:NT$
254.0
《
数据有道:数据分析+图论与网络+微课+Python编程(鸢尾花数学大系:从加减乘除到机器学习)
》
售價:NT$
1214.0
《
500万次倾听:陪伤心的人聊聊
》
售價:NT$
245.0
《
英国商业500年(见证大国崛起与企业兴衰,启迪未来商业智慧。)
》
售價:NT$
367.0
《
万千心理·儿童心理治疗中的心智化:临床实践指导
》
售價:NT$
398.0
《
自我囚禁的人:完美主义的心理成因与自我松绑(破除你对完美主义的迷思,尝试打破自我评价过低与焦虑的恶性循环)
》
售價:NT$
301.0
《
周易
》
售價:NT$
203.0
《
东南亚的传统与发展
》
售價:NT$
306.0
|
內容簡介: |
《游戏人工智能方法》尝试总结近年来游戏人工智能方向的优秀研究工作,以及作者的一些探索成果。主要内容包括游戏人工智能的背景、**的游戏人工智能方法、DeepMind针对棋牌和视频类游戏的人工智能方法,以及作者团队针对即时游戏的人工智能方法,如格斗游戏、星际争霸的宏观生产和微观操作等。从理论分析到算法设计到编程实现,旨在为读者提供一个针对不同游戏人工智能问题的系统性论述。
|
目錄:
|
目录“新一代人工智能理论、技术及应用丛书”序前言第1章游戏人工智能介绍11.1引言11.1.1游戏人工智能背景和意义11.1.2游戏人工智能研究发展11.2回合制游戏人工智能31.2.1棋类游戏人工智能发展历程31.2.2牌类游戏人工智能发展历程41.2.3棋牌类游戏人工智能测试平台51.3即时制游戏人工智能71.3.1即时制游戏平台和竞赛71.3.2雅达利游戏81.3.3**人称视角游戏91.3.4即时策略游戏101.4游戏人工智能的关键性挑战与研究思路121.5游戏人工智能的未来发展趋势与展望131.5.1基于深度强化学习方法的策略模型泛化性141.5.2构建高效鲁棒合理的前向推理模型141.5.3增强模型的环境适应和学习优化性能141.5.4从虚拟环境到实际应用的迁移151.6本章小结15参考文献15第2章基本游戏人工智能方法202.1引言202.2**博弈树模型202.2.1极小化极大算法202.2.2α-β剪枝算法212.3统计前向规划222.3.1蒙特卡罗树搜索算法232.3.2滚动时域演化算法262.4强化学习272.4.1蒙特卡罗算法292.4.2时间差分强化学习算法302.4.3策略梯度学习算法312.5深度强化学习332.5.1深度Q网络及其扩展342.5.2异步优势执行器-评价器算法及其扩展382.5.3策略梯度深度强化学习402.5.4面向对抗博弈的深度强化学习432.6本章小结45参考文献45第3章DeepMind游戏人工智能方法513.1引言513.2AlphaGo513.2.1算法概述523.2.2计算机围棋的发展历史与现状523.2.3原理分析533.2.4性能分析563.2.5评价573.3AlphaGoZero.583.3.1算法概述583.3.2深度神经网络结构613.3.3蒙特卡罗树搜索613.3.4训练流程643.3.5讨论653.4AlphaZero和MuZero663.4.1AlphaZero概述673.4.2MuZero概述683.4.3算法解析703.4.4性能分析723.5AlphaStar743.5.1星际争霸研究意义743.5.2算法概述753.5.3算法解析763.5.4性能分析783.6本章小结81参考文献82第4章两人零和马尔可夫博弈的极小化极大Q网络算法854.1引言854.2两人零和马尔可夫博弈的基本知识864.2.1两人零和马尔可夫博弈864.2.2纳什均衡或极小化极大均衡864.2.3极小化极大价值和极小化极大方程864.2.4线性规划求解极小化极大解874.3动态规划求解贝尔曼极小化极大方程884.3.1值迭代884.3.2策略迭代884.3.3广义策略迭代894.4极小化极大Q网络算法904.4.1Q函数神经网络904.4.2在线学习904.4.3M2QN算法在查表法下的收敛性924.5仿真实验944.5.1足球博弈944.5.2守护领土964.5.3格斗游戏984.6本章小结101参考文献101第5章格斗游戏的对手模型和滚动时域演化算法1045.1引言1045.2基于滚动时域演化的统计前向规划建模1055.2.1格斗游戏问题定义1055.2.2滚动时域演化算法1055.3基于自适应对手模型的神经网络建模1075.3.1对手模型建模1075.3.2监督学习式对手模型1075.3.3强化学习式对手模型1085.4实验设计与测试结果1105.4.1实验设置与测试平台1105.4.2内部比较1115.4.3对抗2018年格斗游戏程序1135.4.4两种统计前向规划与对手建模结合的性能比较1145.4.52019年格斗游戏竞赛结果1155.4.62020年格斗游戏竞赛结果1155.4.7性能指标分析1165.4.8讨论1215.5本章小结121参考文献122第6章星际争霸宏观生产的深度强化学习算法1246.1引言1246.2星际争霸宏观生产决策分析与建模1256.2.1问题定义1256.2.2输入状态特征1266.2.3决策动作定义1286.2.4决策神经网络模型结构1286.2.5基于策略和价值混合式网络的决策系统优化方法1296.3实验设置与结果分析1326.3.1星际争霸宏观决策对抗优化场景1326.3.2对抗优化场景下的实验结果1336.3.3星际争霸学生天梯赛1366.4本章小结136参考文献136第7章星际争霸微操的强化学习和课程迁移学习算法1387.1引言1387.2星际争霸微操任务分析与建模1397.2.1问题定义1397.2.2高维状态表示1407.2.3动作定义1417.2.4网络结构1417.3基于强化学习的星际争霸多单位控制1427.3.1共享参数多智能体梯度下降Sarsa(λ)算法1437.3.2奖赏函数1447.3.3帧跳跃1457.3.4课程迁移学习1457.4实验设置和结果分析1467.4.1星际争霸微操场景设置1467.4.2结果讨论1477.4.3策略分析1517.5本章小结154参考文献154第8章星际争霸微操的可变数量多智能体强化学习算法1568.1引言1568.2背景知识与相关工作1568.2.1多智能体强化学习1568.2.2联合观测动作价值函数分解1588.2.3相关工作1588.3可变数量多智能体强化学习1628.3.1自加权混合网络1628.3.2适应动作空间变化的智能体网络1658.3.3可变网络的训练算法1668.4星际争霸II微操实验1698.4.1可变网络在星际争霸II微操环境的实验设置1698.4.2可变网络实验结果1708.4.3消融实验1728.4.4可变网络策略分析1748.5本章小结175参考文献176附录A强化学习符号表178附录B主要词汇中英文对照表179
|
|