新書推薦:
《
形而上学与测量
》
售價:NT$
340.0
《
世界航母、舰载机图鉴 【日】坂本明
》
售價:NT$
340.0
《
量价关系——透视股票涨跌脉络
》
售價:NT$
340.0
《
创伤与记忆:身体体验疗法如何重塑创伤记忆 [美]彼得·莱文
》
售價:NT$
295.0
《
复原力
》
售價:NT$
345.0
《
近代中国思维方式的演变(王中江著作系列)
》
售價:NT$
950.0
《
我可以近乎孤独地度过一生
》
售價:NT$
440.0
《
二十四节气生活美学
》
售價:NT$
340.0
|
內容簡介: |
大模型作为人工智能技术的重要发展方向,逐渐成为未来科技发展的重要方向之一。基于此,本书重点介绍与大模型相关的基础知识、原理与技术。本书分为14章,内容包括深度学习基础、自然语言处理、大模型网络结构、大模型训练与优化、大模型微调及相关应用案例等。全书强调内容的科学性与系统性,从大模型历史发展脉络、理论基础、构建方法到应用场景,循序渐进地全面讲解大模型技术。本书聚焦于大模型在不同领域的扩展应用,提供了应用案例的全方位学习路径,旨在培养和提升学生的实践和创造能力。每章都提供了相应的习题,供学生练习和巩固知识。同时,本书通过介绍开源框架\计图”、华为芯片、航空航天装备制造等知识,可以让学生了解更多国产技术。 本书提供了电子课件及习题参考答案等配套资源,可登录华信教育资源网(www.hxedu.com.cn)下载。本书适合作为科研院所和本科院校计算机、人工智能、机械制造与自动化等相关专业的教材,也可以作为高职高专院校的教学参考书。
|
關於作者: |
魏明强,国家优青、教授、博士生导师。博士毕业于香港中文大学并获最佳博士毕业论文奖(2014)。近年来,围绕大飞机3D扫描与测量、几何深度学习和三维视觉等研究方向,主持国防基础科研、国家重点研发计划子课题、国自然优青/面上/青年以及联合主持国自然重点项目等10余项;发表学术论文150余篇,如IEEE TPAMI、CVPR等CCF A类期刊和会议,相关技术用在多个国家重点型号工程。
|
目錄:
|
目 录 第1章 绪论1 1.1 大模型基本概念2 1.2 大模型发展历程4 1.2.1 从技术架构看发展历程5 1.2.2 从参数规模看发展历程6 1.2.3 从模态支持看发展历程6 1.2.4 从应用领域看发展历程6 1.3 大模型关键技术及训练流程7 1.3.1 大模型关键技术7 1.3.2 大模型训练流程9 1.4 本书内容安排11 1.5 思考12 习题113 第2章 深度学习基础14 2.1 神经网络基础14 2.1.1 神经网络14 2.1.2 卷积神经网络18 2.2 损失函数和优化算法24 2.2.1 损失函数24 2.2.2 优化算法26 2.3 神经网络训练29 2.3.1 梯度和链式法则29 2.3.2 前向传播与反向传播30 2.3.3 训练神经网络示例32 2.4 深度学习框架34 2.4.1 主流深度学习框架34 2.4.2 框架选择和优缺点比较36 2.5 思考37 习题238 第3章 自然语言处理40 3.1 自然语言处理概述40 3.1.1 基本任务40 3.1.2 发展历程42 3.1.3 应用领域43 3.2 词嵌入44 3.2.1 独热向量44 3.2.2 Word2vec45 3.2.3 代码示例48 3.3 循环神经网络50 3.3.1 循环神经网络介绍50 3.3.2 循环神经网络训练51 3.3.3 循环神经网络梯度问题52 3.3.4 双向循环神经网络53 3.4 长短期记忆网络54 3.4.1 长短期记忆网络介绍55 3.4.2 长短期记忆网络应用57 3.5 门控循环单元61 3.5.1 门控循环单元介绍62 3.5.2 门控循环单元应用63 3.6 思考67 习题368 第4章 大模型网络结构69 4.1 Transformer69 4.1.1 注意力机制71 4.1.2 编码器-解码器结构80 4.1.3 大模型中的编码器-解码器结构84 4.2 编码器结构—BERT家族87 4.2.1 BERT结构87 4.2.2 预训练策略89 4.2.3 BERT的变体92 4.3 解码器结构—GPT家族95 4.3.1 GPT结构96 4.3.2 自回归预训练98 4.3.3 后续改进100 4.4 思考104 习题4105 第5章 大模型训练与优化106 5.1 训练数据准备106 5.1.1 数据获取106 5.1.2 数据预处理109 5.1.3 数据增强111 5.1.4 数据配比与课程设置114 5.1.5 开源数据集115 5.2 并行化和分布式训练118 5.2.1 大模型训练的挑战118 5.2.2 并行策略118 5.2.3 节点间数据通信120 5.2.4 分布式训练框架123 5.3 模型压缩126 5.3.1 量化127 5.3.2 剪枝132 5.3.3 知识蒸馏136 5.4 华为芯片助力大模型训练与部署138 5.4.1 Ascend AI芯片139 5.4.2 Atlas系列硬件139 5.4.3 异构计算架构CANN139 5.4.4 深度学习框架MindSpore140 5.4.5 应用使能与行业应用140 5.5 思考140 习题5142 第6章 大模型微调144 6.1 大模型微调概述144 6.2 参数高效微调146 6.2.1 增量式微调146 6.2.2 指定式微调150 6.2.3 重参数化微调151 6.2.4 混合微调156 6.2.5 小结157 6.3 指令微调158 6.3.1 指令数据集构建159 6.3.2 指令微调阶段160 6.4 基于人类反馈的强化学习微调161 6.4.1 奖励建模162 6.4.2 强化学习微调163 6.4.3 案例讲解164 6.5 思考166 习题6166 第7章 大模型提示工程168 7.1 提示工程简介168 7.2 零样本提示169 7.3 少样本提示176 7.4 链式思考提示177 7.4.1 思维链提示工程概述177 7.4.2 零样本思维链180 7.4.3 思维链拓展180 7.5 思维树提示181 7.6 检索增强生成185 7.7 自动提示工程185 7.8 思考187 习题7188 第8章 高效大模型策略190 8.1 大模型效率概述190 8.1.1 大模型效率面临的问题190 8.1.2 大模型效率及其评估指标190 8.2 预算效率策略:缩放定律192 8.3 数据效率策略193 8.3.1 数据过滤193 8.3.2 主动学习/重要性采样194 8.3.3 课程学习194 8.4 架构效率策略195 8.4.1 高效注意力195 8.4.2 高效位置编码196 8.4.3 稀疏模型197 8.4.4 无注意力模型197 8.5 训练效率策略197 8.5.1 稳定训练策略198 8.5.2 混合精度训练198 8.5.3 并行训练技术199 8.5.4 内存优化200 8.6 推理效率策略200 8.6.1 剪枝201 8.6.2 知识蒸馏201 8.6.3 量化202 8.6.4 低秩分解202 8.7 微调效率策略203 8.7.1 参数高效微调203 8.7.2 数据高效调整204 8.8 思考204 习题8205 第9章 单模态通用大模型206 9.1 LLaMA:一种自然语言处理大模型206 9.1.1 模型结构206 9.1.2 预训练209 9.1.3 微调209 9.1.4 使用方法211 9.2 SAM:一种图像分割大模型211 9.2.1 概述212 9.2.2 提示下的图像分割任务212 9.2.3 SAM模型架构212 9.2.4 SA-1B:大规模掩码数据集216 9.2.5 SAM在各视觉任务中的应用217 9.2.6 SAM的使用方法218 9.3 AudioLM:让AI为你谱曲写歌219 9.3.1 概述219 9.3.2 AudioLM的组件构成219 9.3.3 AudioLM的训练方式220 9.3.4 AudioLM的安装与使用225 9.3.5 AudioLM的推理应用225 9.4 Zero-1-to-3:二生三维226 9.4.1 概述226 9.4.2 Zero-1-to-3模型结构227 9.4.3 Zero-1-to-3的使用229 9.5 思考231 习题9231 第10章 多模态通用大模型232 10.1 多模态数据集介绍232 10.1.1 GQA数据集232 10.1.2 HowTo100M数据集233 10.1.3 Conceptual-12M数据集234 10.1.4 YT-Temporal-180M数据集234 10.1.5 WebVid-2M数据集234 10.1.6 ModelNet数据集234 10.1.7 ShapeNet数据集235 10.1.8 ScanObjectNN数据集235 10.1.9 KITTI数据集236 10.1.10 nuScenes数据集236 10.1.11 Waymo数据集237 10.2 CLIP:探索图文结合的奥秘238 10.2.1 概述238 10.2.2 模型架构239 10.2.3 训练过程242 10.2.4 CLIP相关应用244 10.2.5 CLIP的不足247 10.3 GPT-4V:大模型视觉能力的新篇章248 10.3.1 输入模式248 10.3.2 工作方式249 10.3.3 视觉语言能力251 10.4 ImageBind:多感官统一255 10.4.1 概述255 10.4.2 多模态特征编码与对齐256 10.4.3 数据集的灵活应用257 10.4.4 相关应用257 10.4.5 使用方法258 10.5 3D-LLM:将三维世界注入大模型260 10.5.1 三维语言数据生成260 10.5.2 3D-LLM训练方式261 10.5.3 3D-LLM安装与实现细节263 10.5.4 3D-LLM应用图谱264 10.6 Sora:文生视频265 10.6.1 Sora为视频生成带来的改变266 10.6.2 Sora的局限性与争议268 10.7 思考268 习题10269 第11章 大模型评测271 11.1 大模型评测概述271 11.2 知识和能力评测272 11.2.1 问答能力272 11.2.2 知识补全能力272 11.2.3 推理能力272 11.2.4 工具学习能力274 11.3 对齐评测274 11.3.1 伦理道德275 11.3.2 偏见275 11.3.3 有害内容276 11.3.4 真实性276 11.4 安全评测277 11.4.1 鲁棒性评测277 11.4.2 风险评测278 11.5 行业大模型评测278 11.5.1 医学278 11.5.2 教育学279 11.5.3 计算机科学279 11.5.4 金融学280 11.6 思考280 习题11281 第12章 大模型主要应用场景283 12.1 大模型产业图谱283 12.2 大模型军事智能应用284 12.3 大模型教育教学应用286 12.4 大模型医疗健康应用288 12.5 大模型工业应用289 12.6 大模型气象预报应用292 12.7 大模型测绘应用294 12.8 思考295 习题12296 第13章 基于大模型的智能软件研发297 13.1 基于大模型的智能软件研发框架297 13.2 智能软件研发中的大模型技术298 13.2.1 常用大模型298 13.2.2 预训练范式299 13.3 智能软件研发中的下游任务300 13.3.1 程序语言相关任务301 13.3.2 自然语言相关任务308 13.3.3 程序语言与自然语言交互任务311 13.4 常用数据集317 13.4.1 预训练数据集317 13.4.2 下游任务数据集318 13.5 思考320 习题13321 第14章 基于大模型的航空航天装备制造323 14.1 大模型在大飞机制造中的应用323 14.1.1 大飞机制造概述323 14.1.2 设计和优化中的应用324 14.2 大模型在航空发动机中的应用327 14.2.1 航空发动机概述327 14.2.2 具体应用场景328 14.3 大模型在航空机载设备与系统中的应用330 14.3.1 航空机载设备与系统概述330 14.3.2 具体应用场景330 14.4 大模型在无人机智能集群中的应用332 14.4.1 无人机智能集群概述332 14.4.2 具体应用场景334 14.4.3 典型应用案例334 14.5 思考337 习题14338 参考文献339
|
|