新書推薦:
《
大学问·明清经济史讲稿
》
售價:NT$
330.0
《
中国国际法年刊(2023)
》
售價:NT$
539.0
《
实用对联大全
》
售價:NT$
225.0
《
想象欧洲丛书(7册)欧洲史
》
售價:NT$
1880.0
《
没有伞的孩子必须努力奔跑
》
售價:NT$
149.0
《
做最好的班主任(李镇西教育文集版)
》
售價:NT$
230.0
《
数据驱动法律
》
售價:NT$
390.0
《
对话世界一流大学图书馆馆长
》
售價:NT$
995.0
|
內容簡介: |
本书主要介绍了如何使用GPU和利用CUDAC语言对其进行编程的。首先从基本的CUDA概念及结构讲起,一步一步地引导读者进入CUDA的内部世界,由浅入深地介绍了其编程要求及其内部架构,使读者对其有了整体印象后,逐步深入了解其内部机能,后介绍了GPU的一些专用函数和注意事项。
|
關於作者: |
技术审校者简介
前言
致谢
第1章 基于CUDA的异构并行计算1
1.1 并行计算1
1.1.1 串行编程和并行编程2
1.1.2 并行性3
1.1.3 计算机架构4
1.2 异构计算6目录
译者序
推荐序
自序
作者简介
技术审校者简介
前言
致谢
第1章 基于CUDA的异构并行计算1
1.1 并行计算1
1.1.1 串行编程和并行编程2
1.1.2 并行性3
1.1.3 计算机架构4
1.2 异构计算6
1.2.1 异构架构7
1.2.2 异构计算范例9
1.2.3 CUDA:一种异构计算平台10
1.3 用GPU输出Hello World12
1.4 使用CUDA C编程难吗15
1.5 总结16
1.6 习题16
第2章 CUDA编程模型18
2.1 CUDA编程模型概述18
2.1.1 CUDA编程结构19
2.1.2 内存管理20
2.1.3 线程管理24
2.1.4 启动一个CUDA核函数29
2.1.5 编写核函数30
2.1.6 验证核函数31
2.1.7 处理错误32
2.1.8 编译和执行32
2.2 给核函数计时35
2.2.1 用CPU计时器计时35
2.2.2 用nvprof工具计时39
2.3 组织并行线程40
2.3.1 使用块和线程建立矩阵索引40
2.3.2 使用二维网格和二维块对矩阵求和44
2.3.3 使用一维网格和一维块对矩阵求和47
2.3.4 使用二维网格和一维块对矩阵求和48
2.4 设备管理50
2.4.1 使用运行时API查询GPU信息50
2.4.2 确定最优GPU53
2.4.3 使用nvidia-smi查询GPU信息53
2.4.4 在运行时设置设备54
2.5 总结54
2.6 习题55
第3章 CUDA执行模型56
3.1 CUDA执行模型概述56
3.1.1 GPU架构概述57
3.1.2 Fermi架构59
3.1.3 Kepler架构61
3.1.4 配置文件驱动优化65
3.2 理解线程束执行的本质67
3.2.1 线程束和线程块67
3.2.2 线程束分化69
3.2.3 资源分配74
3.2.4 延迟隐藏76
3.2.5 占用率78
3.2.6 同步81
3.2.7 可扩展性82
3.3 并行性的表现83
3.3.1 用nvprof检测活跃的线程束84
3.3.2 用nvprof检测内存操作85
3.3.3 增大并行性86
3.4 避免分支分化88
3.4.1 并行归约问题88
3.4.2 并行归约中的分化89
3.4.3 改善并行归约的分化93
3.4.4 交错配对的归约95
3.5 展开循环97
3.5.1 展开的归约97
3.5.2 展开线程的归约99
3.5.3 完全展开的归约101
3.5.4 模板函数的归约102
3.6 动态并行104
3.6.1 嵌套执行105
3.6.2 在GPU上嵌套Hello World106
3.6.3 嵌套归约109
3.7 总结113
3.8 习题113
第4章 全局内存115
4.1 CUDA内存模型概述115
4.1.1 内存层次结构的优点116
4.1.2 CUDA内存模型117
4.2 内存管理124
4.2.1 内存分配和释放124
4.2.2 内存传输125
4.2.3 固定内存127
4.2.4 零拷贝内存128
4.2.5 统一虚拟寻址133
4.2.6 统一内存寻址134
4.3 内存访问模式135
4.3.1 对齐与合并访问135
4.3.2 全局内存读取137
4.3.3 全局内存写入145
4.3.4 结构体数组与数组结构体147
4.3.5 性能调整151
4.4 核函数可达到的带宽154
4.4.1 内存带宽154
4.4.2 矩阵转置问题155
4.5 使用统一内存的矩阵加法167
4.6 总结171
4.7 习题172
第5章 共享内存和常量内存174
5.1 CUDA共享内存概述174
5.1.1 共享内存175
5.1.2 共享内存分配176
5.1.3 共享内存存储体和访问模式176
5.1.4 配置共享内存量181
5.1.5 同步183
5.2 共享内存的数据布局185
5.2.1 方形共享内存185
5.2.2 矩形共享内存193
5.3 减少全局内存访问199
5.3.1 使用共享内存的并行归约199
5.3.2 使用展开的并行归约202
5.3.3 使用动态共享内存的并行归约204
5.3.4 有效带宽205
5.4 合并的全局内存访问205
5.4.1 基准转置内核205
5.4.2 使用共享内存的矩阵转置207
5.4.3 使用填充共享内存的矩阵转置210
5.4.4 使用展开的矩阵转置211
5.4.5 增大并行性214
5.5 常量内存215
5.5.1 使用常量内存实现一维模板215
5.5.2 与只读缓存的比较217
5.6 线程束洗牌指令219
5.6.1 线程束洗牌指令的不同形式220
5.6.2 线程束内的共享数据222
5.6.3 使用线程束洗牌指令的并行归约226
5.7 总结227
5.8 习题228
第6章 流和并发230
6.1 流和事件概述231
6.1.1 CUDA流231
6.1.2 流调度234
6.1.3 流的优先级235
6.1.4 CUDA事件235
6.1.5 流同步237
6.2 并发内核执行240
6.2.1 非空流中的并发内核240
6.2.2 Fermi GPU上的虚假依赖关系242
6.2.3 使用OpenMP的调度操作244
6.2.4 用环境变量调整流行为245
6.2.5 GPU资源的并发限制246
6.2.6 默认流的阻塞行为247
6.2.7 创建流间依赖关系248
6.3 重叠内核执行和数据传输249
6.3.1 使用深度优先调度重叠249
6.3.2 使用广度优先调度重叠252
6.4 重叠GPU和CPU执行254
6.5 流回调255
6.6 总结256
6.7 习题257
第7章 调整指令级原语258
7.1 CUDA指令概述259
7.1.1 浮点指令259
7.1.2 内部函数和标准函数261
7.1.3 原子操作指令262
7.2 程序优化指令264
7.2.1 单精度与双精度的比较264
7.2.2 标准函数与内部函数的比较266
7.2.3 了解原子指令272
7.2.4 综合范例277
7.3 总结279
7.4 习题280
第8章 GPU加速库和OpenACC281
8.1 CUDA库概述282
8.1.1 CUDA库支持的作用域283
8.1.2 通用的CUDA库工作流283
8.2 cuSPARSE库285
8.2.1 cuSPARSE数据存储格
|
目錄:
|
目录
译者序
推荐序
自序
作者简介
技术审校者简介
前言
致谢
第1章 基于CUDA的异构并行计算1
1.1 并行计算1
1.1.1 串行编程和并行编程2
1.1.2 并行性3
1.1.3 计算机架构4
1.2 异构计算6
1.2.1 异构架构7
1.2.2 异构计算范例9
1.2.3 CUDA:一种异构计算平台10
1.3 用GPU输出Hello World12
1.4 使用CUDA C编程难吗15
1.5 总结16
1.6 习题16
第2章 CUDA编程模型18
2.1 CUDA编程模型概述18
2.1.1 CUDA编程结构19
2.1.2 内存管理20
2.1.3 线程管理24
2.1.4 启动一个CUDA核函数29
2.1.5 编写核函数30
2.1.6 验证核函数31
2.1.7 处理错误32
2.1.8 编译和执行32
2.2 给核函数计时35
2.2.1 用CPU计时器计时35
2.2.2 用nvprof工具计时39
2.3 组织并行线程40
2.3.1 使用块和线程建立矩阵索引40
2.3.2 使用二维网格和二维块对矩阵求和44
2.3.3 使用一维网格和一维块对矩阵求和47
2.3.4 使用二维网格和一维块对矩阵求和48
2.4 设备管理50
2.4.1 使用运行时API查询GPU信息50
2.4.2 确定最优GPU53
2.4.3 使用nvidia-smi查询GPU信息53
2.4.4 在运行时设置设备54
2.5 总结54
2.6 习题55
第3章 CUDA执行模型56
3.1 CUDA执行模型概述56
3.1.1 GPU架构概述57
3.1.2 Fermi架构59
3.1.3 Kepler架构61
3.1.4 配置文件驱动优化65
3.2 理解线程束执行的本质67
3.2.1 线程束和线程块67
3.2.2 线程束分化69
3.2.3 资源分配74
3.2.4 延迟隐藏76
3.2.5 占用率78
3.2.6 同步81
3.2.7 可扩展性82
3.3 并行性的表现83
3.3.1 用nvprof检测活跃的线程束84
3.3.2 用nvprof检测内存操作85
3.3.3 增大并行性86
3.4 避免分支分化88
3.4.1 并行归约问题88
3.4.2 并行归约中的分化89
3.4.3 改善并行归约的分化93
3.4.4 交错配对的归约95
3.5 展开循环97
3.5.1 展开的归约97
3.5.2 展开线程的归约99
3.5.3 完全展开的归约101
3.5.4 模板函数的归约102
3.6 动态并行104
3.6.1 嵌套执行105
3.6.2 在GPU上嵌套Hello World106
3.6.3 嵌套归约109
3.7 总结113
3.8 习题113
第4章 全局内存115
4.1 CUDA内存模型概述115
4.1.1 内存层次结构的优点116
4.1.2 CUDA内存模型117
4.2 内存管理124
4.2.1 内存分配和释放124
4.2.2 内存传输125
4.2.3 固定内存127
4.2.4 零拷贝内存128
4.2.5 统一虚拟寻址133
4.2.6 统一内存寻址134
4.3 内存访问模式135
4.3.1 对齐与合并访问135
4.3.2 全局内存读取137
4.3.3 全局内存写入145
4.3.4 结构体数组与数组结构体147
4.3.5 性能调整151
4.4 核函数可达到的带宽154
4.4.1 内存带宽154
4.4.2 矩阵转置问题155
4.5 使用统一内存的矩阵加法167
4.6 总结171
4.7 习题172
第5章 共享内存和常量内存174
5.1 CUDA共享内存概述174
5.1.1 共享内存175
5.1.2 共享内存分配176
5.1.3 共享内存存储体和访问模式176
5.1.4 配置共享内存量181
5.1.5 同步183
5.2 共享内存的数据布局185
5.2.1 方形共享内存185
5.2.2 矩形共享内存193
5.3 减少全局内存访问199
5.3.1 使用共享内存的并行归约199
5.3.2 使用展开的并行归约202
5.3.3 使用动态共享内存的并行归约204
5.3.4 有效带宽205
5.4 合并的全局内存访问205
5.4.1 基准转置内核205
5.4.2 使用共享内存的矩阵转置207
5.4.3 使用填充共享内存的矩阵转置210
5.4.4 使用展开的矩阵转置211
5.4.5 增大并行性214
5.5 常量内存215
5.5.1 使用常量内存实现一维模板215
5.5.2 与只读缓存的比较217
5.6 线程束洗牌指令219
5.6.1 线程束洗牌指令的不同形式220
5.6.2 线程束内的共享数据222
5.6.3 使用线程束洗牌指令的并行归约226
5.7 总结227
5.8 习题228
第6章 流和并发230
6.1 流和事件概述231
6.1.1 CUDA流231
6.1.2 流调度234
6.1.3 流的优先级235
6.1.4 CUDA事件235
6.1.5 流同步237
6.2 并发内核执行240
6.2.1 非空流中的并发内核240
6.2.2 Fermi GPU上的虚假依赖关系242
6.2.3 使用OpenMP的调度操作244
6.2.4 用环境变量调整流行为245
6.2.5 GPU资源的并发限制246
6.2.6 默认流的阻塞行为247
6.2.7 创建流间依赖关系248
6.3 重叠内核执行和数据传输249
6.3.1 使用深度优先调度重叠249
6.3.2 使用广度优先调度重叠252
6.4 重叠GPU和CPU执行254
6.5 流回调255
6.6 总结256
6.7 习题257
第7章 调整指令级原语258
7.1 CUDA指令概述259
7.1.1 浮点指令259
7.1.2 内部函数和标准函数261
7.1.3 原子操作指令262
7.2 程序优化指令264
7.2.1 单精度与双精度的比较264
7.2.2 标准函数与内部函数的比较266
7.2.3 了解原子指令272
7.2.4 综合范例277
7.3 总结279
7.4 习题280
第8章 GPU加速库和OpenACC281
8.1 CUDA库概述282
8.1.1 CUDA库支持的作用域283
8.1.2 通用的CUDA库工作流283
8.2 cuSPARSE库285
8.2.1 cuSPARSE数据存储格
|
內容試閱:
|
Instroduction前言欢迎来到用CUDA C进行异构并行编程的奇妙世界!
现代的异构系统正朝一个充满无限计算可能性的未来发展。异构计算正在不断被应用到新的计算领域—从科学到数据库,再到机器学习的方方面面。编程的未来将是异构并行编程的天下!
本书将引领你通过使用CUDA平台、CUDA工具包和CUDA C语言快速上手GPU(图形处理单元)计算。本书中设置的范例与练习也将带你快速了解CUDA的专业知识,助你早日达到专业水平!
本书写给谁本书适用于任何想要利用GPU计算能力来提高应用效率的人。它涵盖了CUDA C编程领域最前沿的技术,并有着以下突出的优势:
风格简洁描述透彻大量范例优质习题覆盖面广内容聚焦高性能计算的需求如果你是一个经验丰富的C程序员,并且想要通过学习CUDA C来提高高性能计算的专业才能,本书中建立在你现有知识之上的例题和习题,将使掌握CUDA C编程更加简单。仅需掌握一些C语言延伸的CUDA知识,你便可以从大量的并行硬件中获益。CUDA平台、编程模型、工具和库将使得异构架构编程变得简捷且高效。
如果你是计算机科学领域以外的专业人士,而且想要通过GPU上的并行编程来最大限度地提高工作效率,并提高应用性能,那么本书正是为你量身打造的。书中的阐述清晰而简明,专人精心设计的示例,使用配置文件驱动的方法,这些都将帮助你深入了解GPU编程并迅速掌握CUDA。
如果你是教授或任何学科的研究者,希望通过GPU计算推进科学发现和创新,本书中将有你找到解决方案的捷径。即使你没有多少编程经验,在并行计算概念和计算机科学的知识方面也不够精通,本书也可带你快速入门异构架构并行编程。
如果你是C语言初学者并且有兴趣探索异构编程,本书也完全适合你,因为它不强制要求读者有丰富的C语言编程经验。即使CUDA C和C语言使用相同的语法,二者的抽象概念和底层硬件也是全然不同的,因而对其中之一的经验并不足以使你在学习另一个时感到轻松。所以,只要你对异构编程有浓厚的兴趣,只要你乐于学习新事物且乐于尝试全新的思维方式,只要你对技术相关的话题有深入探索的热情,本书也完全适合你。
即使你有不少关于CUDA C的经验,本书还是有助于知识更新、探索新工具以及了解最新CUDA功能。虽然本书旨在从零开始培养CUDA的专业人才,但它也含有许多先进的CUDA概念、工具和框架的概述,它们将对CUDA开发人员大有裨益。
本书的内容本书讲解了CUDA C编程的基本概念与技术,用于大幅加速应用程序的性能,并包含了随着CUDA工具包6.0和NVIDIA Kepler GPU一起发布的最新功能。在对从同质架构到异构架构的并行编程模式转变进行了简要介绍之后,本书将引导你学习必要的CUDA编程技能和最佳的练习实践,包含但不仅限于CUDA编程模型、GPU执行模型、GPU内存模型、CUDA流和事件、多GPU编程的相关技术、CUDA感知MPI编程和NVIDIA开发工具。
本书采用一种独特的方法来教授CUDA知识,即将基础性的概念讲解与生动形象的示例相结合,这些示例使用配置文件驱动的方法来指导你实现最佳性能。我们对每一个主题都进行了详尽的讲解,清晰地展示出了采用代码示例形式详细操作的过程。书中不仅教授如何使用基于CUDA的工具,还介绍了如何以抽象编程模型为基础并凭借悟性与直觉对开发过程每一步骤的结果做出解释,从而帮助你快速掌握CUDA的开发流程。
每章围绕一个主题展开讲解,运用可行的代码示例来演示GPU编程的基本功能和技术,这之后就是我们精心设计的练习,以便你进一步探索加深理解。
所有的编程示例都是在装有CUDA 5.0(或更高版本)和Kepler或Fermi GPU的Linux系统上运行的。由于CUDA C是一种跨平台的语言,因而书中的示例在其他平台上也同样适用,比如嵌入式系统、平板电脑、笔记本电脑、个人电脑、工作站以及高性能计算服务器。许多OEM供应商支持各种类型的NVIDIA GPU。
本书的结构本书共有10章,包含了以下主题。
第1章:基于CUDA的异构并行计算本章首先简要介绍了使用GPU来完善CPU的异构架构,以及向异构并行编程进行的模式转变。
第2章:CUDA编程模型本章介绍了CUDA编程模型和CUDA程序的通用架构,从逻辑视角解释了在CUDA中的大规模并行计算:通过编程模型直观展示的两层线程层次结构。同时也探讨了线程配置启发性方法和它们对性能的影响。
第3章:CUDA执行模型本章通过研究成千上万的线程是如何在GPU中调度的,来探讨硬件层面的内核执行问题。解释了计算资源是如何在多粒度线程间分配的,也从硬件视角说明了它如何被用于指导内核设计,以及如何用配置文件驱动方法来开发和优化内核程序。另外,本章还结合示例阐述了CUDA的动态并行化和嵌套执行。
第4章:全局内存本章介绍了CUDA内存模型,探讨全局内存数据布局,并分析了全局内存的访问模式。本章介绍了各种内存访问模式的性能表现,阐述了统一内存和CUDA 6.0中的新功能是如何简化CUDA编程的,以及如何提高程序员工作效率。
第5章:共享内存和常量内存本章阐释了共享内存,即管理程序的低延迟缓存,是如何提高内核性能的。它描述了共享内存的优化数据布
|
|