登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入 新註冊 | 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / EMS,時效:出貨後2-3日

2024年08月出版新書

2024年07月出版新書

2024年06月出版新書

2024年05月出版新書

2024年04月出版新書

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

2023年09月出版新書

2023年08月出版新書

2023年07月出版新書

『簡體書』算力芯片——高性能 CPU/GPU/NPU 微架构分析

書城自編碼: 4017478
分類: 簡體書→大陸圖書→計算機/網絡數據庫
作者: 濮元恺
國際書號(ISBN): 9787121483790
出版社: 电子工业出版社
出版日期: 2024-08-01

頁數/字數: /
釘裝: 平塑勒单衬

售價:NT$ 671

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
《你的名字。》美术画集
《 《你的名字。》美术画集 》

售價:NT$ 562.0
北齐书(点校本二十四史修订本  全2册)
《 北齐书(点校本二十四史修订本 全2册) 》

售價:NT$ 770.0
美丽的地球:高山(呈现世界70余座宏伟高山,感受世界的起伏)
《 美丽的地球:高山(呈现世界70余座宏伟高山,感受世界的起伏) 》

售價:NT$ 510.0
下一个风口:新质生产力驱动下的科创投资逻辑
《 下一个风口:新质生产力驱动下的科创投资逻辑 》

售價:NT$ 364.0
傻钱:社交浪潮与散户革命
《 傻钱:社交浪潮与散户革命 》

售價:NT$ 354.0
猎头高情商沟通实务
《 猎头高情商沟通实务 》

售價:NT$ 255.0
桃花夭夭,灼一世芳华:古代蕙心女子的诗情词韵
《 桃花夭夭,灼一世芳华:古代蕙心女子的诗情词韵 》

售價:NT$ 218.0
生活在低处
《 生活在低处 》

售價:NT$ 291.0

內容簡介:
本书介绍了超级计算机算力和AI算力的异同,从CPU流水线开始,描述主要的众核处理器架构和功能部件设计。在GPU和NPU等加速器部分,介绍了GPU为何能从单纯的图形任务处理器变成通用处理器。GPU在设计逻辑、存储体系、线程管理,以及面向AI的张量处理器方面成为最近几年全世界科技行业最瞩目的明星。本书对华为等厂商推出的NPU芯片设计也做了架构描述,中国也拥有独立自主知识产权的高算力芯片,并且支持多芯片、高带宽互连。本书也回顾了近20年来主流的CPU、GPU芯片架构的特点,介绍了存储与互连总线技术,即大模型专用AI超级计算机的中枢核心。
關於作者:
濮元恺,曾就职于中关村在线核心硬件事业部,负责CPU和GPU类产品评测,长期关注GPGPU并行计算相关芯片微架构。目前在量化金融领域,主要负责机器学习多因子模型开发工作,是高性能计算的密集应用行业。
目錄
目 录
第1章 从TOP500和MLPerf看算力芯片格局1
1.1 科学算力最前沿TOP5001
1.1.1 TOP500的测试方式HPL3
1.1.2 TOP500与算力芯片行业发展5
1.2 AI算力新标准MLPerf9
第2章 高性能CPU流水线概览14
2.1 什么是指令14
指令集的设计哲学14
2.2 流水线与MIPS17
2.2.1 经典5级流水线概述18
2.2.2 超流水线及其挑战21
2.3 分支预测25
2.3.1 先进分支预测之“感知机分支预测器”29
2.3.2 先进分支预测之“TAGE分支预测器”31
2.4 指令缓存体系33
2.5 译码单元37
2.6 数据缓存39
2.6.1 多级缓存的数据包含策略41
2.6.2 缓存映射关系42
2.6.3 受害者缓存45
2.6.4 写入策略与一致性协议47
2.7 TLB(旁路快表缓冲)49
2.8 乱序执行引擎52
2.8.1 指令相关的解决方案53
2.8.2 寄存器重命名55
2.8.3 指令提交与ROB单元57
2.8.4 发射队列59
2.8.5 数据旁路65
2.9 超线程技术66
第3章 缓存硬件结构71
3.1 DRAM与SRAM设计取舍71
3.2 DRAM读写过程72
3.3 SRAM读写过程(以6T SRAM为例)74
3.4 Intel对8T SRAM的探索76
3.5 不同规格SRAM物理特性78
3.6 非一致性缓存架构79
第4章 CPU计算单元设计82
4.1 计算单元逻辑构成82
4.2 整数和浮点数的差异83
4.3 算术逻辑单元84
4.3.1 ALU加法器与减法器85
4.3.2 ALU比较单元和位移单元85
4.3.3 ALU乘法器与除法器86
4.4 浮点数单元87
4.4.1 浮点加法器与减法器88
4.4.2 浮点乘法器与除法器91
4.5 指令的加载和存储单元93
4.6 单指令多数据95
4.6.1 MMX指令集97
4.6.2 3DNow!指令集101
4.6.3 SSE指令集及其扩展指令集102
4.6.4 AVX指令集及其扩展指令集104
4.6.5 AVX-512指令集与下一代AVX10指令集105
4.6.6 对AVX指令集的间接实施112
4.7 矩阵加速指令集113
4.8 ARM SVE指令集115
第5章 逻辑拓扑结构120
5.1 环形拓扑方式120
5.2 Infinity Fabric拓扑方式124
5.3 网格拓扑方式129
5.4 片上网络(NoC)133
5.4.1 NoC分析重点135
5.4.2 NoC高速发展的原因136
5.4.3 常见NoC拓扑结构及特性136
5.4.4 拓扑结构指标参数139
5.4.5 拓扑结构改进案例140
5.4.6 路由器微架构设计142
5.5 近存计算拓扑特性144
5.5.1 IPU芯片145
5.5.2 WSE芯片147
5.6 单芯片UMA与NUMA151
第6章 经典算力CPU芯片解读155
6.1 申威处理器155
6.1.1 SW26010单芯片设计155
6.1.2 “神威 太湖之光”系统设计157
6.1.3 SW26010对比CPU+协处理器方案158
6.1.4 针对SW26010的OpenCL编译系统设计159
6.1.5 SW26010后期迭代161
6.2 富士通A64FX处理器162
A64FX指令流水线设计163
6.3 苹果M1处理器165
6.3.1 SoC模块化设计166
6.3.2 高性能核心流水线设计167
6.3.3 计算单元资源168
6.3.4 UltraFusion芯片扩展169
6.4 Ampere处理器171
6.4.1 Ampere Altra171
6.4.2 AmpereOne174
6.5 IBM POWER处理器177
6.5.1 POWER9架构设计179
6.5.2 POWER9拓扑技术181
6.5.3 POWER10架构分析183
6.5.4 POWER10拓扑技术183
6.5.5 POWER10 SIMD单元改进与MMA加速器186
6.6 EPYC 9004处理器187
6.6.1 Zen微架构介绍187
6.6.2 EPYC处理器设计200
6.6.3 Zen4c小核心设计策略202
6.7 Sapphire Rapids微架构Xeon处理器205
6.7.1 EMIB封装206
6.7.2 Golden Cove微架构209
6.7.3 其他硬件加速单元——Intel IAA存内分析加速器211
6.7.4 其他硬件加速单元——Intel DSA数据流加速器212
6.7.5 Intel QAT数据保护与压缩加速技术213
6.7.6 Intel DLB动态负载均衡器215
6.8 Tesla Dojo超级计算机和D1处理器217
6.8.1 D1芯片微架构218
6.8.2 训练瓦片和存储资源220
6.8.3 丰富的低精度数据类型221
6.8.4 设计独特性与思考223
第7章 从图形到计算的GPU架构演进224
7.1 GPU图形计算发展224
7.1.1 从三角形开始的几何阶段224
7.1.2 光栅化衔接3D和2D世界227
7.1.3 像素着色阶段228
7.1.4 DirectX API推动GPU演进229
7.2 GPGPU 指令流水线233
7.2.1 取指阶段234
7.2.2 译码阶段235
7.2.3 发射阶段238
7.2.4 执行阶段240
7.2.5 写回阶段242
第8章 GPGPU存储体系与线程管理245
8.1 GPGPU多级别存储体系245
8.1.1 大容量寄存器与倒金字塔结构248
8.1.2 不同时代NVIDIA GPU片上存储器容量250
8.1.3 GPGPU存储组织模式之合并访存253
8.1.4 GPGPU存储组织模式之板块冲突255
8.2 GPGPU线程管理258
8.2.1 GPU线程定义259
8.2.2 线程束宽度261
8.2.3 线程调度和管理265
8.2.4 线程块在线程管理中的作用268
8.2.5 SIMT堆栈与Volta架构对线程管理的改进270
8.2.6 Cooperative Group275
8.2.7 Hopper架构对线程管理的改进278
8.3 通用矩阵乘法与AI类任务279
8.3.1 利用线程块优化矩阵计算280
8.3.2 通过流实现任务级并行281
8.4 VLIW指令结构在GPU中的应用历史283
第9章 张量处理器设计287
9.1 张量的定义287
9.2 脉动阵列计算单元288
9.2.1 谷歌TPU处理器291
9.2.2 TPU v4芯片概览293
9.2.3 自研光学芯片用于TPU节点拓扑295
9.3 Volta架构引入张量核心298
9.3.1 张量核心设计细节298
9.3.2 张量核心数据加载与指令编译303
9.3.3 矩阵乘法访存优势与数据布局306
9.3.4 Ampere架构引入稀疏性张量加速308
9.3.5 Hopper架构改进张量内存加速器311
9.3.6 低精度性能增益313
9.4 华为 N腾Ascend 910 NPU芯片315
9.4.1 达芬奇架构AI Core分析316
9.4.2 拓扑互连能力319
9.4.3 CANN与AI框架MindSpore321
第10章 经典GPU算力芯片解读324
10.1 NVIDIA GPU芯片324
10.1.1 G80架构324
10.1.2 GT200架构326
10.1.3 Fermi架构329
10.1.4 Kepler架构333
10.1.5 Maxwell架构337
10.1.6 Pascal架构338
10.1.7 Volta架构340
10.1.8 Turing架构343
10.1.9 Ampere架构345
10.1.10 Hopper架构351
10.2 AMD GPU芯片357
10.2.1 TeraScale架构357
10.2.2 GCN架构364
10.2.3 RDNA架构371
10.3 Intel Xe GPU架构386
10.3.1 x86指令集Larrabee GPGPU386
10.3.2 Xe-core高端核心与EU低端核心389
10.3.3 子片和扩展结构395
10.3.4 超大芯片Ponte Vecchio396
第11章 存储与互连总线技术400
11.1 从DDR到HBM400
11.1.1 为更高带宽持续改进——GDDR400
11.1.2 新封装方式——HBM405
11.2 PCI Express总线概况407
11.2.1 由需求驱动的PCIe总线发展历程408
11.2.2 PCIe物理和数据链路层技术概览411
11.3 CXL扩展技术414
11.3.1 CXL的3个子协议416
11.3.2 CXL 2.0主要特性:内存池化417
11.3.3 CXL 3.0主要特性:内存共享、多级拓扑418
11.3.4 CXL协议细节419
11.3.5 CXL延迟拆解421
11.4 NVLink互连技术与GPU超级计算机424
11.4.1 Pascal架构第一代NVLink424
11.4.2 Volta架构第二代NVLink428
11.4.3 Ampere架构第三代NVLink429
11.4.4 Hopper架构第四代NVLink429
11.4.5 Grace Hopper超级芯片432

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.