新書推薦:
《
中文版SOLIDWORKS 2024机械设计从入门到精通(实战案例版)
》
售價:NT$
450.0
《
旷野人生:吉姆·罗杰斯的全球投资探险
》
售價:NT$
345.0
《
希腊人(伊恩·莫里斯文明史系列)
》
售價:NT$
845.0
《
世界巨变:严复的角色(王中江著作系列)
》
售價:NT$
500.0
《
宋初三先生集(中国思想史资料丛刊)
》
售價:NT$
990.0
《
天生坏种:罪犯与犯罪心理分析
》
售價:NT$
445.0
《
新能源材料
》
售價:NT$
290.0
《
传统文化有意思:古代发明了不起
》
售價:NT$
199.0
|
內容簡介: |
本书介绍了实现嵌入式深度学习的算法和硬件实现技术。作者描述了应用、算法、电路级的协同设计方法,这些方法有助于实现降低深度学习算法计算成本的目标。这些技术的影响显示在四个用于嵌入式深度学习的硅原型中。
|
目錄:
|
译者序前言致谢缩写词第1章 嵌入式深度神经网络 11.1 简介 11.2 机器学习 21.2.1 任务T 31.2.2 性能度量P 31.2.3 经验E 41.3 深度学习 41.3.1 深度前馈神经网络 61.3.2 卷积神经网络 81.3.3 循环神经网络 161.3.4 训练深度神经网络 181.4 嵌入式深度神经网络的挑战 251.5 本书创新点 27参考文献 29第2章 优化的层次级联处理 342.1 简介 342.2 层次级联系统 362.2.1 泛化的两级唤醒系统 362.2.2 层次化的代价、精度和召回率 372.2.3 层次化分类器的Roofline模型 402.2.4 优化的层次级联感知 422.3 概念的一般性证明 432.3.1 系统描述 432.3.2 输入统计 452.3.3 实验 462.3.4 本节小结 482.4 案例研究:基于CNN的层次化人脸识别 492.4.1 人脸识别的分层结构 492.4.2 层次化的代价、精度和召回率 512.4.3 优化的人脸识别分层结构 522.5 小结 55参考文献 56第3章 硬件–算法协同优化 583.1 简介 583.1.1 利用网络结构 593.1.2 增强并利用稀疏性 633.1.3 增强并利用容错性 643.2 低精度神经网络的能量增益 663.2.1 片外访存的能耗 673.2.2 硬件平台的一般性建模 683.3 测试时定点神经网络 693.3.1 分析和实验 703.3.2 量化对分类准确率的影响 703.3.3 稀疏FPNN的能耗 733.3.4 结果 753.3.5 讨论 763.4 训练时量化神经网络 773.4.1 训练QNN 783.4.2 QNN的能耗 813.4.3 实验 813.4.4 结果 843.4.5 讨论 883.5 聚类神经网络 883.6 小结 90参考文献 91第4章 近似计算的电路技术 954.1 近似计算范式简介 954.2 近似计算技术 984.2.1 容错分析与质量管理 984.2.2 近似电路 994.2.3 近似架构 1004.2.4 近似软件 1014.2.5 讨论 1024.3 DVAFS:动态电压精度频率调节 1024.3.1 DVAFS基础 1024.3.2 DVAFS的容错识别 1054.3.3 DVAFS的能量增益 1064.4 DVAFS的性能分析 1094.4.1 模块级的DVAFS 1094.4.2 系统级的DVAFS 1114.5 DVAFS实现的挑战 1154.5.1 基础DVA(F)S模块的功能实现 1154.5.2 基础DVA(F)S模块的物理实现 1174.6 小结和讨论 118参考文献 119第5章 Envision:能耗可调节的稀疏卷积神经网络处理 1225.1 神经网络加速 1225.2 针对嵌入式CNN的二维MAC处理器架构 1245.2.1 处理器数据通路 1255.2.2 片上存储架构 1285.2.3 利用网络稀疏性的硬件支持 1305.2.4 通过定制化指令集实现高能效的灵活性 1325.3 基于40nm CMOS的DVAS兼容的Envision处理器 1335.3.1 RTL级的硬件支持 1345.3.2 物理实现 1355.3.3 测量结果 1365.3.4 Envision V1回顾 1435.4 基于28nm FD-SOI的DVAFS兼容的Envision处理器 1445.4.1 RTL级硬件支持 1465.4.2 物理实现 1475.4.3 测量结果 1475.4.4 Envision V2回顾 1565.5 小结 157参考文献 158第6章 BinarEye: 常开的数字及混合信号二值神经网络处理 1606.1 二值神经网络 1606.1.1 简介 1606.1.2 二值神经网络层 1616.2 二值神经网络应用 1656.3 可编程的输入到标签的加速器架构 1676.3.1 256X:基础的BinaryNet计算架构 1696.3.2 SX:灵活的DVAFS BinaryNet计算架构 1786.4 MSBNN:混合信号的256X实现 1826.4.1 开关电容神经元阵列 1836.4.2 测量结果 1846.4.3 模拟信号通路代价 1886.5 BinarEye:数字的SX实现 1896.5.1 全数字的二值神经元 1896.5.2 物理实现 1906.5.3 测量结果 1906.5.4 BinarEye中的DVAFS 1946.5.5 与水平的对比 1956.6 数字与模拟二值神经网络的实现对比 1976.7 展望与未来工作 2006.8 小结 202参考文献 204第7章 结论、贡献和未来工作 2067.1 结论 2077.2 未来工作的建议 210参考文献 211索引 212
|
內容試閱:
|
尽管深度学习算法在许多典型的机器学习任务中都达到了的水平,但由于大量的计算和巨大的模型尺寸,深度学习算法在能耗方面的代价非常高。因此,在电池容量受限的可穿戴设备上运行的深度学习应用只能通过与资源丰富的云端无线连接实现。这种方案有一些缺点。首先,存在隐私问题。云计算要求用户与远程系统共享其原始数据—图像、视频、位置和语音。大多数用户都不愿意这样做。其次,云计算方案要求用户始终保持连接状态,在当前的蜂窝网络覆盖范围下这是不可行的。此外,实时应用需要低延迟的连接,而当前的通信基础设施无法保证这一点。后,无线连接的效率很低—在供能受限的平台上,每个待传输的信息位需要太多能量才能进行实时数据传输。所有这些问题(隐私、延迟、连接性以及昂贵的无线连接)都可以通过在边缘端实施计算来解决。寻找这一目标的实现方法是本书的主题。本书聚焦于使面向嵌入式应用的深度学习算法的能耗降至的技术,这些应用是运行在电池容量受限的可穿戴边缘设备上的。只有当这些深度学习算法在可穿戴设备的计算平台提供的能量和功率预算内以更高能效的方式运行时,才有可能进行边缘计算。为了实现这一目标,需要在应用的所有设计层次上进行多项创新。首先可以开发更智能的应用,以实现统计上更高效的深度学习算法,进而在基于专门定制的电路构建的优化硬件平台上运行。后,设计人员不应单独关注这些领域,而应协同优化硬件和软件,以建立能耗的深度学习平台。本书概述了设计此类系统可能的解决方案。比利时鲁汶大学 Bert Moons 美国加利福尼亚州斯坦福大学 Daniel Bankman 比利时鲁汶大学Marian Verhelst
|
|