新書推薦:
《
大学问·明清经济史讲稿
》
售價:NT$
330.0
《
中国国际法年刊(2023)
》
售價:NT$
539.0
《
实用对联大全
》
售價:NT$
225.0
《
想象欧洲丛书(7册)欧洲史
》
售價:NT$
1880.0
《
没有伞的孩子必须努力奔跑
》
售價:NT$
149.0
《
做最好的班主任(李镇西教育文集版)
》
售價:NT$
230.0
《
数据驱动法律
》
售價:NT$
390.0
《
对话世界一流大学图书馆馆长
》
售價:NT$
995.0
|
內容簡介: |
本书理论知识体系完备,由浅入深,系统性地介绍了深度学习模型的发展脉络,以及模型深度设计、模型宽度设计、模型通道维度设计、残差连接设计、分组卷积设计、多尺度与非正常卷积设计、多输入网络设计、时序神经网络设计、三维卷积网络设计、动态推理模型与注意力机制设计、生成对抗网络设计这10类主流的深度学习模型设计思想。同时,本书为各模型设计思想提供了大量的实例,供读者实战演练。
|
關於作者: |
言有三,先后就读于华中科技大学,中国科学院,先后就职于奇虎360AI研究院,陌陌深度学习实验室,6年计算机视觉从业经验,拥有丰富的传统图像算法和深度学习图像项目经验,拥有技术公众号《与有三学AI》,摄影公众号《有三工作室》,曾在gitchat等平台开设过《AI 程序员码说摄影图像基础》,《AI 图像识别项目从入门到上线》图文课程并开设过《caffe图像分割实战》,《深度学习与人脸图像应用》视频课程。
|
目錄:
|
第1章 神经网络和计算机视觉基础 1
1.1 计算机视觉 1
1.1.1 研究视觉的重要性 1
1.1.2 生物学视觉原理与视觉分层理论 2
1.2 数字图像基础 3
1.2.1 数字图像基础概述 3
1.2.4 数字图像处理基础 7
1.3 神经网络基础 11
1.3.1 生物神经元与人工神经网络 12
1.3.2 感知机是神经网络吗 12
1.3.3 BP算法 16
第2章 深度学习的基础 20
2.1 全连接神经网络的局限性 20
2.1.1 学习原理的缺陷 20
2.1.2 全连接神经网络的结构缺陷 21
2.1.3 高性能的传统机器学习算法 22
2.2 深度学习第三次复兴简史 22
2.2.1 互联网与大数据来了 23
2.2.2 GPU的普及 23
2.2.3 深层神经网络华丽归来 24
2.2.4 语音识别的重大突破 25
2.2.4 图像识别的重大突破 26
2.2.5 自然语言处理的重大突破 28
2.3 卷积神经网络基础 29
2.3.1 卷积操作 29
2.3.2 反卷积操作 30
2.3.3 卷积神经网络基本概念 31
2.3.4 卷积神经网络的核心思想 33
2.3.5 卷积神经网络的基本结构配置 33
2.4 深度学习优化基础 37
2.4.1 激活模型与常用激活函数 38
2.4.2 参数初始化方法 43
2.4.3 归一化方法 45
2.4.4 池化 49
2.4.5 最优化方法 50
2.4.6 学习率策略 54
2.4.7 正则化方法 57
2.5 深度学习主流开源框架 60
2.5.1 Caffe 60
2.5.2 TensorFlow 61
2.5.3 Pytorch 61
2.5.4 Theano 62
2.5.5 Keras 62
2.5.6 MXNet 63
2.5.7 Chainer 63
参考文献 64
第3章 数据集、评测指标与优化目标 66
3.1 数据集 66
3.1.1 分类数据集MNIST 66
3.1.2 ImageNet 66
3.1.3 分类数据集GHIM-10k 67
3.1.4 分类数据集Place20 67
3.1.5 肖像分割数据集 68
3.1.6 视频分类数据集UCF101 68
3.1.7 目标跟踪数据集ImageNet VIDEO 68
3.2 评测指标 69
3.2.1 分类评测指标 69
3.2.2 检索与回归评测指标 73
3.2.3 图像生成评测指标 75
3.3 优化目标 76
3.3.1 分类任务损失 76
3.3.2 回归任务损失 78
参考文献 80
第4章 加深网络,提升模型性能 81
4.1 经典的浅层卷积神经网络 81
4.1.1 Neocognitron网络 81
4.1.2 TDNN 83
4.1.3 Cresceptron网络 83
4.1.4 LeNet系列 84
4.2 经典网络的深度设计 87
4.2.1 AlexNet 87
4.2.2 从AlexNet到VGGNet的升级 90
4.2.3 为什么需要更深的网络 93
4.3 实验:网络深度对分类模型性能的影响 94
4.3.1 基准模型 94
4.3.2 不同学习率策略与优化方法 96
4.3.3 标准卷积模型网络深度影响实验 104
4.3.4 MobileNet网络深度影响实验 111
4.3.5 总结 113
参考文献 114
第5章 11卷积,通道维度升降的利器 115
5.1 特征通道与信息融合 115
5.1.1 通道内特征能做什么 115
5.1.2 通道间特征能做什么 116
5.2 11卷积及其应用 117
5.2.1 什么是11卷积 117
5.2.2 11卷积与瓶颈结构 117
5.2.3 11卷积与SqueezeNet 118
5.3 11卷积在瓶颈结构中的作用 120
5.3.1 基准模型 120
5.3.2 瓶颈结构探索 126
5.3.3 训练结果 143
5.4 11卷积在增强网络表达能力中的作用 145
5.4.1 基准模型 145
5.4.2 网络配置 146
5.4.3 实验结果 146
参考文献 148
第6章 加宽网络,提升模型性能 149
6.1 为什么需要更宽的网络结构 149
6.2 经典模型的网络宽度设计思想 149
6.2.1 调整通道数量 150
6.2.2 多分支网络结构设计 152
6.2.3 通道补偿技术 154
6.3 实验:网络宽度对模型性能的影响 155
6.3.1 实验背景 155
6.3.2 训练结果 161
6.3.3 总结 166
参考文献 166
第7章 残差连接,深层网络收敛的关键 167
7.1 残差连接 167
7.1.1 什么是残差连接 167
7.1.2 为什么残差连接有效 169
7.2 残差网络结构发展和应用 171
7.2.1 密集连接的残差网络结构 171
7.2.2 多分支残差结构 173
7.2.3 残差连接与多尺度信息融合 174
7.3 跳层连接在图像分割中的应用 175
7.3.1 数据集与基准模型 175
7.3.2 Allconv5_SEG实验 184
7.3.3 增加跳层连接 186
参考文献 199
第8章 分组卷积与卷积拆分,移动端高效率经典模型 201
8.1 卷积拆分与分组卷积 201
8.1.1 卷积拆分 201
8.1.2 分组卷积 201
8.2 分组卷积结构 202
8.2.1 简单的通道分组网络 203
8.2.2 级连通道分组网络 204
8.2.3 多分辨率卷积核通道分组网络 205
8.2.4 多尺度通道分组网络 206
8.2.5 多精度通道分组网络 207
8.3 训练一个用于图像分割的实时分组网络 208
8.3.1 项目背景 208
8.3.2 嘴唇分割模型训练 208
8.3.3 嘴唇分割模型优化 212
参考文献 219
第9章 多尺度网络与非正常卷积,更丰富的感受野与不变性 221
9.1 目标常见变换与不变性 221
9.1.1 常见变换 221
9.1.2 从模型本身获取不变性 221
9.1.3 从数据中学习不变性 223
9.2 多尺度网络结构 224
9.2.1 图像金字塔 224
9.2.2 多尺度网络 225
9.3 非正常卷积网络结构 228
9.3.1 带孔卷积 228
9.3.2 可变形卷积 229
9.3.3 非局部卷积 230
9.4 STN在可变形手写数字中的应用 232
9.4.1 项目背景 232
9.4.2 STN实验 233
参考文献 237
第10章 多输入网络,图像检索和排序的基准模型 238
10.1 什么时候需要多个输入 238
10.1.1 图像检索 238
10.1.2 目标跟踪 239
10.1.3 相对排序 239
10.2 常见多输入网络 240
10.2.1 Siamese网络 240
10.2.2 Triplet网络 241
10.3 目标跟踪Siamese网络实战 242
10.3.1 网络结构 242
10.3.2 数据读取 244
10.3.3 损失函数和评估指标 247
10.3.4 模型训练 248
10.3.5 模型测试 249
参考文献 254
第11章 时序神经网络,有记忆的网络更聪明 255
11.1 单向RNN和双向RNN 255
11.1.1 RNN 255
11.1.2 双向RNN 257
11.2 LSTM 258
11.3 LSTM视频分类实践 260
11.3.1 数据准备 260
11.3.2 数据读取 260
11.3.3 网络定义 264
11.3.4 模型训练结果 269
11.3.5 总结 270
第12章 卷积从二维变成三维,实现升维打击 271
12.1 三维卷积 271
12.2 三维卷积的应用 272
12.2.1 分类任务 272
12.2.2 图像分割 274
12.3 一个用于视频分类的三维卷积网络 274
12.3.1 基准模型与数据集 275
12.3.2 数据读取 278
12.3.3 训练结果 280
12.3.4 参数调试 281
12.3.5 总结 283
参考文献 283
第13章 动态推理与注意力机制,网络因样本而异 284
13.1 拓扑结构动态变化的网络 284
13.1.1 训练时拓扑结构变化的网络 284
13.1.2 测试时拓扑结构变化的网络 285
13.2 注意力机制 288
13.2.1 空间注意力模型 289
13.2.2 通道注意力模型[9] 289
13.2.3 混合注意力模型 290
13.3 基于提前退出机制的BranchyNet分类实战 291
13.3.1 背景 291
13.3.2 模型定义 292
13.3.3 实验结果 302
参考文献 305
第14章 生成对抗网络 306
14.1 生成对抗网络的基本原理 306
14.1.1 生成式模型与判别式模型 306
14.1.2 GAN简介 307
14.2 生成对抗网络损失的发展 308
14.2.1 GAN的损失函数问题 308
14.2.2 GAN的损失函数改进 309
14.3 生成对抗网络结构的发展 310
14.3.1 条件GAN 310
14.3.2 多尺度级连GAN 311
14.3.3 多判别器单生成器GAN 312
14.3.4 多生成器单判别器GAN 313
14.3.5 多生成器多判别器GAN 313
14.4 DCGAN图像生成实战 314
14.4.1 项目背景 314
14.4.2 项目解读 315
14.4.3 实验结果 319
参考文献 321
|
內容試閱:
|
为什么要写这本书
近10年,以深度学习为代表的机器学习技术在图像处理、语音识别、自然语言处理等领域取得了非常多的突破,这离不开深度学习模型结构设计,尤其是深度卷积神经网络结构的发展。
早期,以AlexNet和VGGNet为代表的模型结构设计往往在提升深度和宽度上做努力,这提升了模型在图像分类等基础任务上的性能,但一味地加深加宽网络并不能持续提高模型的性能,甚至会面临因优化困难而导致模型性能下降的问题。随后,以跳层连接为核心思想的残差网络模型在工业界和学术界取得了成功,成了更好的基础模型,被广泛应用于各类任务。
移动端对于模型的体积和运行速度非常敏感,以MobileNet为代表的分组卷积模型和以11卷积为核心的维度变换技术在模型压缩应用中占据了非常重要的位置。为了节约计算,研究者们还提出了对不同难度的输入样本动态调整结构的新奇设计思想。
为了提高对不同尺度目标的检测能力,多尺度设计和非正常卷积被广泛研究,每个从事相关研究的技术人员都掌握这些知识。
这几年,生成对抗网络从学术界走向了工业界,不仅带来了很多新的研究领域和应用,还被用于许多基础任务辅助提升相关模型的性能。
另外,多输入网络、三维卷积、时序网络等在各自的领域都发挥着重要作用。
如何系统性地了解深度学习模型的发展,同时紧随理论进行全面的实践,这是笔者一直研究的问题,也是本书要解决的问题。
关于本书作者
本书作者龙鹏,笔名言有三,毕业于中国科学院,有超过5年的深度学习领域从业经验,以及超过6年的计算机视觉从业经验,创办了微信公众号《有三AI》和知识星球《有三AI》等知识生态,目前已经全职做内容输出,于2019年花费大半年时间总结多年的知识积累和深度学习项目经验并撰写了这本书。
本书聚焦于深度学习模型设计问题,在本书出版之前,笔者在所维护的微信公众号、知乎、阿里天池、知识星球等平台做出了很多的分享,本书可以作为对这些分享的一个更加系统的总结。读者也可以持续关注笔者的以上平台,获取更新的知识。
因受笔者水平和成书时间所限,本书难免存有疏漏和错误之处,敬请大家关注我们的内容生态,并沟通指正。
本书特色
1.循序渐进,内容系统
本书首先从计算机视觉、图像处理的背景和基础理论开始介绍,然后过渡到深度学习基础。在介绍深度学习模型设计的内容时,笔者首先针对深度学习模型的深度、宽度等基础维度分章节进行了深刻的原理分析和实践。随后对于性能优良的残差网络、移动端高效的分组网络、各类任务中常见的多尺度和非规则卷积技术进行了介绍,并对多输入网络、时序网络、三维卷积、动态变化的网络、生成对抗网络等各类模型进行了原理介绍和实践,覆盖了大量应用场景。本书内容由浅入深,适合系统性进阶学习。
2.内容全面与前沿
本书共14章,其中第4~14章针对深度学习模型中的各类设计思想进行了详细的介绍,时间跨度长达数十年,覆盖了从卷积神经网络的诞生到学术界和工业界的最新发展等内容。当然由于篇幅有限,本书还未包含自动化模型设计及图神经网络等内容,这些将在本书的后续版本及模型优化进阶书籍中进行介绍。
3.理论与实践紧密结合
本书完整剖析了深度学习模型设计技术,对应章节不停留于理论的阐述和简单的结果展示,而是从夯实理论到完成实战一气呵成。相信跟随本书进行学习,通过笔者对深度学习模型的介绍和设计,读者一定会受益匪浅。
本书内容及体系结构
第1章神经网络和计算机视觉基础:对计算机视觉基础、神经网络的核心概念进行了简单介绍,这是全书的基础。
第2章深度学习的基础:简单介绍了全连接神经网络的局限性和深度学习带来的突破,重点介绍了深度学习中的优化方法,包括激活函数、正则化方法、归一化方法、优化方法等,旨在让读者掌握深度卷积神经网络中的优化基础内容。
第3章数据集、评测指标与优化目标:对本书中频繁使用的数据集和评测指标进行了集中介绍,它使本书更加精简、结构清晰。
第4章加深网络,提升模型性能:回顾了经典的浅层卷积神经网络Neocognitron,TDNN 及LeNet系列,介绍了AlexNet和以VGGNet为代表的网络在提升模型深度后带来的模型性能提升,探索了需要更深的网络结构的原因,从理论和实践分析了网络的深度对模型性能的影响。
第5章11卷积,通道维度升降的利器:讨论了特征通道的信息融合方式,详细介绍了以11卷积为核心的维度变换技术在模型压缩中的应用,实践分析了11卷积在瓶颈结构设计和提升模型表达能力中的应用。
第6章加宽网络,提升模型性能:介绍了需要更宽的网络结构的原因,总结了经典模型的宽度设计思想,从理论和实践分析了网络宽度对模型性能的影响。
第7章残差连接,深层网络收敛的关键:介绍了残差连接的基本结构和历史由来,探索了残差网络有效性的原理,总结了残差网络的主要结构演变,实践分析了它在图像分割任务中的作用。
第8章分组卷积与卷积拆分,移动端高效率经典模型:介绍了通道分组与卷积拆分的思想,总结了分组网络的各类结构演变,实践了分组卷积在高效模型设计中的应用。
第9章多尺度网络与非正常卷积,更丰富的感受野与不变性:介绍了目标的常见变换及获取不变性的方法,总结了常见的多尺度设计和带孔卷积、可变形卷积等非规则的卷积设计思想,实践分析了空间变换网络对各种变换的学习能力。
第10章多输入网络,图像检索和排序的基准模型:分析了多输入网络的应用场景,介绍了其中常见的多输入结构,实践了多输入模型在目标跟踪中的应用。
第11章时序神经网络,有记忆的网络更聪明:介绍了常见的时序模型,包括单向和双向的RNN模型、LSTM模型,对其在视频分类中的应用进行了实践。
第12章卷积从二维变成三维,实现升维打击:介绍了三维卷积的基本原理及其在视频分类和三维医学图像中的应用,使用三维卷积完成了一个视频分类任务。
第13章动态推理与注意力机制,网络因样本而异:介绍了在训练和推理过程中拓扑结构会动态变化的网络结构,介绍了注意力机制网络,实践分析了动态推理网络BranchyNet在节省模型计算量任务中的表现。
第14章生成对抗网络:生成对抗网络是近几年深度学习领域的重要新进展,本章介绍了生成对抗网络的基本原理,阐述了生成对抗网络的优化目标、模型结构发展,并对图像生成任务进行了简单实践。
本书读者对象
本书是一本专门介绍深度学习模型,尤其是深度卷积神经网络在计算机视觉领域应用的书籍,因此对读者的基础有一定的要求。
首先,读者必须要具备基本的数学知识,包括概率论、最优化理论等。
其次,读者需要具备基本的传统数字图像处理知识和计算机视觉理论知识。
最后,读者需要具备Python等编程能力,掌握Caffe、TensorFlow、Pytorch等主流的深度学习框架。
本书适合以下读者:
学习深度学习相关技术的学生;
讲授深度学习理论和实践课程的老师、培训机构;
从事或即将从事深度学习相关工作的研究人员和工程师;
对深度学习模型的整个发展脉络和核心设计思想感兴趣,想系统性了解和学习的各行业人员。
致谢
虽然笔者独立完成了本书的写作,但在这个过程中也得到了一些帮助。
感谢电子工业出版社的米俊萍编辑的信任,联系我写作本书,并在后续的编辑校稿过程中做了大量工作。
感谢有三AI公众号和有三AI知识星球的忠实读者们,是你们的阅读和付费支持让我有了继续前行的力量。
感谢本书中GitHub开源项目的贡献者,是你们无私的技术分享,让更多人因此受益,这是这个技术时代最伟大的事情。感谢前赴后继提出书中各种方法的研究人员,因为你们的辛苦付出才有了本书的内容。
感谢我的家人的宽容,因为事业,给你们的时间很少,希望以后会做得更好。
有三
于北京
2019年12月31日
|
|