新書推薦:
《
组队:超级个体时代的协作方式
》
售價:NT$
352.0
《
第十三位陪审员
》
售價:NT$
245.0
《
微观经济学(第三版)【2024诺贝尔经济学奖获奖者作品】
》
售價:NT$
709.0
《
Python贝叶斯深度学习
》
售價:NT$
407.0
《
文本的密码:社会语境中的宋代文学
》
售價:NT$
306.0
《
启微·狂骉年代:西洋赛马在中国
》
售價:NT$
357.0
《
有趣的中国古建筑
》
售價:NT$
305.0
《
十一年夏至
》
售價:NT$
347.0
|
編輯推薦: |
《深度学习、优化与识别》的特色
深度学习是计算机科学与人工智能的重要组成部分。全书16章,分为理论与实践应用两部分,同时介绍5种深度学习主流平台的特性与应用,*后给出了深度学习的前沿进展介绍,另附带47种相关网络模型的实现代码。本书具有以下的特点:
一、内容系统全面
全书16章,覆盖了深度学习当前出现的诸多经典框架或模型,分为两个部分。*部分系统地从数据、模型、优化目标函数和求解等四个方面论述了深度学习的理论及算法,如卷积神经网络、深度生成模型等;第二部分基于5种主流的深度学习平台给出了深度网络在自然图像、卫星遥感影像等领域的应用,如分类、变化检测、目标检测与识别等任务。另外给出了深度学习发展的脉络图及*研究进展,提供可基于5种平台实现的47中深度网络代码,以便有兴趣的读者进一步钻研探索。
二、叙述立场客观
作为深度学习的入门教材,尽可能不带偏见地对材料进行分析、加工以及客观介绍。本书理论部分均从模型产生的本源来介绍,并给出各个经典模型之间内在的相互联系。本书实践应用部分对相关任务做了详尽的分析,并给出深度学习应用实践的经验总结。
三、设计装帧精美
该书设计人性化,文字、
|
內容簡介: |
深度神经网络是近年来受到广泛关注的研究方向,它已成为人工智能2.0的主要组成部分。本书系统地论述了深度神经网络基本理论、算法及应用。全书共16章,分为两个部分;*部分(第1章~10章)系统论述了理论及算法,包括深度前馈神经网络、深度卷积神经网络、深度堆栈神经网络、深度递归神经网络、深度生成网络、深度融合网络等;第二部分(第11~15章)论述了常用的深度学习平台,以及在高光谱图像、自然图像、SAR与极化SAR影像等领域的应用;第16章为总结与展望,给出了深度学习发展的历史图、前沿方向及*进展。每章都附有相关阅读材料及仿真代码,以便有兴趣的读者进一步钻研探索。
本书可为高等院校计算机科学、电子科学与技术、信息科学、控制科学与工程、人工智能等领域的研究人员提供参考,以及作为相关专业本科生及研究生教学参考书,同时可供深度学习及其应用感兴趣的研究人员和工程技术人员参考。
|
關於作者: |
焦李成,男,汉族,1959年10月生,1992年起任西安电子科技大学教授。现任智能感知与计算国际联合研究中心主任、智能感知与图像理解教育部重点实验室主任、智能感知与计算国际合作联合实验室主任、智能信息处理科学与技术高等学校学科创新引智基地(111计划)主任、教育部科技委国际合作部学部委员、中国人工智能学会副理事长、IET西安分会主席、IEEE西安分会奖励委员会主席、IEEE计算智能协会西安分会主席、IEEE GRSS西安分会主席,IEEE TGRS副主编、教育部创新团队首席专家。国务院学位委员会学科评议组成员、教育部本科教学水平评估专家。1991年被批准为享受国务院政府津贴的专家,1996年首批入选国家百千万人才工程(第一、二层次)。当选为全国模范教师、陕西省师德标兵和曾任第八届全国人大代表。
焦李成教授的主要研究方向为智能感知与计算、图像理解与目标识别、深度学习与类脑计算,培养的十余名博士获全国优秀博士学位论文奖、提名奖及陕西省优秀博士论文奖。研究成果获包括国家自然科学奖二等奖及省部级一等奖以上科技奖励十余项,出版学术专著十余部,五次获国家优秀科技图书奖励及全国首届三个一百优秀图书奖。所发表的论著被他人引用超过25000余篇次,H指数为65。
焦李成,男,汉族,1959年10月生,1992年起任西安电子科技大学教授。现任智能感知与计算国际联合研究中心主任、智能感知与图像理解教育部重点实验室主任、智能感知与计算国际合作联合实验室主任、智能信息处理科学与技术高等学校学科创新引智基地(111计划)主任、教育部科技委国际合作部学部委员、中国人工智能学会副理事长、IET西安分会主席、IEEE西安分会奖励委员会主席、IEEE计算智能协会西安分会主席、IEEE GRSS西安分会主席,IEEE TGRS副主编、教育部创新团队首席专家。国务院学位委员会学科评议组成员、教育部本科教学水平评估专家。1991年被批准为享受国务院政府津贴的专家,1996年首批入选国家百千万人才工程(第一、二层次)。当选为全国模范教师、陕西省师德标兵和曾任第八届全国人大代表。
焦李成教授的主要研究方向为智能感知与计算、图像理解与目标识别、深度学习与类脑计算,培养的十余名博士获全国优秀博士学位论文奖、提名奖及陕西省优秀博士论文奖。研究成果获包括国家自然科学奖二等奖及省部级一等奖以上科技奖励十余项,出版学术专著十余部,五次获国家优秀科技图书奖励及全国首届三个一百优秀图书奖。所发表的论著被他人引用超过25000余篇次,H指数为65。
焦李成,男,1959年10月生, 西安电子科技大学教授、博导,智能感知与图像理解教育部重点实验室主任、国际智能感知与计算研究中心主任、国家"111"计划创新引智基地负责人、教育部长江学者创新团队首席专家。担任国务院学位委员会学科评议组成员、教育部本科教学水平评估专家、国家自然科学基金委员会信息学部会审专家、国家博士后管理委会专家评审委员会专家。兼任中国人工智能学会副理事长、中国电子学会监事、IET西安分会主席,IEEE西安分会奖励委员会主席、IEEE 计算智能学会西安chapter主席。主要研究领域为非线性信号与图像处理,自然计算和智能信息处理,发表专著10余部,在国内外刊物上发表论文200余篇,获国家发明专利授权50余项,研究成果获2013年国家自然科学奖。1992年起享受国务院政府特殊津贴,首批入选国家百千万人才工程(第一、二层次)和陕西省首批三五人才第一层次,荣获中国青年科技奖、陕西省有突出贡献的专家、陕西省师德标兵等称号,为全国百篇优秀博士学位论文指导教师。2014年荣获全国模范教师称号。
|
目錄:
|
第1章深度学习基础1
1.1 数学基础2
1.1.1 矩阵论2
1.1.2 概率论3
1.1.3 优化分析5
1.1.4 框架分析6
1.2 稀疏表示8
1.2.1 稀疏表示初步8
1.2.2 稀疏模型20
1.2.3 稀疏认知学习、计算与识别的范式24
1.3 机器学习与神经网络31
1.3.1 机器学习31
1.3.2 神经网络36
参考文献38
第2章深度前馈神经网络41
2.1 神经元的生物机理42
2.1.1 生物机理42
2.1.2 单隐层前馈神经网络43
2.2 多隐层前馈神经网络45
2.3 反向传播算法47
2.4 深度前馈神经网络的学习范式48
参考文献51
第3章深度卷积神经网络54
3.1 卷积神经网络的生物机理及数学刻画55
3.1.1 生物机理55
3.1.2 卷积流的数学刻画56
3.2 深度卷积神经网络61
3.2.1 典型网络模型与框架61
3.2.2 学习算法及训练策略69
3.2.3 模型的优缺点分析71
3.3 深度反卷积神经网络73
3.3.1 卷积稀疏编码74
3.3.2 深度反卷积神经网络75
3.3.3 网络模型的性能分析与应用举例77
3.4 全卷积神经网络77
3.4.1 网络模型的数学刻画77
3.4.2 网络模型的性能分析及应用举例79
参考文献80
第4章深度堆栈自编码网络83
4.1 自编码网络84
4.1.1 逐层学习策略84
4.1.2 自编码网络84
4.1.3 自编码网络的常见范式87
4.2 深度堆栈网络90
4.3 深度置信网络深度玻尔兹曼机网络93
4.3.1 玻尔兹曼机受限玻尔兹曼机93
4.3.2 深度玻尔兹曼机深度置信网络94
参考文献96
第5章稀疏深度神经网络99
5.1 稀疏性的生物机理100
5.1.1 生物视觉机理100
5.1.2 稀疏性响应与数学物理描述102
5.2 稀疏深度网络模型及基本性质102
5.2.1 数据的稀疏性103
5.2.2 稀疏正则103
5.2.3 稀疏连接104
5.2.4 稀疏分类器设计106
5.2.5 深度学习中关于稀疏的技巧与策略108
5.3 网络模型的性能分析110
5.3.1 稀疏性对深度学习的影响110
5.3.2 对比实验及结果分析110
参考文献111
第6章深度融合网络113
6.1 深度SVM网络114
6.1.1 从神经网络到SVM114
6.1.2 网络模型的结构115
6.1.3 训练技巧117
6.2 深度PCA网络117
6.3 深度ADMM网络119
6.4 深度极限学习机121
6.4.1 极限学习机121
6.4.2 深度极限学习机123
6.5 深度多尺度几何网络125
6.5.1 深度脊波网络125
6.5.2 深度轮廓波网络127
6.6 深度森林130
6.6.1 多分辨特性融合131
6.6.2 级联特征深度处理131
参考文献133
第7章深度生成网络136
7.1 生成式对抗网络的基本原理137
7.1.1 网络模型的动机137
7.1.2 网络模型的数学物理描述139
7.2 深度卷积对抗生成网络141
7.2.1 网络模型的基本结构141
7.2.2 网络模型的性能分析144
7.2.3 网络模型的典型应用146
7.3 深度生成网络模型的新范式151
7.3.1 生成式对抗网络的新范式151
7.3.2 网络框架的性能分析与改进154
7.4 应用驱动下的两种新生成式对抗网络155
7.4.1 堆栈生成式对抗网络155
7.4.2 对偶学习范式下的生成式对抗网络158
7.5 变分自编码器160
参考文献162
第8章深度复卷积神经网络与深度二值神经网络167
8.1 深度复卷积神经网络168
8.1.1 网络模型构造的动机168
8.1.2 网络模型的数学物理描述168
8.2 深度二值神经网络172
8.2.1 网络基本结构172
8.2.2 网络的数学物理描述173
8.2.3 讨论176
参考文献177
第9章深度循环和递归神经网络180
9.1 深度循环神经网络181
9.1.1 循环神经网络的生物机理181
9.1.2 简单的循环神经网络181
9.1.3 深度循环神经网络的数学物理描述183
9.2 深度递归神经网络188
9.2.1 简单的递归神经网络188
9.2.2 深度递归神经网络的优势189
9.3 长短时记忆神经网络190
9.3.1 改进动机分析190
9.3.2 长短时记忆神经网络的数学分析191
9.4 典型应用192
9.4.1 深度循环神经网络的应用举例193
9.4.2 深度递归神经网络的应用举例194
参考文献194
第10章深度强化学习197
10.1 深度强化学习基础198
10.1.1 深度强化学习的基本思路198
10.1.2 发展历程198
10.1.3 应用的新方向200
10.2 深度Q网络201
10.2.1 网络基本模型与框架201
10.2.2 深度Q网络的数学分析202
10.3 应用举例AlphaGo204
10.3.1 AlphaGo原理分析205
10.3.2 深度强化学习性能分析206
参考文献207
第11章深度学习软件仿真平台及开发环境209
11.1 Caffe平台210
11.1.1 Caffe平台开发环境210
11.1.2 AlexNet神经网络学习210
11.1.3 AlexNet神经网络应用于图像分类212
11.2 TensorFlow平台215
11.2.1 TensorFlow平台开发环境215
11.2.2 深度卷积生成式对抗网DCGAN216
11.2.3 DAN应用于样本扩充217
11.3 MXNet平台220
11.3.1 MXNet平台开发环境220
11.3.2 VGG-NET深度神经网络学习222
11.3.3 图像分类应用任务225
11.4 Torch7平台226
11.4.1 Torch7平台开发环境226
11.4.2 二值神经网络227
11.4.3 二值神经网络应用于图像分类239
11.5 Theano平台233
11.5.1 Theano平台开发环境233
11.5.2 递归神经网络234
11.5.3 LSTM应用于情感分类任务237
参考文献238
第12章基于深度神经网络的SARPolSAR影像地物分类240
12.1 数据集及研究目的241
12.1.1 数据集特性分析241
12.1.2 基本数据集244
12.1.3 研究目的247
12.2 基于深度神经网络的SAR影像地物分类251
12.2.1 基于自适应自编码和超像素的SAR图像分类251
12.2.2 基于卷积中层特征学习的SAR图像分类257
12.3 基于第一代深度神经网络的PolSAR影像地物分类263
12.3.1 基于稀疏极化DBN的极化SAR地物分类263
12.3.2 基于深度PCA网络的极化SAR影像地物分类267
12.4 基于第二代深度神经网络的PolSAR影像地物分类271
12.4.1 基于深度复卷积网络的极化PolSAR影像地物分类271
12.4.2基于生成式对抗网的极化PolSAR影像地物分类274
12.4.3基于深度残差网络的极化PolSAR影像地物分类278
参考文献280
第13章基于深度神经网络的SAR影像变化检测284
13.1 数据集特点及研究目的285
13.1.1 研究目的285
13.1.2 数据基本特性288
13.1.3 典型数据集291
13.2 基于深度学习和SIFT特征的SAR图像变化检测293
13.2.1 基本方法与实现策略284
13.2.2 对比实验结果分析295
13.3基于SAE的SAR图像变化检测299
13.3.1 基本方法与实现策略299
13.3.2 对比实验结果分析303
13.4基于CNN的SAR图像变化检测305
13.4.1基本方法与实现策略305
13.4.2对比实验结果分析307
参考文献309
第14章基于深度神经网络的高光谱图像分类与压缩311
14.1 数据集及研究目的312
14.1.1 高光谱遥感技术312
14.1.2 高光谱遥感的研究目的313
14.1.3 常用的高光谱数据集314
14.2 基于深度神经网络的高光谱影像的分类318
14.2.1 基于堆栈自编码的高光谱影像的分类319
14.2.2 基于卷积神经网络的高光谱影像的分类325
14.3基于深度神经网络的高光谱影像的压缩333
14.3.1 基于深度自编码网络的高光谱图像压缩方法334
14.3.2 实验设计及分类结果336
参考文献338
第15章基于深度神经网络的目标检测与识别340
15.1 数据特性及研究目的341
15.1.1 研究目的341
15.1.2 常用数据集343
15.2 基于快速CNN的目标检测与识别345
15.2.1 R-CNN346
15.2.2 Fast R-CNN348
15.2.3 Faster R-CNN349
15.2.4 对比实验结果与分析352
15.3 基于回归学习的目标检测与识别353
15.3.1 YOLO353
15.3.2 SSD356
15.3.3 对比实验结果分析359
15.4 基于学习搜索的目标检测与识别360
15.4.1 基于深度学习的主动目标定位360
15.4.2 AttentionNet363
15.4.3 对比实验结果分析365
参考文献366
第16章总结与展望368
16.1 深度学习发展历史图369
16.1.1 从机器学习、稀疏表示学习到深度学习370
16.1.2 深度学习、计算与认知的范式演进371
16.1.3 深度学习形成脉络375
16.2 深度学习的典型应用375
16.2.1 目标检测与识别375
16.2.2 超分辨376
16.2.3 自然语言处理376
16.3 深度神经网络的可塑性377
16.3.1 旋转不变性377
16.3.2 平移不变性378
16.3.3 多尺度、多分辨和多通路特性378
16.3.4 稀疏性379
16.4 基于脑启发式的深度学习前沿方向380
16.4.1 生物神经领域关于认知、识别、注意等的最新研究进展380
16.4.2 深度神经网络的进一步研究方向382
16.4.3 深度学习的可拓展性383
参考文献383
附录A 基于深度学习的常见任务处理介绍386
附录B 代码介绍393
|
內容試閱:
|
序从1308年加泰罗尼亚诗人、神学家雷蒙卢尔Ramon Llull发表了有关用机械方法从一系列现象中创造新知识的论文开始,到1943年美国心理学家W.S. McCulloch和数学家W.Pitts提出MP模型及1950年A.Turing提出著名的图灵测试,再到1956年达特茅斯会议上人工智能的诞生,神经网络几经沉浮,走过了艰难曲折的历程; 2006年从单隐层神经网络到深度神经网络模型,迎来了神经网络发展的又一高潮,深度学习及其应用受到了前所未有的重视与关注,世界迎来又一轮人工智能变革的高潮,从谷歌脑到中国脑科学计划,再到互联网 和中国人工智能2.0,人工智能及深度学习也首次写进了2017年全国人民代表大会第十五次会议国务院政府工作报告。深度学习是人工智能及机器学习的一个重要方向,在未来,它将会不断出现激动人心的理论进展和方法实践,深刻影响我们生活的方方面面。随着研究的不断深入,深度学习已经超越了目前机器学习模型的神经科学观点,学习多层次组合的这一设计原则更加吸引人。从第一代的深度前馈神经网络开始,随之而来的就有如下三个问题: 一是可用训练数据量远小于模型中的参数量,容易出现过欠拟合现象; 二是随着层级的增加,模型的优化目标函数呈现高度非凸性,由于待优化参数所在的可行域中存在着大量的鞍点和局部极小值点,所以参数初始化策略影响着网络模型的稳定性和收敛性; 三是基于误差的反向传播算法越靠近输出层变化越大,越靠近输入层变化越小,这对通过梯度下降方式来实现逐层参数更新会导致梯度弥散现象。为了解决第一个问题便提出了深度卷积神经网络和深度循环神经网络,其核心均是通过约减参数量间接提升数据量的方式降低过拟合现象的发生; 针对第二个问题和第三个问题便引入了基于自编码器的逐层初始化策略,以期获取的初始化参数能够避免过早地陷入局部最优,同时弱化或克服梯度弥散现象,例如基于受限波尔兹曼机的深度置信网络。进一步,基于传统的机器学习算法来实现参数初始化方向上涌现了如深度PCA网络、深度ICA网络、深度SVM网络、深度森林随机森林多层级联、深度极限学习机和深度ADMM网络等模型。同时与之类似的,通过更改非线性函数以换取模型扭曲能力的提升,产生了如深度小波网络、深度脊波网络和深度轮廓波网络等模型。根据其特性,我们称这些网络为深度融合网络。2014年以来,大量的研究文献表明层级深度的不断增加,或导致性能显著提升如深度残差网络、深度分形网络,抑或导致性能严重下降本质上是参数量远大于训练数据量。为了解决该问题,一方面通过多通路、并行化的网络设计来削弱深度对性能的依赖性,同时塔式结构、对称性等也被融入网络的设计过程中; 另一方面,深度生成模型也悄然兴起,其核心是通过生成训练数据集的概率密度函数来实现数据的扩充,其代表便是生成式对抗网络和变分自编码器。值得注意的是,与传统的深度学习设计单网络不同,生成式对抗网络采用了两个子网络来实现非合作状态下的博弈,在最小最大值定理的保证下,理论上可以保证网络的收敛性。除了模型结构和优化策略改进外,应用问题背景也不再是经典的输入输出单数据对刻画,而是从状态到行动整体性刻画。众所周知,感知、认知和决策是衡量智能化的标准,充分发挥深度学习的感知能力和强化学习的决策能力,形成的深度强化学习已在众多应用问题上取得突破,如无人驾驶、计算机围棋程序和智能机器人等。在后深度学习时代,其核心在于生成数据、环境交互和领域迁移,对应着深度生成网络、深度强化学习和深度迁移学习将继续成为人工智能领域的研究热点。另外,根据数据的属性和操作的有效性,衍生的网络包括深度复数域神经网络如深度复卷积神经网络、深度二值神经网络和深度脉冲神经网络等。我们依托智能感知与图像理解教育部重点实验室、智能感知与计算国际联合实验室及智能感知与计算国际联合研究中心于2014年成立了类脑计算与深度学习研究中心,致力于类脑计算与深度学习的基础与应用研究,搭建了多个深度学习应用平台,并在深度学习理论、应用及实现等方面取得了突破性的进展,本书即是我们在该领域研究工作的初步总结。本书的完成离不开团队多位老师和研究生的支持与帮助,感谢团队中侯彪、刘静、公茂果、王爽、张向荣、吴建设、缑水平、尚荣华、刘波、刘若辰等教授以及马晶晶、马文萍、白静、朱虎明、田小林、张小华、曹向海等副教授对本工作的关心支持与辛勤付出。感谢王蓉芳博士、冯捷博士、张丹老师,以及唐旭、刘芳、谢雯、任博、魏野、王善峰、冯志玺等博士生在学术交流过程中无私的付出与生活上的关心。同时,特别感谢赵佳琦、刘旭、赵暐、朱浩、孙其功、任仲乐、李娟飞、张雅科、宋玮、张文华等博士生,以及马丽媛、杨争艳、张婷、李晰、孟繁荣、汶茂宁、侯瑶琪、孙莹莹、张佳琪、杨慧、王美玲等研究生在写作过程中无私付出的辛勤劳动与努力。感谢宋玮、张文华等博士生帮忙校勘时发现了许多笔误。本书是我们团队在该领域工作的一个小结,也汇聚了西安电子科技大学智能感知与图像理解教育部重点实验室、智能感知与计算国际联合实验室及智能感知与计算国际联合研究中心的集体智慧。在本书出版之际,特别感谢邱关源先生及保铮院士三十多年来的悉心培养与教导,特别感谢徐宗本院士、张钹院士、李衍达院士、郭爱克院士、郑南宁院士、谭铁牛院士、马远良院士、包为民院士、郝跃院士、陈国良院士、韩崇昭教授,IEEE Fellows管晓宏教授、张青富教授、张军教授、姚新教授、刘德荣教授、金耀初教授、周志华教授、李学龙教授、吴枫教授、田捷教授、屈嵘教授、李军教授和张艳宁教授,以及马西奎教授、潘泉教授、高新波教授、石光明教授、李小平教授、陈莉教授、王磊教授等多年来的关怀、帮助与指导,感谢教育部创新团队和国家111创新引智基地的支持; 同时,我们的工作也得到西安电子科技大学领导及国家973计划2013CB329402、国家自然科学基金61573267,61472306,61671305,61573267,61473215,61571342,61572383,61501353,61502369,61271302,61272282,61202176、重大专项计划91438201,91438103等科研任务的支持,特此感谢。同时特别感谢清华大学出版社的大力支持和帮助,感谢王芳老师和薛阳老师付出的辛勤劳动与努力。感谢书中所有被引用文献的作者。20世纪90年代初我们出版了《神经网络系统理论》《神经网络计算》《神经网络的应用与实现》等系列专著,三十年来神经网络取得了长足的进展,本书的取材和安排完全是作者的偏好,由于水平有限,书中不妥之处恳请广大读者批评指正。
著者2017年3月西安电子科技大学
第3章深度卷积神经网络
3.1卷积神经网络的生物机理及数学刻画卷积神经网络是一种特殊的深度前馈神经网络,为了避免层级之间全连接造成的参数冗余,而导致网络模型的训练依赖相当参数个数的数据量; 它的设计选择局部连接,符合生物神经元的稀疏响应特性(层级之间的稀疏连接,例如在生物视觉神经系统中,神经元的感受野,即接受区域,具有局部响应特性,只有某个局部区域内的刺激才能够激活该神经元),这样便可以大大降低网络模型的参数规模,相对而言,对训练数据量的依赖性降低。3.1.1生物机理从生物神经研究的角度来看卷积神经网络的发展可知,1960s年代Hubel和Wiesel等人通过对猫的视觉皮层细胞的研究,提出了感受野(指听觉系统、视觉系统和感觉系统等中枢神经元的一些性质)这个概念; 之后到了20世纪80年代,Fukushima在感受野概念的基础上提出了神经认知机的概念,可以看作是卷积神经网络的首次实现,神经认知机将一个视觉模式分解成许多子模式(特征),然后进入分层递阶式相连的特征平面进行处理,它试图将视觉系统模型化,使其能够在即使物体有位移或轻微变形的时候,也能完成识别。众所周知,视觉皮层(见图3.1)中的初级视觉皮层(即V1区)和中级视觉皮层(即V2区)上的细胞可以分为简单细胞和复杂细胞,其中简单细胞的最大程度响应来自感受野范围内的边缘刺激模式,即感受野较小,呈狭长形,用小光点可以测定,对大面积的弥散光无反应,而对处于拮抗区边缘一定方位和一定宽度的条形刺激有强烈的反应,因此比较适合于检测具有明暗对比的直边,对边缘的位置和方位有严格的选择性; 而复杂细胞有更大的接受域,它对来自确切位置的刺激具有局部不变性,同时对感受野中的位置无严格要求。(本段文献参考http:www.lmbe.seu.edu.cnbiologybessbiologychapt161625.htm)不论是视觉皮层中的腹侧视觉通路(回答输入是什么,即What功能)还是背侧视觉通路(回答输入在场景中的哪个位置,即Where功能),对信息的处理都经过初级视觉皮层和中级视觉皮层,其对应的生物响应特性包含: 局部感受野特性(空间局部性、空间方向性、信息选择性); 灵长目动物视觉皮层和猫视觉皮层的电生理实验报告和一些相关模型的研究结果都说明了视觉皮层复杂刺激的表达是采用稀疏编码原则的,例如负责视觉感知的视网膜和外侧膝状体的神经细胞只有100万个左右(输入神经元个数),而初级视觉皮层V1区第四层有5000万个(输出神经元个数),但并不是都对前者响应,1996年,加州大学伯克利分校的Olshausen等在Nature杂志发表论文指出: 自然图像经过稀疏编码后得到的基函数类似V1区简单细胞感受野的反应特性; 所以层与层之间权值的连接为全连接并不总是合理的。
图3.1视觉皮层
3.1.2卷积流的数学刻画卷积神经网络的基础模块为卷积流,包括卷积(用于维数拓展)、非线性(稀疏性、饱和、侧抑制)、池化(空间或特征类型的聚合)和批量归一化(优化操作,目的是为了加快训练过程中的收敛速度,同时避免陷入局部最优)等四种操作,下面详细讲解这四种操作。1. 卷积: 利用卷积核对输入图片进行处理,可学习到鲁棒性较高的特征数学中,卷积是一种重要的线性运算; 数字信号处理中常用的卷积类型包括三种,即Full卷积、Same卷积和Valid卷积。下面假设输入信号为一维信号,即xRn; 且滤波器为一维的,即wRm,则有:1 Full卷积
y=convx,w,''full''=y1,,yt,,yn m-1Rn m-1yt=mi=1xt-i 1wi(3.1)
其中t=1,2,,n m-1。2 Same卷积
y=convx,w,''same''=centerconvx,w,''full'',nRn(3.2)
其返回的结果为Full卷积中与输入信号xRn尺寸相同的中心部分。3 Valid卷积
y=convx,w,''valid''=y1,,yt,yn-m 1Rn-m 1yt=mi=1xt i-1wi(3.3)
其中的t=1,2,,n-m 1,需要注意nm。注意: 除了特别声明外,卷积流中常用的是Valid卷积。另外,容易将上面一维的卷积操作扩展至二维的操作场景,不再赘述; 为了更为直观地说明Valid卷积,给出如图3.2所示的图示。
图3.2二维Valid卷积操作
另外,需要注意的是: 深度学习平台Caffe中常用的卷积操作包含两个参数即Stride和Zero Padding,其中Stride指的是窗口从当前位置到下一个位置,跳过的中间数据个数; 例如图像从输入到卷积层的情况,窗口的初始位置在第1个像素,第二个位置在第2个像素,那么stride=2-1=1; Zero Padding是指将原始数据的周边补上0值的圈数。通常在计算过程中,若输入信号为xRnm,卷积核(即滤波器)尺寸大小为wRsk,利用Valid卷积,同时结合Stride和Zero Padding得到的输出信号的大小为:
y=xwRuvu=n-s 2ZeroPaddingStride 1v=m-k 2ZeroPaddingStride 1(3.4)
其中操作为向下取整。卷积操作的核心是: 可以约减不必要的权值连接,引入稀疏或局部连接,带来的权值共享策略大大地减少参数量相对地提升了数据量,从而可以避免过拟合现象的发生; 另外,由于卷积操作具有平移不变性,使得学到的特征具有拓扑对应性、鲁棒性的特性,如图3.3所示,我们分别给出全连接、局部连接和权值共享时所对应的参数,其中权值共享是指相邻神经元的活性相似,从而共享相同的权值参数。
图3.3连接类型
可以得到全连接(权值连接,不含偏置)的参数为18个,局部连接为7个,权值共享的参数为3个(即黄绿蓝线共用)。
2. 池化: 降采样操作,即在一个小区域内,采取一个特定的值作为输出值本质上,池化操作执行空间或特征类型的聚合,降低空间维度,其主要意义是: 减少计算量,刻画平移不变特性; 约减下一层的输入维度
图3.4最大池化
(核心是对应的下一层级的参数有效地降低),有效控制过拟合风险。池化的操作方式有多种形式,例如最大池化、平均池化、范数池化和对数概率池化等,常用的池化方式为最大池化(一种非线性下采样的方式),见图3.4。
注意图3.4中是无重叠的最大池化,池化半径为2; 在深度学习平台上,除了池化半径以外,还有Stride参数,与卷积阶段的意义相同。除了上面所举的池化方式外,还有空域金字塔池化方式,它是一种多尺度的池化方式,可以获取输入(指卷积后的特征映射图)的多尺度信息; 另外,空域金字塔池化可以把任何尺度的图像的卷积特征转化成相同维度,这不仅可以让卷积神经网络处理任意尺度的图像,还能避免cropping和warping操作所导致的一些信息丢失,具有非常重要的意义。下面利用图简述空域金字塔池化。
需要注意的是,这种空域金字塔池化方式尽可能在最后的卷积流中使用,避免之前的拉伸或向量化所带来的信息丢失。图3.5中卷积层指(可能经过若干层后的)已经得到的最后的特征映射图,共计256个特征映射图; 然后以半径分别为1、2、4对这个256维特征映射图进行处理,例如半径为1时,每一个特征映射图(所有元素取最大)得到一个一维的特征,共计256个特征映射图,所以得到256维特征; 半径为2是指将每一特征映射图分为四部分,所以可以得到四维特征,共计4256维特征; 以此类推。
图3.5空域金字塔池化
3. 激活函数: 非线性操作,通过弯曲或扭曲实现表征能力的提升激活函数的核心是: 通过层级(简单)非线性映射的复合使得整个网络的(复杂)非线性刻画能力得到提升,若网络中没有非线性操作,更多的层级组合仍为线性逼近方式,表征或挖掘数据中高层语义特性的能力有限。在应用中,常用的激活函数有: 修正线性单元ReLU(加速收敛,内蕴稀疏性)、Softmax(用于最后一层,为计算概率响应)、Softplus函数(ReLU的光滑逼近)、Sigmoid系(传统神经网络的核心所在,包括LogisticSigmoid函数和TanhSigmoid函数); 下面我们通过图示来说明这几种激活函数的生物神经特性。如图3.6所示,从数学上来看,非线性的Sigmoid系对中央区的信号增益较大,对两侧区的信号增益小,在信号的特征空间映射上有很好的效果。但从生物神经科学上来看,中央区酷似神经元的兴奋态,两侧区酷似神经元的抑制态,因而在神经网络学习方面,是将重点特征推向中央区,将非重点特征推向两侧区。随着生物神经科学的发展,2001年神经科学家Dayan、Abott从生物学角度模拟出了脑神经元接收信号更精确的激活模型,如图3.7所示。
图3.6Sigmoid系传统神经网络的核心
与Sigmoid系不同的是: 这个生物脑神经元激活函数的主要变化有三点: 一是单侧抑制; 二是相对宽阔的兴奋边界; 三是稀疏激活性(即红框里前端状态完全没有激活)。同年,Charles Dugas等人在做正数回归预测论文中偶然使用了Softplus函数,Softplus的导数便是LogisticSigmoid,机器学习领域的Softplus函数和修正线性单元激活函数与神经科学领域提出的脑神经元激活频率函数有神似的地方(见图3.8),这促成了新的激活函数的研究。
图3.7生物脑神经元激活模型
图3.8Softplus函数和修正线性单元
注意: Softplus函数具有生物脑神经元激活函数的前两点特性,但是不具有稀疏激活特性,而修正线性单元作为Softplus函数的逼近,恰好具有这三点特性,并且在深度学习模型中,使用这种简单、速度快的线性激活函数可能更为合适。(此段参考ReLU激活函数.http:www.mamicode.cominfodetail873243.html)4. 批量归一化: 优化操作,减少训练过程中的不稳定性关于归一化操作,目的是避免随着层级的加深而导致信息的传递呈现逐层衰减的趋势,因为数据范围大的输入在模式分类中的作用可能偏大,而数据范围小的输入作用可能偏小,总之数据范围偏大或偏小,可能导致深度神经网络收敛慢、训练时间长。常用的归一化操作有: L2范数归一化、Sigmoid函数归一化(越往两边,区分度越小)等。需要注意的是: 卷积神经网络里面有时候会用到各种各样的归一化层,尤其是2015年以前的研究,经常能见到它们的身影,但是近些年来的研究表明,这个层级似乎对最后结果的帮助非常小,所以之后多数时候就摒弃了。3.2深度卷积神经网络下面针对具体的深度卷积神经网络,我们通过模型的架构、训练技巧和模型的优势三个方面来解释其工作原理,以期获得更多关于深度卷积神经网络学习的经验与技巧。3.2.1典型网络模型与框架1. 分类网络LeNet5
首先给出网络模型(图3.9),它是一个非常成功的深度卷积神经网络模型,主要用于手写体数字的识别,应用在银行系统中识别支票上的数字等场景。
图3.9LeNet5网络的结构
1 数据: 手写体数据集,分为训练集(共计10类,60000幅)与测试集(共计10类,10000幅),其中训练与测试集分别记为
{xTRn,yTRn}NTRn=1
{xTEn,yTEn}NTEn=1(3.5)
其中,TR表示训练,TE表示测试,输入为xnR3232,输出为yn[0,1,2,,9]。2 模型: 输入与输出之间的关系如图3.10所示,其中左侧虚线框表示特征学习,右侧虚线框表示分类器设计; 具体的公式为:
X=x,W,b
Y=softmaxX,(3.6)
其中,X为输入信号x的抽象特征或层次表示特征,参数分为卷积核和偏置:
W=[W1R6@55,W2R16@55,W3R120@55]
b=[b1R6,b2R16,b3R120](3.7)
注意: 第四隐层与第五隐层之间的全连接理解有两种方式,一是利用卷积的形式获取(深度平台Caffe中使用),二是将第四隐层拉伸或向量化(Matlab下的Deep Learning Toolbox中使用),再与第五隐层全连接; 这里采用第一种方式。另外,隐层(池化)与隐层(卷积)之间的特征映射图通常需要建立连接表来刻画相应的关系,例如第二隐层与第三隐层,第四隐层与第五隐层等,图3.10给出第二隐层与第三隐层之间特征映射图的连接关系。
图3.10第二隐层与第三隐层之间的连接关系
字母c表示相连,未写出的表示不连接; 例如第三隐层的第1张特征映射图与第二隐层的第1,2,3特征映射图有关系,即有:
h31=jI1C1,jh2j b1R1010(3.8)
其中h31为第三隐层中的第1张特征映射图,这里t=t,b1为偏置,C1,j为连接指示集,连接时其值为1,否则为0; 并且I1=[1,2,3]为关系指示集。若没有连接表,则默认为全连接,即图3.10中全部为c。对于分类器设计阶段,其参数为:
Yk=Py=k|X,k=eXTk10s=1eXTsR=[1,2,,10](3.9)
其中k=0,1,2,,9; 最后输出的类标为:
y=argmaxk{Yk}(3.10)
3 优化目标函数: 在训练数据集上,利用交叉熵来构造目标函数为:
min{W,b;}JW,b;=-1NTRNTRn=19k=0yTRn=klogYTRnk
1RW 2R(3.11)
其中后两项为正则项,另外具体的符号表示为:
YTRnk=softmaxXTRn,=softmaxxTRn;W,b,RW=3l=1‖Wl‖2FR=9k=0‖k‖2F(3.12)
4 求解:利用梯度下降法来实现优化目标函数中参数的学习,由于目标函数随着层级的加深,而导致非凸优化问题(在参数所构成的超平面中,大量地存在着鞍点与局部极值点),求解前需给定较好的参数初始值。与深度前馈神经网络中所使用的反向传播算法在计算中有所不同的是: 利用误差反向传播时,需要考虑池化隐层向卷积隐层的误差传播公式,以及卷积隐层向池化隐层传播的误差公式。首先更新参数的优化公式为:
Wk=Wk-1-JW,b;WW=Wk-1
bk=bk-1-JW,b;bb=bk-1
k=k-1-JW,b;=k-1(3.13)
式3.13中的参数由于是分类器设计阶段,采用之前的层级全连接结构,所以与前馈神经网络中的求导是一致的,这里不再赘述; 下面主要关心目标函数关于隐层偏导的求解(误差传播)方式。为了方便说明,我们完整地引入以下符号系统:
h1l=1W1lx b1lR2828h2l=Maxpoolingh1l,r2R1414l=1,2,,6;1t=t
h3s=2lIsW2l,sh2l b2sR1010h4s=Maxpoolingh3s,r4R55s=1,2,,16;2t=t
h5q=3sIqW3s,qh4s b5qR11h5=h51,h52,,h5120R1201
h6=softmaxh5,R101q=1,2,,120;3t=max0,t
目标函数关于第五隐层的误差传播梯度为:
r=JW,b;hr(3.14)
其中r=1,2,3,4,5; 相应的参数更新公式为:
JW,b;Ws=h2s-1WsJW,b;h2s-1=h2s-1Ws2s-1
JW,b;bs=h2s-1bsJW,b;h2s-1=h2s-1bs2s-1(3.15)
其中s=1,2,3; 其中求解的核心是式3.14。2. 目标检测网络faster RCNN
如图3.11所示给出网络模型,它也是一个非常成功的深度卷积神经网络模型,主要用于目标检测,通常简记为faster RCNN; 注意该任务与以往的分类识别任务不同的是: 需要在场景中实现目标定位(即回答Where)。首先,经典的基于候选区域的卷积神经网络(RCNN)是通过选择搜索方法实现场景中目标候选区域的选取(目标候选框选取,大致每一幅场景中选择近两千个候选区域; 再根据相互交叠的面积选择合适的阈值对候选区域再选择); 进一步,对候选区域实现卷积神经网络的特征提取与支撑矢量机实现分类。在其基础上,提出改进的模型有fast RCNN(候选区的选择仍沿用RCNN中的选择搜索方法,但识别阶段利用感兴趣区域RoI池化层来实现网络模型任意的输入与固定的输出,分类器为Softmax函数)和faster RCNN(核心理念是端到端的设计模式,要求场景中目标区域的定位与识别同时输出,创新工作在于提出了区域生成网络用于候选区的选择与定位)。这三种方法的对比见表3.1。
图3.11faster RCNN网络的结构
表3.1经典目标检测算法的对比
方法
项目RCNNfast RCNNfaster RCNN
候选区域生成
Where基于选择搜索方法的输入场景中目标候选区域的提取基于选择搜索方法的输入场景中目标候选区域的提取
目标识别
What深度卷积神经网络用于特征提取 SVM分类器的结合辅助任务候选区域位置精修利用端到端的方式实现目标识别,同时实现候选区域位置精修,核心提出ROI池化层基于fast RCNN中目标识别与辅助任务的统一框架,引入注意机制区域生成网络,使得对于目标检测任务形成一个统一的网络框架
其次,需要注意的是: faster RCNN引入了注意机制区域生成网络(用于候选区域的生成),代替了fast RCNN中的选择搜索方法,所以faster RCNN可以简单地看作是区域生成网络(Where)与fast RCNN(What)的结合,输入与输出之间的处理流程见图3.12。备注: 关于目标检测网络参考链接http:blog.csdn.netcolumndetailsymalanyannick.html.
图3.12Faster RCNN网络处理流程
(1 数据: 数据仍分为两部分,训练数据集和测试数据集,这里不再给出相应的数据量,仅给出输入与输出数据的解释:
{xn,yn}Nn=1(3.16)
其中xnRnm为输入,即场景; yn为期望输出,包括两部分,一是场景中所有目标的位置(利用目标区域左上角的位置,以及宽与高来定位),二是目标区域所对应的物体类别,可写为:
yn=[Psxn-targetR4,Lablesxn-target[1,2,,C]]
s=0,1,2,,S(3.17)
其中的符号解释为: 这一幅场景xn中有S个目标,其中每一个目标所对应的坐标Psxn-target和类标Lablesxn-target,注意识别场景中的目标种类共有C类。另外式3.16中的输入场景个数为N,需要注意的是: 每一幅场景有可能有目标,也有可能没有目标(即当S=0时)。注意: 常用的数据集为网络数据集ImageNet、Pascal VOC2012、医学腹部肿瘤数据sunnybrack等。(2 模型: 输入与输出的处理流程见图3.12,该框架非常清晰地给出了实现的每一步:
其中共享特有卷积层后的特征图提取部分可以利用各种经典的卷积神经网络来实现(注意: 将这些经典网络最后的分类部分去掉,或者在某特征映射层后去掉后面的部分; 例如VGG网络、AlexNet网络、GoogleNet网络、ZF网络等),不论输入场景为灰度图还是彩色图,处理流程一样,这里不再赘述。下面通过公式来描述输入与输出之间的关系,分为如下的两个部分。第一部分: 区域生成网络:
XPart1=ConvNetPart1x,Part1Ruv@r
RPx=[RP1xR2@S~,RP2xR4@S~]=RPNetXPart1x,RP(3.18)
第二部分: 结合区域生成网络的输出,得到fast RCNN网络的输入与输出之间的关系:
XPart1=ConvNetPart1x,Part1Ruv@r
XPart2=ConvNetPart2XPart1,Part2
XPart3=ROIPart3XPart2,RPx
y=[RPs~x,Lables~x]=FCXPart3,Part3,C,RefineRPx
s~=0,1,2,,S~(3.19)
进一步具体解释第一部分,即公式3.18描述如下:第一步: 共享卷积层后的特征图生成。
XPart1=ConvNetPart1x,Part1Ruv@r
即将输入场景xRnm,通过第一部分卷积神经网络实现特征图的提取,这一步输出为XPart1Ruv@r,即有r个特征图,每一个尺寸为uv; 其中待学习的参数记为Patr1。第二步: 利用区域生成网络实现候选目标区域的提取。关于区域生成网络的训练,需明确该网络将一个图像(任意大小)作为输入,输出候选目标(矩形)区域的集合,并且对每个(矩形)区域给出是否为目标的得分,即如下公式中的x为输入图像,RPx为输出,其中S~为候选目标(矩形)区域的个数:
RPx=[RP1xR2@S~,RP2xR4@S~]=RPNetXPart1x,RP
RP1x为每个候选区域判断为目标、背景区域的得分,对应着RP2x为候选目标区域的位置; 待学习的参数为RP; 该网络的训练样本集为:
{xn,n}Nn=1(3.20)
注意区域生成网络的输入与fast RCNN的输入是一致的,但二者的输出却不一样。这里的n有两个部分,一是目标区域的得分(即判断矩形区域为目标或背景的分数,二分类),另一个是目标区域的位置; 由于是二分类问题,所以需构建基于特征图XPart1的正负样本集来训练RPNet网络中的参数RP; 如何构建基于特征图XPart1的正负样本集?对训练集中的每幅输入场景,依据每个标定的真值目标(矩形)区域与候选目标(矩形)区域的重叠比例(IOU)大于0.7,为正样本; 其比例都小于0.3,记为负样本; 其余候选区域舍弃。如何得到候选目标(矩形)区域?利用输入场景与特征图XPart1之间的拓扑结构关系,即输入场景的某个矩形区域与特征图中的某个矩形区域有着一一对应的比例关系,依据特征图XPart1Ruv@r中uv平面上的每个位置,进行滑窗处理(需给出窗口大小,例如33等),同时该位置的r维特征来表征该窗口的特性(即特征向量),为了使得特征图中某一位置的窗口具有多样性,引入窗口的大小和比例这两个参数,得到表征特征图中某一位置的多个矩形区域(不妨记为k个矩形区域),并将这些矩形区域通过拓扑对应关系映射至输入场景中,得到所谓的Anchor,即候选目标(矩形)区域(若将特征图中所有的位置都遍历一次,则整个候选目标(矩形)区域共计有uvk)。得到的正负样本集记为:
{{pni,tni}ni=1}Nn=1Kn=1n=(3.21)
其中n为第n幅场景所得到样本集的个数,总的(正负)样本集个数为。对比式3.20与式3.21,可以知道:
n={pni,tni}ni=1(3.22)
第二部分,即式3.19描述如下:第一步: 共享卷积层后的特征图生成,这一步与第一部分区域生成网络的第一步一样,共享计算结果,这里不再赘述。第二步: 特有卷积层后的特征图
XPart2=ConvNetPart2XPart1,Part2
这一步主要利用共享卷积层后的特征图XPart1来得到XPart2,其中待学习的网络参数为Part2。第三步: 感兴趣区域(ROI)的池化层输出
XPart3=ROIPart3XPart2,RPx
这一步的输入为区域生成网络得到的候选区域RPx(具有较高目标区域得分的区域建议)和第二步的输出XPart2,由于候选区域的尺寸大小不一,为了避免裁剪或缩放所带来的信息损失,引入单层空域塔式池化(SPP)来实现不同尺寸的输入、相同尺寸的输出。第四步: 全连接层后的(预测)的输出
y=[RPs~x,Lables~x]=FCXPart3,Part3,C,RefineRPx
输出的y包括两部分,一是目标区域的位置,二是目标区域的类标,其中该层的输入为第三步的输出XPart3以及分类任务中的类别个数C,同时对每一类所对应的目标区域进行精修的参数RefineRPx,c(即目标矩形区域中左上坐标与长、宽、高等滑动的位移),其中c=1,2,,C。另外每一幅输入场景,可能对应着目标区域的个数为s~=0,1,2,,S~。(3 优化目标函数:接下来,针对模型,待训练的参数包括:
RPNet:Part1,RP
fast RCNN:Part1,Part2,Part3,{RefineRPx,c}Cc=1(3.23)
其中共享卷积层的计算应包括两条设计通路,下面通过图示(图3.13)给出优化的策略与待求解的目标函数。
图3.13Faster RCNN网络优化路径
其中虚线框为共享计算的部分,最上侧实线框为fast RCNN优化的通路(主要完成目标识别与位置精修),中间实线框为RPNet优化通路(完成注意机制,即候选目标(矩形)区域的生成)。综上所述,优化目标函数有两个。第一个优化目标函数是RPNet优化通路。根据模型中第一部分的描述,优化目标函数为:
minpart1RPJpart1,RP=1NNn=1Lxn,n;part1,RP 1Rpart1 2Rpart2(3.24)
式(3.24)由两个部分构成,一部分为经验风险评估损失项,另一部分为正则项,关于正则项的约束,利用富比尼斯范数。接下来,每一幅场景的损失函数为:
Lxn,n;Part1,RP=1Nclsni=1Lclsp^ni,pni 1Nregnj=1pnjLregt^nj,tnjLclsp^ni,pni=-log[p^ni1pni1 1-p^ni11-pni1]RLregt^nj,tnj=Rt^nj-tnj=4p=1Rt^njp-tnjpR(3.25)
简单解释如下: 该损失函数由两部分构成,一部分为区域得分损失(分类器的设计),另一部分为候选区域的位置(回归器的设计),二者之间相互影响,如回归器中的权重因子pnj1,即为将第n幅场景中的第j个候选区域判断为目标区域的概率,另外式3.25中回归器的非线性函数为:
Rx=0.5x2if|x|
|
|