新書推薦:
《
为你想要的生活
》
售價:NT$
301.0
《
关键改变:如何实现自我蜕变
》
售價:NT$
352.0
《
超加工人群:为什么有些食物让人一吃就停不下来
》
售價:NT$
454.0
《
历史的教训(浓缩《文明的故事》精华,总结历史教训的独特见解)
》
售價:NT$
286.0
《
不在场证明谜案(超绝CP陷入冤案!日本文坛超新星推理作家——辻堂梦代表作首次引进!)
》
售價:NT$
265.0
《
明式家具三十年经眼录
》
售價:NT$
2387.0
《
敦煌写本文献学(增订本)
》
售價:NT$
1010.0
《
耕读史
》
售價:NT$
500.0
|
內容簡介: |
本书由谷歌首席科学家Lyon撰写,是一部关于听觉研究的系统性学术著作。书中提出利用CARFAC模型模拟耳蜗对声音信号的分析,利用带有精细时序结构的SAI表征听觉神经模式,明确反对将耳蜗视作傅里叶频率分析器的做法。本书内容系统且全面,涵盖人类听觉原理、机器听觉理论、精密听觉模型建模和机器听觉应用实例,还包括对听觉研究史上的标志性人物及事例的介绍。本书对数学原理的阐释脉络清晰,并配有算法源码,适合相关领域的技术人员和研究人员参考,也适合作为高等院校相关研究生课程的教材。
|
目錄:
|
译者序
序言
前言
关于作者
部分 声音分析与表征概述
第1章 引言3
1.1 David Marr论视觉与听觉5
1.2 自上而下与自下而上分析8
1.3 神经模拟方法10
1.4 听觉图像11
1.5 耳朵是频率分析器吗12
1.6 第三音13
1.7 声音理解与意义提取14
1.8 机器视觉与机器学习技术的利用15
1.9 本书的内容安排15
第2章 听觉理论18
2.1 一种“新”的听觉理论18
2.2 更新的听觉理论20
2.3 主动与非线性听觉理论21
2.4 听觉三元理论22
2.5 听觉图像理论23
第3章 对数及幂律听觉27
3.1 对数与幂律27
3.2 对数频率28
3.3 对数功率30
3.4 Bode图31
3.5 感知映射33
3.6 恒Q值分析36
3.7 对数应用注意事项36
第4章 人类听觉概述37
4.1?人机对比37
4.2 听觉生理学37
4.3 听觉中的关键问题39
4.4 响度40
4.5 临界频带、掩蔽与抑制43
4.6 音高感知45
4.7 音色52
4.8 协和与不协和53
4.9 语音感知55
4.10 双耳听觉58
4.11 听觉流59
4.12 非线性60
4.13 后续建议61
第5章 声学方法与听觉修正62
5.1 声音、语音与音乐建模62
5.2 短时谱分析62
5.3 谱的平滑与变换66
5.4 源-滤波器模型与同态信号处理68
5.5 摆脱对数70
5.6 听觉频率尺度70
5.7 mel频率倒谱71
5.8 线性预测编码72
5.9 PLP与RASTA73
5.10 自动语音识别中的听觉技术74
5.11 必要的改进75
第二部分 听觉的系统理论
第6章 线性系统引言79
6.1 平滑:恰当的起点80
6.2 线性时不变系统80
6.3 滤波器与频率82
6.4 微分方程与齐次解83
6.5 冲激响应84
6.6 因果性与稳定性86
6.7 卷积86
6.8 本征函数与传递函数87
6.9 频率响应90
6.10 变换与运算方法92
6.11 有理函数及其零极点94
6.12 传递函数增益与相位的图解计算96
6.13 卷积定理97
6.14 级联、并联与反馈结构中滤波器的互联98
6.15 总结及后续安排100
第7章 离散时间与数字系统102
7.1 计算机模拟系统102
7.2 离散时间线性移不变系统102
7.3 冲激响应与卷积103
7.4 离散时间系统中的频率103
7.5 Z变换及其逆变换103
7.6 单位超前算子与单位延迟算子104
7.7 滤波器与传递函数105
7.8 采样与混叠108
7.9 自连续时间系统的映射110
7.10 滤波器设计111
7.11 数字滤波器112
7.12 多输入输出114
7.13 傅里叶分析与频谱图114
7.14 观点及拓展阅读116
第8章 谐振器117
8.1 带通滤波器117
8.2 四阶谐振器121
8.3 谐振器频率响应123
8.4 谐振器冲激响应125
8.5 复谐振器与通用谐振曲线127
8.6 并联系统的复零点128
8.7 实系统实现132
8.8 数字谐振器134
第9章 gammatone及相关滤波器137
9.1 复合谐振器构成的听觉模型137
9.2 多极点137
9.3 复gammatone滤波器139
9.4 实gammatone滤波器142
9.5 全极点gammatone滤波器144
9.6 gammachirp滤波器146
9.7 变极点Q149
9.8 非重极点149
9.9 数字滤波器150
第10章 非线性系统153
10.1 Volterra级数及其他描述153
10.2 基本非线性155
10.3 Hopf分叉155
10.4 分布式带通非线性156
10.5 非线性系统响应曲线157
10.6 双音调响应160
10.7 非线性与混叠161
10.8 特别关注163
第11章 自动增益控制164
11.1 输入-输出强度压缩164
11.2 非线性反馈控制165
11.3 平衡状态下的AGC压缩166
11.4 多级联可变增益168
11.5 由级联谐振器阻尼控制的增益控制170
11.6 AGC动态特性170
11.7 AGC环路稳定性174
11.8 多环路AGC176
第12章 分布式系统中的波178
12.1 均匀线性介质中的波179
12.2 波数与传递函数184
12.3 非均匀介质186
12.4 非均匀介质等效滤波器级联189
12.5 冲激响应190
12.6 群速度与群延迟191
第三部分 听觉外周
第13章 听觉滤波器模型195
13.1 何谓听觉滤波器196
13.2 从谐振器到高斯滤波器198
13.3 听觉滤波器模型应具备的十大优良特性199
13.4 代表性听觉滤波器模型201
13.4.1 听觉滤波器的三条发展路径201
13.4.2 三个圆滑指数滤波器202
13.4.3 四个gammatone族滤波器203
13.4.4 三种滤波器级联204
13.5 难点:时变与非线性听觉滤波器206
13.6 滤波器模型的拟合参数208
13.6.1 拟合心理声学滤波器形状208
13.6.2 OZGF及PZFC变型采用更少参数产生更好拟合210
13.7 抑制212
13.8 由生理数据导出冲激响应212
13.9 耳蜗模型总结及应用215
第14章 耳蜗建模216
14.1 耳蜗结构216
14.2 行波219
|
內容試閱:
|
假如我们对于人自身如何听见声音有更深入的了解,那么从通过声音分析并从中提取有用且有意义的信息这个角度上来讲,我们可以让机器拥有更好的听觉。至少,这是我的观点。我已工作数十年,但近些年有更多的事实愈发强化了我的这个观点,愈发有意愿帮助工程人员、研究人员去理解这些知识片段是如何联结成一体的,进而与大家共同推动这门学科的进步。这样就有很多事要做,本书就是一个尝试,我想帮助大家将精力集中于更有效的方向:使新加入的同行对各种观念的演化有足够的了解,使他们能够直接获得新的研发与实验所需的理论,或直接找到能够解决他们有关声音理解问题的现有技术。
本书的写作过程充满了乐趣,得到了来自家庭、朋友以及同事的支持。然而,他们总是一个劲儿地问两个让人烦恼的问题:“书写好了吗?”以及“书写给谁看?”个问题的终答案不言而喻,但关于第二个问题我还想多说几句。我发现有许多人对声音及听觉感兴趣,他们来自不同的学科,学术背景各不相同,所使用的术语与概念有时也互不相通。我希望他们都能成为我的读者,我想向大家传授一个由各种学术观点综合而成的更加全面的学术架构,该框架囊括了处理机器听觉问题所需的一切。他们的专业背景可能会是电子工程、计算机科学、物理学、生理学、听力学、音乐、心理学等,但都可以是我的读者。还有学生、教师、科研人员、产品经理、研发人员及黑客,也可以是我的读者。
本书对于听觉及工程等方面内容的处理对某些人可能太深,而对另一些人可能又太浅;很多人会发现有些他们所知道的内容没有涉及,但我希望所有人都会发现有些内容是有用的—然而他们以前却不知道。尤其是第二部分中所讲授的系统理论,其目的是使不同学术背景的读者对数学、物理、工程及信号处理原理建立共同的理解,而这部分内容对于后面将要讲授的设计、分析以及对于听觉模型及应用的理解,都是必需的。本书后续部分的许多内容可直接阅读,而不必预先掌握第二部分中的系统理论,但我仍然建议通读这部分内容以便熟悉术语,而且以后如果需要深入了解某个特定的知识点,也知道到哪儿查找参考。
对于所有生物系统,在线性与非线性结合方面,听觉可能是为深入而又精致的。读者将从中了解到,为什么对于听觉来说,这些线性系统概念如此重要但还不足以解释听觉。而理解非线性系统一直是个挑战,为了解决这个问题,我们采用的方式是,将听觉中重要的非线性拆分为若干定义明确的简单机制,且每个理解起来都不会有难度。我们先是基于连续时间系统构建听觉模型,然后利用离散时间系统实现模型在计算机上的高效运行;再次强调,对于非线性的拆分非常重要。
书中的听觉模型有两个鲜明特点,也是多年来我与许多合作者一直在践行的理想:其一,采用嵌入式非线性滤波级联结构来构建耳蜗模型;其二,利用稳定听觉图像或听觉相关谱图来捕获并显示耳蜗发送给大脑信号中的精细时序结构。这里所涉及的对象分别位于听神经的两端,也与我所采用的“倚重听神经”策略相符。从听觉生理学家那里,我们了解了许多有关声音在听神经中的表征特性,但建立的模型与系统却既不产生也不利用耳蜗神经中与声音有关的丰富信息,这种做法似乎是站不住脚的。本书展示了在利用这些信息时我们所采用的一些富有成效的方法。
本书第三、四部分的听觉模型附带开源代码,这样读者在开始构建机器听觉系统时便容易得多。第五部分对一些热门应用的开放性前景进行了探讨,同时也表达了我对读者的期盼,希望大家一起推动这一领域的发展及应用。
在多数情形下,书中的写作主体“我们”所指代的不仅仅是我自己,还包括所有对这些观念做出了贡献的人,其中也包括我们的读者。在少数情形下,若是单纯的个人评述,我会切换用“我”。
对于朋友和同事指出的缺陷及提出的建议,一经采纳,我会支付一美元的谢礼,尽管如此,我亏欠他们的远非致谢所能表达。通过他们的努力,这本书得到了极大的改进。我希望其他人也能够继续提出建议以改进下一版本,同时也会得到几美元的致谢。可以肯定,书中一定还有些遗漏的错误有待大家发掘。
关于历史及关联内容的专栏
由于针对史实以及其他领域相关概念的评述遍及许多章节,我将其中部分内容纳入专栏中,一则使之突出,同时也不占据行文主线。这样做的目的是,向所引用内容的本源致以敬意,同时通过对关联内容的简要说明来提升文字的可读性。我提到了一些老旧技术,是想传递一个理念并相信其能够被大家所认可:这些真空管(阀)放大器、Helmholtz谐振器以及火焰感压计(flame manometer)等,会作为线索将我们导向由一代代学术巨擘所创造的宝贵遗产,无论是在人类听觉还是机器听觉领域,我们都是站立在这些巨人的肩膀上。
我个人的EE专业训练是在晶体管及早期集成电路时代完成的,那时的课程如“电路、信号与系统”都还在讲授连续时间模拟技术。而在当代,信号与系统是从离散时间概念开始教授的,且理由很充分,一是教学内容的改变,二是必须运用通过数字计算机实施的现代媒体教学手段。当代工程人员可能认为将声音视为离散时间采样数据并利用计算机进行处理是很自然的,但在本书中,我仍然选择将连续时间作为主要概念,这是因为声音与耳朵确确实实存在于连续时间域。我希望读者不会将连续时间域视为过时的东西—现实世界就是如此。
在线资源
查找勘误表、代码链接及其他资源,可访问网址machinehearing.org。
致谢
有许多人关心这本著作,花费精力给予我帮助和鼓励。首先要感谢的是Roy Patterson,没有他的鼓励,这项工作甚至还未启动;也是他,在进展缓慢的过程中不断激励着我。
在所有向我提出有效反馈意见的读者中,Rif(Ryan Rifkin)无疑是为突出的一位,他从书中发现的bug比其他人合起来还要多。其他给出建设性意见的读者,或是仔细阅读了本书内容,或是反馈了关于本书的整体印象,他们是:Jont Allen,Peggy Asprey,Fred Bertsch,Alex Brandmeyer,Peter Cariani,Wan-Teh Chang,Sourish Chaudhuri,Brian Clark,Lynn Conway,Achal Dave,Bertrand Delgutte,Dick Duda,Diek Duifhuis,Dan Ellis,Doug Eck,Dylan Freedman,Jarret Gaddy,Daniel Galvez,Dan Geisler,Pascal Getreuer,Chet Gnegy,Alex Gutkin,Yuan Hao,Thad Hughes,Aren Jansen,James Kates,Nelson Kiang,Ross Koningstein,Harry Levitt,Carver Mead,Ray Meddis,Harold Mills,Channing Moore,Stephen Neely,Eric Nichols,Fritz Obermeyer,Ratheet Pandya,Brian Patton,Justin Paul,Manoj Plakal,Jay Ponte,Rocky Rhodes,David Ross,Mario Ruggero,R. J. Ryan,Bryan Seybold,Shihab Shamma,Phaedon Sinis,Jan Skoglund,Malcolm Slaney,Daisy Stanton,Rich Stern,John L. Stewart,Ian Sturdy,Jeremy Thorpe,George Tzanetakis,Marcel van der Heijden,Tom Walters,Yuxuan Wang,W. Bruce Warr,Lloyd Watts,Ron Weiss,Kevin Wilson,Kevin Woods,Ying Xiao,Bill Yost,Tao Zhang,等等。或许还是有人被遗漏了,但总而言之,非常感谢大家!
我要将此书献给我的家人:我的妻子Peggy Asprey,她是如此美丽、聪慧、开朗、富有成就、充满活力,她说起话来嗓音是那么的甜美;还有我的两个可爱的孩子Susan和Erik,她们是我生命中的挚爱,是我的宝贵财富。虽然有时我把更多的注意力放在了这本书上,但对于我的写作,她们却是以各种方式全力支持。她们是我美好的风景,甜蜜的音乐,是她们支撑着我。
后,由衷感谢我的编辑,来自剑桥大学出版社的Lauren Cowles,感谢她多年来的耐心,帮助我完成了这本书。
|
|