《自然语言理解》 - 台灣·大書城 - 赵海 - 清华大学出版社

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　聯絡我們　 \|　運費計算　 \|　幫助中心　\|　加入書簽
		會員登入新用戶註冊

HOME

新書上架

暢銷書架

好書推介

2023年度TOP

香港／國際用戶

最新/最熱/最齊全的簡體書網

品種：超過100萬種書，正品正价，放心網購，悭钱省心

送貨：速遞 / 物流，時效：出貨後2-4日

『簡體書』自然语言理解

書城自編碼： 3890521
分類：簡體書→大陸圖書→教材→研究生/本科/专科教材
作者：赵海
國際書號(ISBN)： 9787302627784
出版社：清华大学出版社
出版日期： 2023-07-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：NT$ 352

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《《诗经》十五讲十五堂《诗经》历史文化与文学课丹曾人文通识丛书》
售價：NT$ 395.0

《述异记汇笺及情节单元分类研究（上下册）》
售價：NT$ 475.0

《环境、社会、治理（ESG）信息披露操作手册》
售價：NT$ 1190.0

《桑德拉销售原则伍杰 [美]大卫·马特森》
售價：NT$ 440.0

《理论的意义》
售價：NT$ 340.0

《悬壶杂记：医林旧事》
售價：NT$ 240.0

《谁之罪？（汉译世界文学5）》
售價：NT$ 240.0

《民国词社沤社研究》
售價：NT$ 640.0

建議一齊購買：

NT$ 265
《大学生职业生涯规划（慕课版双色版）》

NT$ 653
《中国传统经典纹样解析》

NT$ 572
《病理学（第9版/本科临床/配增值）》

NT$ 894
《民法学.第六版：根据《民法典》全面修订（上下）》

NT$ 214
《教师口语表达与实践高等院校师范类专业课程教材》

NT$ 305
《化工设备机械基础（第四版）》

編輯推薦：

本书适合作为高校学校相关专业高年级本科生和研究生的自然语言理解相关课程的教材，同时可供自然语言理解研究人员阅读参考。

內容簡介：

本书系统介绍自然语言处理（即自然语言理解）的经典和前沿技术内容，包括学科发展的简要背景、基础的建模方法和典型的语言处理任务。本书围绕语言模型展开并贯穿其中，包括 n元语言模型、连续空间语言模型（词嵌入）以及前沿的预训练语言模型。现代自然语言处理建立在机器学习的基础之上。无论针对传统机器学习还是针对现代深度学习，本书统一以结构化学习的脉络展开，统一阐述典型的语言处理任务的普遍性机器学习建模方式，包括词切分、序列标注以及树结构解析。同时，本书以一种统一的观点梳理机器学习和深度学习方法的要点，服务于自然语言处理任务的建模方法。最后，本书综述了经典和前沿的语言处理任务：句法分析、语义分析、阅读理解和大语言模型。以阅读理解为代表的自然语言理解任务赋予传统的学科自然语言理解新的内涵。本书适合作为高等学校相关专业高年级本科生和研究生的自然语言理解相关课程的教材，也可供自然语言理解研究人员阅读参考。

第 1章自然语言处理概要 1
1.1自然语言处理的概念和术语 .1
1.1.1自然语言 .1
1.1.2自然语言处理与自然语言理解 .2
1.1.3计算语言学 3
1.2自然语言处理的技术性挑战 .4
1.3机器翻译 7
1.4语言处理层次 .9
1.5应用型自然语言处理：人机对话系统 16
1.6自然语言处理的学术出版体系 19
参考文献25
第 2章 n元语言模型.27
2.1概率论基础.27
2.2语言模型用于语言生成 29
2.3 n元语言模型的工作方式及马尔可夫假设 .30
2.3.1 n元机制 .30
2.3.2马尔可夫假设.31
2.4评价指标：困惑度.32
2.5 n元语言模型的平滑方法.33
2.5.1 Laplace平滑（加一平滑）34
2.5.2 Good-Turing平滑 35
2.5.3 Jelinek-Mercer平滑 .36
2.5.4 Katz平滑37
2.5.5 Kneser-Ney平滑 37
2.5.6 Pitman-Yor语言模型 .39
2.6非 n元机制的平滑方法 .41
2.6.1缓存 41
2.6.2跳词 41
2.6.3聚类 42
2.7平滑方法的经验结果 .43
2.8 n元语言模型的建模工具.44
参考文献45
XII自然语言理解
第 3章语言编码表示 .47
3.1独热表示 47
3.2特征函数 49
3.3通用特征模板 .52
3.4加权的独热表示：TF-IDF.53
参考文献55
第 4章非监督的结构化学习 .56
4.1自然语言处理的方法构成.56
4.2简单任务：词/子词切分 58
4.3切分算法 58
4.3.1通用切分框架.58
4.3.2全局优度最大化：Viterbi解码算法 .59
4.3.3局部优度最大化：贪心解码算法 59
4.4优度度量 60
4.4.1频率 60
4.4.2邻接多样性 61
4.4.3分支熵.62
4.4.4描述长度增益.63
4.4.5点互信息 .63
4.4.6学生 t测试64
4.5非监督分词.64
4.5.1数据集和评估指标 64
4.5.2词典预处理技巧 .65
4.5.3性能 66
4.6推广的字节对编码切分算法 .67
参考文献67
第 5章结构化学习 69
5.1机器学习的粒度和语言单元 .69
5.2结构化学习的必要性 .72
5.3自然语言处理中的结构化学习任务 .74
5.4退化为分类任务 76
5.5结构分解 78
5.6共时结构分解：图模型 78
5.7历时结构分解：转移模型.82
5.8两类结构化分解方式的优劣 .83
5.9结构化学习的简化情形 84
参考文献85
目录 XIII
第 6章结构上的标注任务 86
6.1从结构标注到序列标注 86
6.2局部马尔可夫模型.88
6.3全局马尔可夫模型和条件随机场.90
6.3.1全局马尔可夫模型 90
6.3.2马尔可夫随机场 .91
6.3.3条件随机场 92
6.4隐马尔可夫模型 95
6.4.1从马尔可夫链到隐马尔可夫模型 95
6.4.2隐马尔可夫模型的基本计算任务：概率估计 .96
6.4.3隐马尔可夫模型的训练：参数估计.99
6.4.4隐马尔可夫模型的解码：Viterbi算法99
6.5自然语言处理中的结构标注任务. 100
6.5.1再标注的序列标注任务 . 100
6.5.2词性标注任务的隐马尔可夫模型实现示例. 102
6.5.3推广的分词建模：不等单元的结构分解 105
参考文献 107
第 7章机器学习模型 . 109
7.1机器学习模型的要素配置. 109
7.2损失函数 111
7.3 k近邻方法 . 116
7.4感知机 . 119
7.5铰链损失与支持向量机 124
7.5.1最大化间隔 125
7.5.2惩罚项导出的软边界. 128
7.5.3映射到高维空间 . 129
7.5.4核函数. 132
7.5.5支持向量机的训练算法 . 134
7.5.6多类支持向量机 . 136
7.5.7支持向量机工具包 136
7.5.8支持向量机总结 . 138
7.6交叉熵损失与最大熵模型. 138
7.6.1最大似然估计：对数-线性模型 139
7.6.2最大熵原理 143
7.6.3平滑 145
7.6.4最大熵模型的工具包. 146
7.7从神经元学习到神经网络. 146
参考文献 147
XIV自然语言理解
第 8章深度学习模型 . 150
8.1表示学习 152
8.2连续空间语言模型：词嵌入或词向量 154
8.2.1连续空间语言模型 154
8.2.2连续空间语言模型的机器学习解释. 156
8.2.3 Word2Vec和 GloVe词嵌入 159
8.2.4评估词向量 162
8.3神经网络的结构配置 . 167
8.3.1神经网络的拓扑连接方式 168
3.3.2激活函数 . 170
8.4深度学习模型的训练 . 175
8.4.1训练目标：输出表示和损失函数 175
8.4.2误差反向传播算法 178
8.4.3深度学习的训练管理器 . 179
8.5编码器-解码器建模 . 180
8.6编码器架构：循环神经网络 . 183
8.6.1循环神经网络的 BPTT训练算法 185
8.6.2长短时记忆网络 . 186
8.7编码器架构：卷积神经网络 . 188
8.7.1卷积 189
8.7.2池化 190
8.7.3卷积神经网络的结构. 191
8.8编码器架构：Transformer . 192
8.8.1自注意力机制. 192
8.8.2 Transformer网络结构 193
8.9编码器比较：RNN、CNN和 Transformer 196
8.10序列生成的解码过程 196
8.11符号主义对阵联结主义 199
8.12深度学习工具包 201
参考文献 203
第 9章预训练语言模型 206
9.1从表示学习到自监督学习. 206
9.2从 n元语言模型到预训练语言模型 207
9.3输入单元管理 . 211
9.4预训练语言模型的自回归解释 212
9.5以编辑操作定义自监督学习 . 216
9.6采样与预测目标的单元选择 . 217
目录 XV
9.7编码器架构. 218
9.8预训练语言模型方法的普适化 220
9.9预训练语言模型的强化策略 . 221
9.9.1知识增强 . 222
9.9.2多模态预训练语言模型 . 222
9.9.3模型优化 . 224
9.10典型的预训练语言模型 224
参考文献 228
第 10章句法分析 232
10.1句法分析概要 233
10.2成分/短语句法分析 . 235
10.2.1乔姆斯基文法层次体系 235
10.2.2上下文无关文法 237
10.2.3概率上下文无关文法 242
10.3依存句法 246
10.3.1带中心词标注的成分句法 . 246
10.3.2依存结构 247
10.3.3成分/短语结构到依存结构的转换 . 248
10.4句法标注语料：树库 250
10.5成分/短语句法分析算法. 251
10.5.1 CYK算法 251
10.5.2 Earley算法 254
10.6依存句法分析算法 . 255
10.6.1基于图模型的依存句法分析 255
10.6.2基于转换模型的依存句法分析 259
10.6.3非投影型依存分析 . 261
10.7句法分析的深度学习方法改进 264
10.8依存分析的序列到序列建模 266
10.9从容易优先分析到全局贪心分析 . 267
10.10句法分析的经验结果 270
参考文献 272
第 11章语义角色标注 . 279
11.1从语义分析到语义角色标注 279
11.2句法分析树上的语义图 281
11.3语义角色标注的规范和语料 283
11.4语义角色标注的建模方式 . 285
XVI自然语言理解
11.5句法特征集成：传统机器学习模型 291
11.6句法编码器：深度学习模型 292
11.7句法裁剪 297
11.8统一建模成分和依存语义角色标注 299
11.9语义角色标注中的句法角色变迁 . 300
11.10语义角色标注的经验结果 . 303
参考文献 304
第 12章机器阅读理解 . 307
12.1机器阅读理解任务的类型和评价指标 308
12.2机器阅读理解的深度学习建模 310
12.2.1编码器 312
12.2.2解码器 314
12.3对话理解 317
12.4面向推理的阅读理解 319
12.5常识问答 320
12.6开放域问答 . 322
参考文献 325
第 13章大语言模型及其前沿应用 334
13.1脑计划与预训练语言模型 . 334
13.2从预训练语言模型到大语言模型 . 336
13.3从提示学习到思维链推理 . 343
13.4对话式大语言模型 ChatGPT . 349
13.5知识边界 356
参考文献 363
后记. 366

內容試閱：

在学术界从事自然语言处理（ NLP）研究似乎需要一点勇气和毅力，尤其在中国，因为 NLP理论研究的成果几乎不可能发表在《自然》（Nature）或《科学》（Science）等国际顶级学术期刊上。而从事 NLP应用技术和系统研发也很难像其他技术领域的项目一样获得巨额经费，有时不得不沦为各大公司的“打工仔”。当老师们费尽周折帮学生修改的论文被国际计算语言学学会年会（ ACL）或国际人工智能大会（ AAAI）等顶级会议录用而沾沾自喜时，很可能等待他们的问题是：在理论上有什么重大突破？解决了什么国家重大需求问题？片刻的喜悦便立刻化为乌有，满腔的自尊立刻被讨伐得片甲不留。
二三十年以前，当 NLP还停留在以规则方法为主的理性主义阶段，我们的论文常常被怀疑是没有学过数学的人写的，整篇论文没有一个数学公式，与其他专业方向的学者对比被 SCI索引的论文数量，更是羞于启齿。好不容易迎来了统计方法，尤其是神经网络方法占据了 NLP的天下，可是从事这一技术研发的门槛几乎已经降低到了零，任何一位熟悉编程、能够玩转开源工具的人，只要有数据，都可以建立一个 NLP系统，不管是机器翻译系统、人机对话系统还是什么其他的 NLP系统，很多技术评测的性能赢家未必对 NLP的问题和方法了解多少。靠几台服务器，善于在小规模数据集上单兵作战的学界团体被规模化大兵团联合作战的巨头公司挤压得毫无喘息之机。更令人感慨的是，学界参与评测的选手往往是正在学习的研究生，而公司中的技术人员却是从各大院校层层筛选出来的优秀毕业生。老师们将那些完全没有基础的学生辛辛苦苦地培养出来，送走之后再带着一批新生重新起步……
那么，对于深耕 NLP技术领地的莘莘学子来说，“活着，还是不活，这是一个问题。”回归问题的本质，我们从事 NLP研究和教学的初心是什么？我们需要活在别人的评价之中吗？如果所有的技术人员只会使用已有的神经网络方法和其他开源工具而不知其所以然，那与只会使用扳手的人有什么区别？而且我坚信，深度学习不会成为解决 NLP问题的终极方法，它只是遥远的探索道路上的一个节点。无论从国家科技发展的角度还是从 NLP学科发展的角度，都需要对这一领域的问题和挑战有清醒的认识，并在此基础上进行创新，更需要一批甘于寂寞、勇于探索的一代又一代有志之士。
赵海教授就是这样一位有毅力的 NLP勇士。我对赵海的了解是从阅读他的论文开始的。十多年前，基于统计语言模型建立汉语自动分词方法是当时的研究热点，赵海在黄昌宁老师的指导下从事该技术研究，发表了多篇高水平的论文，此时我便认识了他。除了从事 NLP研究以外，他的执着和坚持，甚至有时候近乎偏执和怪异，都在他的行为举止和言谈中难以掩饰地表露出来。尽管有些时候我并不同意他的某些观点，但我知道他是一个率真的人，一个简单的人，一个有思想、有观点的人。同时，他也是一个兴趣广泛、勇于实践的人。或许正是这种率真、执着和不安分的天性，成就了他在 NLP领域不凡的业绩。本书凝聚了他多年的研究心血和教学体验，从概要到模型，从表示到学
自然语言理解
习，再从分析到理解，字里行间透射出他对 NLP问题和技术的思考脉络。我相信有心的读者会在阅读本书的过程中领会到作者的良苦用心。
我喜欢简单的人，和这样的人打交道我能够畅所欲言；我喜欢有观点的人，同这样的人共事我会获益良多；我喜欢兴趣广泛的人，与这样的人交流我可以海阔天空。我相信你和我一样，那么，我们一起打开本书吧！
宗成庆
中国科学院自动化研究所 2023年 2月
前言
首先，我将本书冒昧地献给我在自然语言处理工作上的领路人黄昌宁教授。
自 2005年有幸投入黄老师门下以来，我从事相关的研究工作已近 18年。2010年重回上海交通大学后，我承担了学校“自然语言处理（理解） ”课程的全部本科生和研究生教学工作，至今已逾 10年。因此，本书可被视为本人十余年教学与科研工作的一个小结。
计算机学科和人工智能领域由于和工业界的实际需求密切结合，形成了亦好亦坏的快餐文化。在自然语言处理的研究和工程技术实践上，目前并不是一个轻松的时机来总结、梳理自然语言处理的现状和前沿。深度学习在 21世纪初以神经网络凤凰涅槃的形式重新崛起，深刻改变了包括自然语言处理在内的各类人工智能方向的工作模式。对比语音、图像视频和语言文本的处理，深度学习对自然语言处理的改变最为剧烈。如果仔细比较就会发现：自然语言处理最近 3年的研究和 10年前相比，其关注点或许根本不在一个频道上。因此，本书只是总结和当前深度学习相关的进展热点，还是兼顾非深度学习的传统工作，成为我在两年前踌躇了很久的一个问题。在读过本书之后，读者应该知道我当初的选择。我或许创造了一个纪录：本书是第一本结合了深度学习和传统机器学习背景的自然语言处理的中文图书。
今天，已经没有什么智能处理可以不借助于机器学习而发展良好。然而，在历史上的绝大部分时间里，自然语言处理工作是和机器学习绝缘的。甚至“统计”这个概念，在自然语言处理界也是 20世纪 90年代才慢慢形成的潮流。相比于其他人工智能方向，自然语言处理对于数据、机器学习方法的接纳明显滞后，这是有深刻原因的。
从人工智能的知识工程角度看，机器学习相当于把知识的标注和学习这个强耦合的过程有效地解耦为两个清晰可分的阶段：专业领域的标注人员平行地独立完成前面的数据标注工作，使得计算机工作者只需专注于后面纯粹的数据处理（即“学习”）部分。显然，这是知识工程的工作方式的重大进步。
自然语言是最具有挑战性的智能信息处理对象，所以才有“人工智能皇冠上的明珠”“得语言者得天下”的说法。问题就出在：只有自然语言处理这个工作需要同时直接应对两类大相径庭的知识 ——语言知识以及语言所承载的常识知识。自然语言处理最为窘迫的问题在于：实践上往往只能通过语言知识解析和学习（如句法和语义分析）的有限手段应对其中的常识知识提出的层出不穷的挑战（如语用级别的一个个“例外”）。
从另一个角度看，人类语言本身是复杂的符号系统，在乔姆斯基的形式语言分类体系之中，人类语言严格来说属于其中最为复杂的类别。然而，受制于种种因素，工程技术实践不得不用低复杂性类过于简单地刻画人类语言，进而以此为基础进行各类处理。我把自然语言这种复杂性特征权且称为结构复杂性（请和计算复杂性理论中的同一术语区分）。
因此，双重知识困境和特殊的结构复杂性这两大原因使得自然语言处理在拥抱机器学习的工作方式方面举步维艰。对于知识问题，机器学习的工作范式并不提供额外的知
自然语言理解
识获取增强、学习的便利，而自然语言处理由于数据缺失，在早期并无采用机器学习工
作方式的必要性，这是因为，多年前，自然语言处理的数据标注是一个极度依赖专业的
理论语言学工作的过程，数据标注周期漫长、过程繁复，其代价远远高于后续的数据处
理。对于结构复杂性问题，基本的机器学习模型本质上只针对分类（或等效的回归）问
题进行建模，无法直接解决自然语言处理中各类天然的结构学习和预测问题。因此，在
基本的机器学习模型和自然语言处理的结构化任务之间有一个巨大的鸿沟。在跨越这个
鸿沟之前，将任何强大的机器学习模型贸然或仓促地用于自然语言处理必定在效果上乏
善可陈。结构学习通常需要高复杂度的图（ graph）算法。自然语言处理结合机器学习的
算法复杂度是机器学习算法本身的复杂度和另一个结构复杂度的叠加。如果语言学习的
结构复杂性不能有效消解，则进一步采用任何机器学习算法用于自然语言处理都必然是
无本之木。从历史案例来看， Bengio教授在 2003年首次提出将深度学习用于自然语言
处理；然而，吊诡的是，直至 2014年，在 Mikolov的 Word2Vec等词嵌入方法发表之
后，深度学习才真正广泛进入自然语言处理，反而远远落后于彼时深度学习已遍地开花
的语音和图像处理领域（后两者在 2010年前后即取得工程上的巨大进展）。导致这个现
象的最大因素就是自然语言的结构复杂性问题一直未能找到普遍性解决方法。
本书的叙述脉络就是：从如何消解自然语言处理的结构复杂性入手，用相对一致的
思路重新统一描述自然语言处理的机器学习方法，同时兼顾传统机器学习和深度学习。
具体做法是：把自然语言处理的机器学习分解为两部分，将所有机器学习模型（也进一
步推广到包含各类概率统计分布的获取过程）视为一个单纯的打分（评分， scoring）模
块，各类具体的自然语言处理任务建模是针对如何调用这些模块而进行的结构化分解（发生于训练过程）、结构重组（发生于预测过程）的相关方法。因此，相对于阐述复杂
多样的机器学习模型以及各类语言学习任务，本书只是将其统一视为打分模块搭配结构
学习的一种组合。在这个叙述角度上，深度学习和传统机器学习并无本质不同。
在打分学习功能的背景下，我把普遍的机器学习模型分解为损失函数、模型形态以
及训练算法 3个要素，并尝试从奥卡姆剃刀原则解释梳理常用于自然语言处理的各类
传统机器学习和深度学习模型。例如，对于特征表示向量直接的线性组合就是感知机（perceptron）学习。再如，在同样的线性特征权值学习的基础上，如果简单列出两类直
接的距离——欧几里得距离和信息距离——所定义的损失函数，就会立即得到早期自然
语言处理常用的支持向量机和最大熵模型。在输出是标量的情形下，至此已经定义了我
称之为单个神经元的学习模型。而普通的如多层感知机（ MLP）之类的神经网络不过是
将所有标量堆积输出向量化的必然结果。
具体的自然语言处理任务繁杂多样，不过本书并不以具体的语言处理任务为中心，
而是始终沿着结构化学习的建模方式的叙述思路。例如，对于能统一解释为序列标注任
务的各类任务，在建模方法部分进行了统一讲解。对于基础自然语言处理两大类核心任
务——句法分析和语义分析，在结构化学习背景下，还特别对语言学背景做了单独阐述。
最后，本书介绍以机器阅读理解为代表的现代自然语言理解任务。
在确定书名时，我曾经在“自然语言处理”和“自然语言理解”两者之间纠结过。虽
然前者目前更普遍，但这两个术语在学科历史上是等价的，例如 James Allen的早期名
前言 VII
著就是以后者为书名。近几年的术语变化就是“自然语言理解”的含义开始收窄，越来越多地用于指代机器阅读理解和自然语言推理两类具有广泛挑战性的任务。因此，本书的书名最终选择了后者。
现在所说的自然语言理解是伴随着深度学习而崛起的新型综合性智能信息处理问题，是目前为止最复杂、最具有挑战性的任务。同时，这类任务也和真实应用需求密切结合，阅读理解补上了智能信息处理的最后一块短板。在此之前的所有自然语言处理的确仅仅是“处理”，而相应的信息检索也仅仅是“检索”。阅读理解任务允许机器基于所给的具体篇章文本回答人类语言形式的任何问题。这使得自然语言处理真正进化到了自然语言理解的应用实施阶段。21世纪初的《国家中长期科学和技术发展规划纲要（2006—2020年）》明确提出：我国将促进“以图像和自然语言理解为基础的‘以人为中心’的信息技术发展，推动多领域的创新”。20年前，自然语言理解是一个概念性的、含糊的远期目标； 20年后，自然语言理解已经有了明确具体的任务聚焦。业界已经确确实实在具体的自然语言理解任务上开展工作，并产生了显著成绩。
伴随着自然语言理解的具体任务需求，出现了深度学习工具相应的巨大进展 ——大规模预训练语言模型。这个工具并非理论或工程上的全新成果，而是在深度学习时代延续了传统自然语言处理的 n元语言模型工作方式的更新版本。但是，量变引起质变，短短三四年（最早的 ELMo发表于 2018年），预训练语言模型在很大程度上改变了目前的自然语言处理和理解的工作方式。正是由于其重大影响力，本书在结构化学习的叙述脉络之外，也同步包含系统地介绍三代语言模型的前后继承关系的另一条叙述脉络。
目前的深度学习模型用于自然语言处理出现了模型设计的模块标准化趋势，即通常一个语言处理的深度模型会一般化地包含两部分：前端称之为编码器（ encoder）部分，接收句子乃至篇章，生成一个相对低维的向量表示；后端接收这个表示，输出具体任务所要求的具体结果。在最近的实践中，普遍出现了以预训练语言模型直接作为编码器的建模方法，再结合称之为微调（ fine-tuning）的针对性训练方式，预训练语言模型已经被普遍证实能广泛、大幅度改善几乎所有自然语言处理任务，尤其在高难度的阅读理解任务上更为显著。
预训练语言模型在实践中很大程度上解决了传统机器学习的数据困境。这类模型并不是在人工标注的语言数据上进行训练的，而是基于超大规模无标注的普通语言文本，利用语言自带的结构化特性，让一个已知结构预测另一个已知结构的表示，使用自监督学习方法自动构造学习任务。在这个过程中，深度学习的本质 ——基于表示的学习机制发挥了中心作用。结合自然语言这种内在结构依赖，利用自然的自监督学习方法，深度学习模型能在超大规模数据上学习出有效的语言表示。
预训练语言模型有可能是人类有史以来最大的机器学习模型。目前报道的最大的预训练语言模型是 GPT-3。按照评估，其训练数据规模大约相当于 100万人的终生阅读量，其模型参数大小约相当于人脑的神经元数量水平（ 900亿个）。我在 ACL-2019会议期间曾和 Google DeepMind的同行探讨过这个观点：预训练语言模型按照当时的发展趋势，构成第一个实际上可以工作的人工脑只是时间问题。在 2019—2021年连续 3届中国计算机学会年会的自然语言理解专题论坛上，我都是特邀讲座者（感谢苏州大学周国
VIII自然语言理解
栋老师的邀请），我也一直在推出一个不成熟的预测：自然语言处理是人工智能的终极问题，或许最后自然语言处理和自然语言理解本身也是解决人工智能终极问题的钥匙。基于以上的思考和预测，本书花了很大篇幅介绍自然语言理解这样的前沿聚焦任务。
我特别感谢我在上海交通大学指导的各位博士生、硕士生以及计算机科学与工程系的部分本科生同学。在本书的撰写过程中，他们承担了大量的资料整理、编辑等烦琐工作。没有各位同学的这些幕后工作，本书是不可能完成的。2020级博士生张倬胜组织了本书的编辑工作。其他参与相关工作的同学按照年级和姓名拼音排序如下：
2015级博士生姜舒 2017级博士生李祖超 2018级博士生段苏峰（重新绘制了本书全部插图） 2018级硕士生骆颖肖风顺杨俊杰张帅亮周俊儒 2018级本科生李俊龙欧阳思如孙开来 2019级硕士生包容洲井鸿江李依安徐艺朱鹏飞 2020级博士生伍鸿秋 2020级硕士生王嘉伟王佳翼吴薄鸿赵一霖 2021级博士生马欣贝杨逸飞 2021级硕士生程子鸣李熠阳王金元我在上海外国语大学指导的 2021级博士生黄宝荣也在通读书稿后提出了大量修改
意见，在此一并致谢。中国科学院自动化研究所研究员宗成庆老师欣然为本书作序，我在此深表感谢！本书的大量原始素材（包括文字描述、图表等）取自我本人长期授课的积累以及很
多国内外同行慷慨分享的公开资料（包括但不限于论文、授课课件、讲座资料等）。我已尽最大力量注出所有这些资料的确切来源，但是受限于一些客观条件，每章末尾所列的参考文献难以做到尽善尽美。作为一个补充，我列举一部分未能体现在参考文献列表中的资料的作者，在此向他们表示谢意！
. Christopher Manning， Stanford University（第 1、2章）。
. Joshua Goodman， Microsoft Research（第 2章）。
. Michael Collins， MIT（第 2、7章）。
. Pandu Nayak and Prabhakar Raghavan， Stanford University（第 3章）。
. Constantin F. Aliferis and Loannis Tsamardinos， New York University（第 7章）。
. Fei Xia， Washington University（第 7章）。
. Richard Socher，Stanford University（第 8章）。
. Roxana Girju， University of Illinois at Urbana-Champaign（第 10章）。
. Joakim Nivre， Uppsala University（第 10章）。

在本书写作过程中，我得益于很多同行的帮助、讨论以及上面提及的各位在具体事务上的支持，但是毫无疑问，这不代表所有这些相关人士对于本书中的内容和观点持有特定看法，而本书中的任何错漏以及由此导致的问题都只能由我本人承担责任。
前言 IX
在本书完稿之时，我意识到：用一个统一的观点、思路总结一个研究方向的历史和最新进展，将其浓缩到一本书中，的确是一项具有高度挑战性的任务。在此恳请读者不吝赐教。
赵海
于上海交通大学闵行校区 2023年 2月

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	台灣用户　\|　香港/海外用户

megBook.com.tw
Copyright (C) 2013 - 2024 （香港）大書城有限公司　All Rights Reserved.