新書推薦:
《
大思维:哥伦比亚商学院六步创新思维模型
》
售價:NT$
332.0
《
宏观经济学(第三版)【2024诺贝尔经济学奖获奖者作品】
》
售價:NT$
709.0
《
UE5虚幻引擎必修课(视频教学版)
》
售價:NT$
505.0
《
真需求
》
售價:NT$
505.0
《
阿勒泰的春天
》
售價:NT$
230.0
《
如见你
》
售價:NT$
234.0
《
人格阴影 全新修订版,更正旧版多处问题。国际分析心理学协会(IAAP)主席力作
》
售價:NT$
305.0
《
560种野菜野果鉴别与食用手册
》
售價:NT$
305.0
編輯推薦:
覆盖NLP诸多核心技术与应用场景
每章都为初学者入门提供了详细参考资料
针对初学者,给出追踪前沿学术资料的方法与建议
內容簡介:
本书是介绍大数据智能、人工智能技术的科普书籍,旨在让更多人了解和学习互联网时代的人工智能技术自然语言处理技术,让大数据智能技术更好地为我们服务。全书包括大数据智能基础、技术和应用三部分,共14章。基础部分有3章:第1章以深度学习为例介绍大数据智能的计算框架;第2章以知识图谱为例介绍大数据智能的知识库;第3章介绍大数据的计算处理系统。技术部分有6章,分别介绍机器翻译、主题模型、情感分析与意见挖掘、智能问答与对话系统、个性化推荐、机器写作。应用部分有5章,分别介绍社交商业数据挖掘、智慧医疗、智慧司法、智慧金融、计算社会科学。本书后记部分为读者追踪大数据智能的*学术资料提供了建议。
關於作者:
刘知远 清华大学计算机系副教授、博士生导师。主要研究方向为自然语言处理和知识图谱。2011年获得清华大学博士学位,在人工智能领域著名国际期刊和会议上发表相关论文60余篇,Google Scholar统计引用超过4,000次。曾获清华大学优秀博士论文、中国人工智能学会优秀博士论文、清华大学优秀博士后、中文信息学会青年创新奖,入选《麻省理工科技评论》35岁以下科技创新35人中国区榜单、中国科协青年人才托举工程、CCF青年学者提升计划。担任中文信息学会青年工作委员会副主任,中文信息学会社会媒体处理专委会秘书长,ACL、EMNLP、COLING等著名国际会议领域主席。
崔安颀 薄言RSVP.ai联合创始人、AI负责人,从事智能对话的技术研发和商业化应用。2013年获得清华大学博士学位。曾访问美国卡耐基梅隆大学、新加坡国立大学,在加拿大滑铁卢大学担任博士后研究员。研究方向包括社交媒体情感分析、智能问答、数据挖掘等,发表相关著作20余篇,积累了丰富的科研和商业应用经验。参与研发薄言轻语企业助手平台、薄言豆豆智能机器人以及语义解析、机器问答、对话闲聊等算法引擎,将自然语言处理技术应用在智能家居、企业助手、智能客服等场景中。
刘知远 清华大学计算机系副教授、博士生导师。主要研究方向为自然语言处理和知识图谱。2011年获得清华大学博士学位,在人工智能领域著名国际期刊和会议上发表相关论文60余篇,Google Scholar统计引用超过4,000次。曾获清华大学优秀博士论文、中国人工智能学会优秀博士论文、清华大学优秀博士后、中文信息学会青年创新奖,入选《麻省理工科技评论》35岁以下科技创新35人中国区榜单、中国科协青年人才托举工程、CCF青年学者提升计划。担任中文信息学会青年工作委员会副主任,中文信息学会社会媒体处理专委会秘书长,ACL、EMNLP、COLING等著名国际会议领域主席。
崔安颀 薄言RSVP.ai联合创始人、AI负责人,从事智能对话的技术研发和商业化应用。2013年获得清华大学博士学位。曾访问美国卡耐基梅隆大学、新加坡国立大学,在加拿大滑铁卢大学担任博士后研究员。研究方向包括社交媒体情感分析、智能问答、数据挖掘等,发表相关著作20余篇,积累了丰富的科研和商业应用经验。参与研发薄言轻语企业助手平台、薄言豆豆智能机器人以及语义解析、机器问答、对话闲聊等算法引擎,将自然语言处理技术应用在智能家居、企业助手、智能客服等场景中。
张开旭 清华大学计算机系博士,研究方向为自然语言处理,THULAC工具草创者,SIGHAN 2012中文分词评测冠军,百度搜索中文CRF模块代码重构者,微信搜索DSSM模块开发者,腾讯围棋AI绝艺研发者。现供职于腾讯,尝试用BERT搞事情。
韩文弢 清华大学计算机系助理研究员。主要研究方向为大数据系统和类脑计算系统。2015年获得清华大学博士学位,在计算机系统相关国际期刊和会议上发表相关论文10余篇。曾获得西贝尔学者、NOI 2003金牌等荣誉和奖项。担任CCF NOI科学委员会委员。
赵 鑫 中国人民大学信息学院副教授、博士生导师。主要研究方向为数据挖掘和自然语言处理。2014年获得北京大学博士学位,在数据挖掘及其相关领域的著名国际期刊和会议上发表相关论文70余篇,曾获得CIKM 2017z佳短文提名及AIRS 2017z佳论文奖,Google Scholar统计引用2,800余次。曾获微软亚洲学者、北京大学优秀博士论文奖、中国人民大学杰出学者等荣誉称号,入选第二届CCF青年人才发展计划。长期担任国内外著名期刊和会议的评审。
苏劲松 厦门大学信息学院副教授、博士生导师。主要研究方向为自然语言处理和机器翻译。2011年获得中国科学院计算技术研究所博士学位,在人工智能、自然语言处理领域的著名国际期刊和会议上发表相关论文60余篇。担任CCF中文信息处理青年工作委员会常务委员,中文信息学会青年工作委员会委员,福建省人工智能学会理事,自然语言处理国际会议 NLPCC2018、EMNLP2019领域主席。
张永锋 罗格斯大学助理教授,主要研究方向为信息检索、推荐系统、机器学习及互联网经济。
严 睿 北京大学助理教授、研究员、博士生导师,曾任百度公司资深研究员,华中师范大学与中央财经大学客座教授与校外导师。主持研发了多个开放领域对话系统和服务类对话系统,发表高水平研究论文100余篇,担任多个学术会议(KDD、IJCAI、SIGIR、ACL、WWW、AAAI、CIKM、EMNLP等)的(资深)程序委员会委员及审稿人。
汤步洲 哈尔滨工业大学(深圳)计算机科学与技术学院副教授、博士生导师。主要研究方向为自然语言处理、知识图谱、医学信息处理、医疗支持决策。2011年获得哈尔滨工业大学博士学位,毕业后先后赴美国范德堡大学和德州大学休斯敦医学科学中心以博士后研究员身份从事研究工作。在人工智能、医学信息学领域著名国际期刊和会议上发表相关论文80余篇,Google Scholar统计引用1,300余次。多次在相关领域国际公开评测中获得冠军。
涂存超 清华大学计算机系博士后。主要研究方向为自然语言处理和法律智能。2018年获得清华大学博士学位。在人工智能及自然语言处理著名国际期刊和会议上发表相关论文10余篇。获得清华大学优秀博士毕业生、清华大学优秀博士论文奖、北京市优秀博士毕业生等荣誉,入选博士后创新人才支持计划。
丁 效 哈尔滨工业大学助理研究员、硕士生导师。主要研究方向为人工智能、自然语言处理、社会计算和事理图谱。2016年获得哈尔滨工业大学博士学位,已在AAAI、IJCAI、ACL、EMNLP、NAACL、COLING等人工智能领域的著名国际期刊和会议上发表相关论文20余篇。承担国家自然科学基金青年项目等省部级以上项目四项,参与国家重大科技基础设施建设项目、新一代人工智能重大项目、国家自然科学基金重点项目等多个科研项目。荣获全国青年人工智能创新创业大会三等奖、第五届全国青年计算语言学研讨会优秀论文奖等荣誉。
目錄 :
1 深度计算机器大脑的结构 1
1.1 惊人的深度学习 1
1.1.1 可以做酸奶的面包机:通用机器的概念 2
1.1.2 连接主义4
1.1.3 用机器设计机器 5
1.1.4 深度网络6
1.1.5 深度学习的用武之地 6
1.2 从人脑神经元到人工神经元 8
1.2.1 生物神经元中的计算灵感8
1.2.2 激活函数9
1.3 参数学习 10
1.3.1 模型的评价11
1.3.2 有监督学习11
1.3.3 梯度下降法12
1.4 多层前馈网络14
1.4.1 多层前馈网络 14
1.4.2 后向传播算法计算梯度16
1.5 逐层预训练17
1.6 深度学习是终极神器吗 20
1.6.1 深度学习带来了什么 20
1.6.2 深度学习尚未做到什么21
1.7 内容回顾与推荐阅读 . 22
1.8 参考文献 23
2 知识图谱机器大脑中的知识库 25
2.1 什么是知识图谱25
2.2 知识图谱的构建28
2.2.1 大规模知识库 28
2.2.2 互联网链接数据 29
2.2.3 互联网网页文本数据 30
2.2.4 多数据源的知识融合 31
2.3 知识图谱的典型应用 32
2.3.1 查询理解32
2.3.2 自动问答34
2.3.3 文档表示35
2.4 知识图谱的主要技术 36
2.4.1 实体链指36
2.4.2 关系抽取37
2.4.3 知识推理39
2.4.4 知识表示40
2.5 前景与挑战42
2.6 内容回顾与推荐阅读45
2.7 参考文献 45
3 大数据系统大数据背后的支撑技术 47
3.1 大数据有多大47
3.2 高性能计算技术49
3.2.1 超级计算机的组成 49
3.2.2 并行计算的系统支持 51
3.3 虚拟化和云计算技术55
3.3.1 虚拟化技术56
3.3.2 云计算服务58
3.4 基于分布式计算的大数据系统59
3.4.1 Hadoop 生态系统 60
3.4.2 Spark67
3.4.3 典型的大数据基础架构68
3.5 大规模图计算69
3.5.1 分布式图计算框架 70
3.5.2 高效的单机图计算框架71
3.6 NoSQL 72
3.6.1 NoSQL 数据库的类别 72
3.6.2 MongoDB 简介 74
3.7 内容回顾与推荐阅读76
3.8 参考文献 77
4 主题模型机器的智能摘要利器 78
4.1 由文档到主题78
4.2 主题模型出现的背景80
4.3 第一个主题模型:潜在语义分析81
4.4 第一个正式的概率主题模型 84
4.5 第一个正式的贝叶斯主题模型 85
4.6 LDA 的概要介绍86
4.6.1 LDA 的延伸理解:主题模型广义理解 . 90
4.6.2 模型求解92
4.6.3 模型评估93
4.6.4 模型选择:主题数目的确定94
4.7 主题模型的变形与应用 95
4.7.1 基于 LDA 的变种模型 95
4.7.2 基于 LDA 的典型应用 97
4.7.3 基于主题模型的新浪名人话题排行榜应用100
4.8 内容回顾与推荐阅读 104
4.9 参考文献105
5 机器翻译机器如何跨越语言障碍 110
5.1 机器翻译的意义110
5.2 机器翻译的发展历史 111
5.2.1 基于规则的机器翻译 112
5.2.2 基于语料库的机器翻译112
5.2.3 基于神经网络的机器翻译114
5.3 经典的神经网络机器翻译模型114
5.3.1 基于循环神经网络的神经网络机器翻译 114
5.3.2 从卷积序列到序列模型117
5.3.3 基于自注意力机制的 Transformer 模型 118
5.4 机器翻译译文质量评价 120
5.5 机器翻译面临的挑战 121
5.6 参考文献123
6 情感分析与意见挖掘机器如何了解人类情感 125
6.1 情感可以计算吗125
6.2 哪里需要文本情感分析 . 126
6.2.1 情感分析的宏观反映 127
6.2.2 情感分析的微观特征 128
6.3 情感分析的主要研究问题 129
6.4 情感分析的主要方法 132
6.4.1 构成情感和观点的基本元素132
6.4.2 情感极性与情感词典 134
6.4.3 属性-观点对 141
6.4.4 情感极性分析 143
6.5 主要的情感分析资源 148
6.6 前景与挑战149
6.7 内容回顾与推荐阅读 150
6.8 参考文献151
7 智能问答与对话系统智能助手是如何炼成的 154
7.1 问答:图灵测试的基本形式154
7.2 从问答到对话155
7.2.1 对话系统的基本过程 156
7.2.2 文本对话系统的常见场景157
7.3 问答系统的主要组成 159
7.4 文本问答系统161
7.4.1 问题理解161
7.4.2 知识检索165
7.4.3 答案生成169
7.5 端到端的阅读理解问答技术169
7.5.1 什么是阅读理解任务 170
7.5.2 阅读理解任务的模型 172
7.5.3 阅读理解任务的其他工程技巧173
7.6 社区问答系统174
7.6.1 社区问答系统的结构 174
7.6.2 相似问题检索 175
7.6.3 答案过滤177
7.6.4 社区问答的应用 177
7.7 多媒体问答系统179
7.8 大型问答系统案例:IBM 沃森问答系统 181
7.8.1 沃森的总体结构 182
7.8.2 问题解析182
7.8.3 知识储备183
7.8.4 检索和候选答案生成 184
7.8.5 可信答案确定 184
7.9 前景与挑战186
7.10 内容回顾与推荐阅读 186
7.11 参考文献 187
8 个性化推荐系统如何了解计算机背后的他 190
8.1 什么是推荐系统190
8.2 推荐系统的发展历史 191
8.2.1 推荐无处不在 192
8.2.2 从千人一面到千人千面193
8.3 个性化推荐的基本问题194
8.3.1 推荐系统的输入 194
8.3.2 推荐系统的输出 196
8.3.3 个性化推荐的基本形式197
8.3.4 推荐系统的三大核心问题198
8.4 典型推荐算法浅析 199
8.4.1 推荐算法的分类 199
8.4.2 典型推荐算法介绍 200
8.4.3 基于矩阵分解的打分预测207
8.4.4 基于神经网络的推荐算法213
8.5 推荐的可解释性214
8.6 推荐算法的评价217
8.6.1 评分预测的评价 218
8.6.2 推荐列表的评价 219
8.6.3 推荐理由的评价 220
8.7 前景与挑战:我们走了多远 221
8.7.1 推荐系统面临的问题 221
8.7.2 推荐系统的新方向 223
8.8 内容回顾与推荐阅读 225
8.9 参考文献226
9 机器写作从分析到创造 228
9.1 什么是机器写作228
9.2 艺术写作229
9.2.1 机器写诗229
9.2.2 AI 对联233
9.3 当代写作236
9.3.1 机器写稿236
9.3.2 机器故事生成 239
9.4 内容回顾241
9.5 参考文献242
10 社交商业数据挖掘从用户数据挖掘到商业智能应用 243
10.1 社交媒体平台中的数据宝藏. 243
10.2 打通网络社区的束缚:用户网络社区身份的链指与融合245
10.3 揭开社交用户的面纱:用户画像的构建 247
10.3.1 基于显式社交属性的构建方法 247
10.3.2 基于网络表示学习的构建方法 249
10.3.3 产品受众画像的构建250
10.4 了解用户的需求:用户消费意图的识别 254
10.4.1 个体消费意图识别 254
10.4.2 群体消费意图识别 256
10.5 精准的供需匹配:面向社交平台的产品推荐算法258
10.5.1 候选产品列表生成 258
10.5.2 基于学习排序算法的推荐框架 259
10.5.3 基于用户属性的排序特征构建 260
10.5.4 推荐系统的整体设计概览261
10.6 前景与挑战262
10.7 内容回顾与推荐阅读 263
10.8 参考文献264
11 智慧医疗信息技术在医疗领域应用的结晶 265
11.1 智慧医疗的起源265
11.2 智慧医疗的庐山真面目 267
11.3 智慧医疗中的人工智能应用268
11.3.1 医疗过程中的人工智能应用268
11.3.2 医疗研究中的人工智能应用272
11.4 前景与挑战273
11.5 内容回顾与推荐阅读 275
11.6 参考文献275
12 智慧司法智能技术促进司法公正 276
12.1 智能技术与法律的碰撞 . 276
12.2 智慧司法相关研究 . 277
12.2.1 法律智能的早期研究278
12.2.2 判决预测:虚拟法官的诞生与未来 279
12.2.3 文书生成:司法过程简化283
12.2.4 要素提取:司法结构化285
12.2.5 类案匹配:解决一案多判289
12.2.6 司法问答:让机器理解法律292
12.3 智慧司法的期望偏差与应用挑战293
12.3.1 智慧司法的期望偏差293
12.3.2 智慧司法的应用挑战294
12.4 内容回顾与推荐阅读 295
12.5 参考文献295
13 智能金融机器金融大脑 298
13.1 智能金融正当其时 298
13.1.1 什么是智能金融 298
13.1.2 智能金融与金融科技、互联网金融的异同298
13.1.3 智能金融适时而生 299
13.2 智能金融技术 301
13.2.1 大数据的机遇与挑战301
13.2.2 智能金融中的自然语言处理303
13.2.3 金融事理图谱 307
13.2.4 智能金融中的深度学习310
13.3 智能金融应用 314
13.3.1 智能投顾314
13.3.2 智能研报315
13.3.3 智能客服316
13.4 前景与挑战317
13.5 内容回顾与推荐阅读 319
13.6 参考文献319
14 计算社会学透过大数据了解人类社会320
14.1 透过数据了解人类社会 320
14.2 面向社会媒体的自然语言使用分析321
14.2.1 词汇的时空传播与演化322
14.2.2 语言使用与个体差异325
14.2.3 语言使用与社会地位326
14.2.4 语言使用与群体分析328
14.3 面向社会媒体的自然语言分析应用330
14.3.1 社会预测330
14.3.2 霸凌现象定量分析 331
14.4 未来研究的挑战与展望 332
14.5 参考文献 333
后记 334
內容試閱 :
大数据时代与人工智能
在进入 21 世纪前,很多人预测 21 世纪将会是怎样的世纪。有人说 21 世纪将是生命科学的时代,也有人说 21 世纪将是知识经济的时代,不一而足。随着互联网的高速发展,大量的事实强有力地告诉我们,21 世纪必将是大数据的时代,是智能信息处理的黄金时代。
美国奥巴马政府于 2012 年发布大数据研发倡议以来,关于大数据的研究与思考在全球蔚然成风,已经有很多专著面世,既有侧重趋势分析的,如舍恩伯格和库克耶的《大数据时代》(盛杨燕和周涛教授译)、涂子沛的《大数据》和《数据之巅》,也有偏重技术讲解的,如莱斯科夫等人的《大数据》(王斌教授译)、张俊林的《大数据日知录》、杨巨龙的《大数据技术全解》,等等。相信随着大数据革命的不断深入推进,会有更多的专著出版。
前人已对大数据的内涵进行过很多探讨与总结,其中比较著名的是所谓的3V定义:大容量(volume)、高速度(velocity)和多形态(variety)。3V 的概念于 2001 年由麦塔集团(Meta Group)分析师道格莱尼(Doug Laney)提出,后来被高德纳咨询公司(Gartner Group)正式用来描述大数据。此外,还有很多研究者提出更多的V来描述大数据,如真实性(veracity),等等。既然有如此众多的珠玉在前,我们推出本书,当然希望讲一点不同的东西,这点不同的东西就是智能。
人工智能一直是研究者们非常感兴趣的话题,并且由于众多科幻电影和小说作品的影响而广为人知。1946 年,第一台电子计算机问世之后不久,英国数学家艾伦麦席森图灵就发表了一篇名为《计算机器与智能》(Computing Machinery and Intelligence)的重要论文,探讨了创造具有智能的机器的可能性,并提出了著名的图灵测试,即如果一台机器与人类进行对话,能够不被分辨出其机器的身份,就可以认为这台机器具有了智能。自 1956 年在美国达特茅斯举行的研讨会上正式提出人工智能的研究提案以来,人们开始了长达半个多世纪的曲折探索。且不去纠结什么是智能这样哲学层面的命题[有兴趣的读者可以参阅罗素和诺维格的《人工智能一种现代方法》(Artificial Intelligence: A Modern Approach),以及杰夫霍金斯的《智能时代》(On Intelligence)],我们先来谈谈人工智能与大数据的关系。要回答这个问题,我们先来看一个人是如何获得智能的。一个呱呱坠地、只会哭泣的婴儿,长成思维健全的成人,至少要经历十几年与周围世界交互和学习的过程。从降临到这个世界的那一刻起,婴儿无时无刻不在通过眼睛、耳朵、鼻子、皮肤接收着这个世界的数据信息:图像、声音、味道、触感,等等。你有没有发现,这些数据无论从规模、速度还是形态来看,无疑是典型的大数据。可以说,人类习得语言、思维等智能的过程,就是利用大数据学习的过程。智能不是无源之水,它并不是凭空从人脑中生长出来的。同样,人工智能希望让机器拥有智能,也需要以大数据作为学习的素材。可以说,大数据将是实现人工智能的重要支撑,而人工智能是大数据研究的重要目标之一。但是,在人工智能研究早期,人们并不是这样认为的。早在 1957 年,由于人工智能系统在简单实例上的优越性能,研究者们曾信心满怀地认为,计算机将在 10 年内成为国际象棋冠军,而通过简单的句法规则变换和单词替换就可以实现机器翻译。事实证明:人们远远低估了人类智能的复杂性。即使在国际象棋这样规则和目标极为简单清晰的任务上,直到 40 年后的 1997 年,由 IBM 推出的深蓝超级计算机才宣告打败人类世界顶级国际象棋大师卡斯帕罗夫。而在机器翻译这样更加复杂的任务上(人们甚至在优质翻译的标准上都无法达成共识,更无法清晰地告诉机器),计算机至今还无法与人类翻译的水平相提并论。当时的问题在于,人们低估了智能的深度和复杂度。智能是分不同层次的。对于简单的智能任务(如对有限句式的翻译等),我们简单制定几条规则就能完成。但是对于语言理解、逻辑推理等高级智能,简单方法就显得力不从心。生物界中,从简单的单细胞生物进化到人类的过程,也是智能不断进化的过程。最简单的单细胞生物草履虫,虽然没有神经系统,却已经能够根据外界信号和刺激进行反应,实现趋利避害我们可以将其视作最简单的智能。而俄国高级神经活动生理学奠基人伊万彼得罗维奇巴甫洛夫的关于狗的条件反射实验,则向我们证明了相对更高级的智能水平:能根据铃声推断食物即将出现,也就是可以根据两种外界信号(铃声与食物)的关联关系实现简单的因果推理。人类智能则是智能的最高级形式,拥有语言理解、逻辑推理与想象等独特的能力。我们可以发现,低级智能只需小规模的简单数据或规则的支持,而高级智能则需要大规模的复杂数据的支持。
同样重要的,高级智能还需要独特计算架构的支持。很显然,人脑结构就与狗等动物有着本质的不同,因此,即使将一只狗像婴儿一样抚育,也不能指望它能完全学会和理解人类的语言,并像人一样思维。受到生物智能的启发,我们可以总结出如下图所示的基本结论:不同规模数据的处理,需要不同的计算框架,产生不同级别的智能。
关于人工智能是否要完全照搬人类智能的工作原理,目前仍然争论不休。有人举例:虽然人们受到飞鸟的启发发明了飞机,但其飞行原理(空气动力学)与飞鸟有本质不同;同样,生物界都在用双脚或四腿行走、奔跑,人们却发明了轮子和汽车实现快速移动。然而不可否认,大自然无疑是我们最好的老师。人工智能固然不必完全复制人类智能,但是知己知彼,方能百战不殆。生物智能带来的启示已经在信息处理技术发展中得到了印证。谷歌研究员、美国工程院院士 Jeff Dean 曾对大数据做出过类似结论:对处理数据规模 X 的合理设计可能在 10X 或 100X 规模下就会变得不合理。(Right design at X may be very wrong at 10X or 100X.)也就是说,大数据处理也需要专门设计新颖的计算架构。
而与人工智能密切相关的机器学习、自然语言处理、图像处理、语音处理等领域,近年来都在大规模数据的支持下取得了惊人的进展。我们可以确信,大数据是人工智能发展的必由之路。
人工智能的下一个里程碑
当下,以深度学习为代表的计算框架在很多具体任务上取得了重大的成果,甚至有媒体和公众已经开始因人工智能取代人类的可能性而恐慌。然而,理性地看,深度学习的处理能力和效率与人类大脑相比仍有巨大差距。因此,大数据智能并非孕育人工智能的终极之道。随着技术的进步和研究的深入,现有解决方案必然触及天花板,进入瓶颈期。
人脑拥有现有计算框架不可比拟的优势。例如,虽然人脑中的信号传输速度要远低于计算机中的信息传递速度,但是人脑在很多智能任务上的处理效率远高于计算机,例如在众多声音中快速识别出叫自己名字的声音,通过线条漫画认出名人,复杂数学问题的推导求解,快速阅读理解一篇文章,等等。可见,在计算速度受限的情况下,人脑一定拥有某种独特的计算框架,才能完成这些令人叹为观止的智能任务。
那么人工智能的下一个里程碑是什么呢?我们猜想,可能是神经科学及其相关学科。一直以来,神经科学都在探索各种观测大脑活动的工具和方法,并做出了大量的实证和建模工作。随着光控基因技术(optogenetics)和药理基因技术(pharmacogenetics)等新技术的发展,人们拥有了在时间和空间上更加精确地监测和控制大脑活动的能力,从而有望彻底发现人脑的神经机制。一旦人脑的神经机制被发现,有理由相信,人们可以迅速通过仿真等方式,在计算机中实现类似甚至更高效的计算框架,从而推动实现人工智能的最终目标。此外,量子计算、生物计算、新型芯片材料等领域的发展,都为我们展现出无限可能的未来。
当社会大数据、计算能力和计算框架三方面发展到一定阶段,融合产生了大数据智能。相信随着更大规模数据、更强计算能力和更合理计算框架的推出,人工智能也会不断向前发展。然而,正如前几年社会各界对物联网、云计算的追捧,最近社会上对大数据和人工智能概念的炒作愈演愈烈,产生了很多不切实际的幻想和泡沫。对于这个领域重新得到青睐,我们当然感到欣慰,但是,也不妨多一些谨慎和冷静。鉴古知今,回顾人工智能的曲折发展史(《人工智能一种现代方法》一书中有详细介绍),我们看到,在过度的期望破灭之后,随之而来的就是严冬。在大数据智能万众瞩目的今天,我们不妨心中常存对于凛冬将至的警惕。
事物总是在不断自我否定中螺旋式前进的,人工智能的探求之路也是如此。我们相信大数据是获得智能的必由之路,但现在的做法不见得就一定正确。多年之后,我们也许会用截然不同的办法处理大数据。然而这些都不重要,重要的是一颗执着的心和坚持不懈的信念。就像深度学习领域的巨人 Geoffrey Hinton、Yann LeCun 等,曾坐了十几年的冷板凳,研究成果屡屡被拒,到了 2019 年才荣膺计算机领域最高奖图灵奖。对真正的学者而言,研究领域是冷门还是热门也许不重要,反而会成为对从业者的试金石只有在寒冬中坚持下来的种子,才能等到春天绽放。
关于本书
本书前身《大数据智能互联网时代的机器学习和自然语言处理技术》出版于2016 年,作为一本技术科普书,在社会上得到了一些正面的反响。于是,我们邀请更多作者加入,在原有的 8 章内容基础上新增了 6 章内容。此外,对原有章节内容进行了适当更新,使内容更加全面。
本书并不想在已经熊熊燃烧的大数据火堆上再添一把柴。本书希望从人工智能这个新的角度,总结大数据智能取得的成果、局限性及未来可能的发展前景。本书共分 14 章,从大数据智能基础、技术和应用三个方面展开介绍。本书基础部分有 3 章。第 1 章以深度学习为例介绍大数据智能的计算框架;第 2 章以知识图谱为例介绍大数据智能的知识库;第 3 章介绍大数据的计算处理系统。在大数据智能的技术和应用部分,我们选择文本大数据作为主要场景进行介绍,主要原因在于,语言是人类智能的集中体现,语言理解也是人工智能的终极目标,图灵测试的设置是以语言作为媒介的。技术部分有 6 章,分别介绍主题模型、机器翻译、情感分析与意见挖掘、智能问答与对话系统、个性化推荐系统、机器写作等数据智能关键技术。应用部分有 5 章,分别介绍社交商业数据挖掘、智慧医疗、智慧司法、智能金融、计算社会学等典型应用场景。
大数据智能仍然是一个高速发展的领域。为了让读者能够了解这个领域的前沿进展,本书专门设置后记,为初学者追踪大数据智能的最新学术资料提供了建议。大数据智能方向众多,每位学者术业有专攻,很难独力完成所有章节内容。因此,我们邀请了多位作者撰写他们所擅长方向的章节。他们都在相关领域开展了多年研究工作,发表过高水平的论文。
2019 年 11 月于北京