新書推薦:
《
乐道文库·什么是秦汉史
》
售價:NT$
367.0
《
汉娜·阿伦特与以赛亚·伯林 : 自由、政治与人性
》
售價:NT$
500.0
《
女性与疯狂(女性主义里程碑式著作,全球售出300万册)
》
售價:NT$
500.0
《
药食同源中药鉴别图典
》
售價:NT$
305.0
《
设计中的比例密码:建筑与室内设计
》
售價:NT$
398.0
《
冯友兰和青年谈心系列:看似平淡的坚持
》
售價:NT$
254.0
《
汉字理论与汉字阐释概要 《说解汉字一百五十讲》作者李守奎新作
》
售價:NT$
347.0
《
汗青堂丛书144·决战地中海
》
售價:NT$
765.0
|
編輯推薦: |
《数据科学技术:文本分析和知识图谱》是一本深入浅出的数据科学技术指南。书中详细介绍了文本分析和知识图谱等关键技术,结合典型案例展示了数据科学在安全、应急等行业的应用实践。无论你是数据科学领域的专业人士还是对数据科学感兴趣的读者,这本书都能帮助你深入了解数据科学的基本概念、方法和最新技术。通过学习《数据科学技术:文本分析和知识图谱》,你将能够掌握数据科学的核心知识,为自己的职业发展和创新项目提供有力支持。
|
內容簡介: |
数据科学的关键技术包括数据存储计算、数据治理、结构化数据分析、语音分析、视觉分析、文本分析和知识图谱等方面。本书的重点是详细介绍文本分析和知识图谱方面的技术。文本分析技术主要包括文本预训练模型、多语种文本分析、文本情感分析、文本机器翻译、文本智能纠错、NL2SQL问答以及ChatGPT大语言模型等。知识图谱技术主要包括知识图谱构建和知识图谱问答等。本书将理论介绍和实践相结合,详细阐述各个技术主题的实现路线,并对应用于业界算法大赛中的技术方案和技巧进行源代码解读,帮助读者深入理解技术原理。最后,本书还介绍了文本分析和知识图谱技术在政务、公共安全、应急等多个行业中的智能应用实践案例。
《数据科学技术:文本分析和知识图谱》适合具备Python和机器学习技术基础的高等院校学生、文本分析(或者自然语言处理)以及知识图谱领域的算法工程师和研究机构的研究者阅读,也适合数据科学和人工智能领域的研究者作为参考书。
|
關於作者: |
苏海波
清华大学电子工程系博士,副研究员,在文本分析、知识图谱、大模型等人工智能方向拥有超过十年的研发实践经验。多篇SCI和EI论文发表于国外顶尖学术会议和期刊,获得国家发明专利20余项,曾担任科技部重点研发计划子课题负责人。获得2019年和2020年北京市科学技术进步奖,带领团队获得多个业界知名算法技术评测的冠军和亚军。
刘译璟
北京大学博士、正高级工程师,现任北京百分点科技集团股份有限公司CTO。在云计算、大数据、人工智能等领域拥有15年研究和工作经验。曾荣获北京市科学技术奖等奖项,承担国家科技部重点研发计划项目2项,参与多个国家自然科学基金项目,多篇论文曾发表于国内外学术刊物。
易显维
中国地质大学硕士,拥有12年AI算法研发岗相关研发管理经验。在数据挖掘、OCR、文本分析等方面拥有丰富的实践经验,在众多知名企事业单位举办的高水平机器学习算法竞赛中累计获奖20余次。
苏 萌
美国康奈尔大学博士,研究员, 现任北京百分点科技集团股份有限公司董事长兼CEO、北京大学国家发展研究院实践教授、北京大学光华管理学院实践教授、北京市商会副会长、海淀区工商联副主席、海淀区政协委员、国务院学位委员会全国应用统计专业 “大数据专家委员会\ 委员等。曾执教于北京大学光华管理学院,任副系主任、博士生导师。
|
目錄:
|
第1章 什么是数据科学 1
1.1 数据科学的定义 1
1.1.1 数据科学的背景 1
1.1.2 数据科学的定义 1
1.2 数据科学的关键技术 3
1.2.1 数据存储计算 5
1.2.2 数据治理 12
1.2.3 结构化数据分析 28
1.2.4 语音分析 44
1.2.5 视觉分析 55
1.2.6 文本分析 61
1.2.7 知识图谱 65
1.3 本章小结 65
1.4 习题 66
1.5 本章参考文献 66
第2章 文本预训练模型 68
2.1 文本分析技术的发展史 68
2.2 Transformer模型结构 70
2.3 预训练模型的结构和变种 75
2.4 加速处理器GPU和TPU 79
2.4.1 GPU的介绍 79
2.4.2 GPU产品命名 80
2.4.3 TPU和GPU的区别 83
2.4.4 TPU的使用总结 84
2.5 预训练模型的常见问题 87
2.5.1 模型输入的常见问题 87
2.5.2 模型原理的常见问题 90
2.5.3 模型进化的常见问题 94
2.6 预训练模型的源码解读 96
2.6.1 模型架构 96
2.6.2 BertModel 96
2.6.3 BERT预训练任务 107
2.6.4 BERT 微调 112
2.7 本章小结 114
2.8 习题 114
2.9 本章参考文献 115
第3章 多语种文本分析 116
3.1 多语种文本分析背景介绍 116
3.2 多语种文本分析技术 116
3.2.1 Polyglot技术 116
3.2.2 Multilingual BERT 117
3.2.3 XLM多语言模型 117
3.2.4 XLMR多语言模型 119
3.2.5 模型实验效果 120
3.3 多语种文本分析源码解读 121
3.4 本章小结 125
3.5 习题 126
3.6 本章参考文献 126
第4章 文本情感分析 127
4.1 情感分析背景介绍 127
4.2 情感分析技术 127
4.2.1 目标和挑战 127
4.2.2 技术发展历程 129
4.2.3 情感分析的需求分析 133
4.2.4 情感分析的落地实践 134
4.2.5 模型开发平台的构建 137
4.3 情感分析比赛和方案 144
4.3.1 背景介绍 144
4.3.2 方案介绍 146
4.3.3 数据清洗和增广 147
4.3.4 多模态融合 147
4.3.5 机器学习技巧 148
4.4 情感分析源码解读 151
4.4.1 F1值适应优化技巧代码 151
4.4.2 对抗训练代码 152
4.5 本章小结 154
4.6 习题 154
4.7 本章参考文献 155
第5章 文本机器翻译 156
5.1 机器翻译背景介绍 156
5.2 机器翻译技术 157
5.2.1 基于规则的机器翻译 157
5.2.2 统计机器翻译 158
5.2.3 神经网络机器翻译 159
5.2.4 Encoder-Decoder模型 161
5.2.5 注意力机制模型 162
5.2.6 工业级神经网络实践 164
5.3 机器翻译比赛和方案 167
5.3.1 WMT21翻译任务 167
5.3.2 WMT22 翻译任务 168
5.4 机器翻译源码解读 169
5.4.1 通用框架介绍 169
5.4.2 翻译模型实现 170
5.5 本章小结 180
5.6 习题 181
5.7 本章参考文献 181
第6章 文本智能纠错 183
6.1 文本纠错背景介绍 183
6.2 文本智能纠错技术 184
6.2.1 智能纠错的意义和难点 185
6.2.2 智能纠错解决的问题 185
6.2.3 业界主流解决方案 186
6.2.4 技术方案实践 190
6.3 文本智能纠错技术 193
6.3.1 比赛介绍 193
6.3.2 校对问题思考 194
6.4 纠错方案和源码解读 195
6.4.1 GECToR原理解读 195
6.4.2 MacBERT原理解读 199
6.4.3 PERT原理解读 200
6.4.4 PLOME原理解读 202
6.4.5 比赛方案 203
6.5 本章小结 204
6.6 习题 205
6.7 本章参考文献 205
第7章 知识图谱构建 206
7.1 知识图谱背景介绍 206
7.1.1 知识和知识图谱 206
7.1.2 知识获取、知识抽取与信息抽取
的区别207
7.1.3 知识图谱构建范式 208
7.2 非结构化信息抽取技术 211
7.2.1 信息抽取框架 211
7.2.2 命名实体识别 212
7.2.3 关系识别 213
7.2.4 事件抽取 215
7.3 生成式统一模型抽取技术 216
7.4 模型源码解读 220
7.5 本章小结 224
7.6 习题 224
7.7 本章参考文献 225
第8章 知识图谱问答 226
8.1 背景介绍 226
8.2 知识图谱问答技术 229
8.2.1 信息检索方法 229
8.2.2 语义解析方法 231
8.3 方案和源码解读 233
8.3.1 NL2SPARQL 233
8.3.2 NL2SPARQL语义解析方案 234
8.3.3 T5、BART、UniLM模型简介 234
8.3.4 T5、BART、UniLM方案 236
8.3.5 训练T5、BART、UniLM
生成模型 237
8.3.6 语义排序方案和代码 239
8.3.7 SPARQL修正代码 241
8.4 本章小结 245
8.5 习题 245
第9章 结构化知识NL2SQL问答 246
9.1 NL2SQL背景介绍 246
9.2 NL2SQL技术 249
9.2.1 NL2SQL技术路线 249
9.2.2 NL2SQL项目实践 255
9.3 NL2SQL比赛和方案 256
9.4 NL2SQL源码解读 259
9.5 本章小结 269
9.6 习题 269
9.7 本章参考文献 270
第10章 ChatGPT大语言模型 271
10.1 ChatGPT介绍 271
10.1.1 ChatGPT的定义和背景 271
10.1.2 ChatGPT的发展历程 272
10.2 GPT模型概述 272
10.2.1 GPT-1模型的原理 272
10.2.2 GPT-2模型的原理 273
10.2.3 GPT-3模型的原理 275
10.3 ChatGPT的实现原理 277
10.3.1 大模型的微调技术 277
10.3.2 ChatGPT的能力来源 278
10.3.3 ChatGPT的预训练和微调 279
10.4 ChatGPT的应用 282
10.4.1 ChatGPT提示工程 282
10.4.2 ChatGPT应用场景 283
10.4.3 ChatGPT的优缺点 284
10.5 开源大模型 285
10.5.1 ChatGLM大模型 285
10.5.2 LLaMA大模型 288
10.6 本章小结 294
10.7 习题 294
10.8 本章参考文献 295
第11章 行业实践案例 296
11.1 智慧政务实践案例 296
11.1.1 案例背景 296
11.1.2 解决方案 297
11.1.3 系统架构和实现 299
11.1.4 案例总结 307
11.2 公共安全实践案例 308
11.2.1 案例背景 308
11.2.2 解决方案 309
11.2.3 系统架构及实现 311
11.2.4 案例总结 317
11.3 智能应急实践案例 318
11.3.1 案例背景 319
11.3.2 解决方案 320
11.3.3 系统架构及实现 321
11.3.4 案例总结 332
11.4 本章小结 334
11.5 习题 334
|
內容試閱:
|
欢迎阅读《数据科学技术:文本分析和知识图谱》。本书是作者在数据科学领域多年技术
积累和业务实践的结晶。数据科学作为一门引领时代的技术和领域,正在以前所未有的速度
发展和演进。在本书中,我们将深入探讨数据科学背后的关键技术,特别是文本分析和知识图
谱等领域,为读者提供相关的技术知识和实践指导。
我们生活在一个信息爆炸的时代,每天都产生着海量的文本数据。如何从这些数据中提
取有价值的信息和知识成为当下数据科学的核心任务之一。文本分析技术作为数据科学的重
要组成部分,可以帮助我们从文本中挖掘出隐藏的信息,理解人类语言的含义和情感,并做出
准确的预测和决策。同时,随着多语种文本分析、文本情感分析、文本机器翻译等技术的发展,
文本分析正日益成为跨语言交流、智能问答、智能创作等领域的关键技术。
另一个本书关注的关键技术是知识图谱。知识图谱通过将现实世界的信息进行结构化和
连接,构建出了一个庞大的知识库,可以帮助我们更好地理解和组织知识。知识图谱技术在语
义搜索、智能问答、关联分析等领域发挥着重要的作用。本书将详细介绍知识图谱的构建过
程、知识图谱问答系统的实现以及结构化知识NL2SQL问答等相关技术,旨在帮助读者深入
理解并应用知识图谱技术。
在过去的几年里,大语言模型技术得到了蓬勃发展,为数据科学的进步做出了巨大贡献。
其中,ChatGPT作为大型预训练语言模型的代表之一,具备惊人的生成能力,能够产生流畅、
富有逻辑的文本。ChatGPT已经在智能对话、自动写作、语言理解等多个领域取得了突破性的
应用。本书也将重点介绍ChatGPT这一领域的前沿技术,并介绍它在文本分析和知识图谱等
领域的应用。
数据科学技术的发展势头迅猛,已经深入到政务、公共安全、应急等多个行业,推动了各
个领域智能应用的快速发展。本书的最后一部分将重点展现文本分析和知识图谱技术在这些
行业中的实际应用案例,以此向读者展示数据科学在解决实际问题时发挥的关键作用。
数据科学是一个巨大而广阔的领域。通过本书的技术原理讲解和案例呈现,我们希望能
够帮助读者全面了解数据科学的技术要点和前沿动态,深入掌握文本分析和知识图谱等关键
技术,并为读者提供实际应用的指导和启示。相信通过阅读本书,您将能够更好地应对数据科
学的挑战,并为实现智能化的未来贡献自己的力量。
祝您阅读愉快,收获满满!
本书主要内容
本书共分为11章,详细介绍了数据科学的各项关键技术,重点围绕文本分析和知识图谱
方面的技术。
第1章主要介绍数据科学的定义和关键技术,数据科学的关键技术包括数据存储计算、
数据治理、结构化数据分析、语音分析、视觉分析、文本分析和知识图谱等。
第2章主要回顾文本分析技术的发展史,内容包括Transformer(变换器)模型结构、预训
练模型结构及其变种、AI加速硬件GPU和TPU、预训练模型中TPU的使用,以及预训练模型
的常见问题和源码解读等方面。
第3章主要介绍多语种文本分析的背景,以及多语种文本分析的各种技术,包括Polyglot
模型、Multilingual BERT模型、XLM模型、XLMR模型等,还对这些模型的实验效果进行了
讨论,并对模型的源代码进行解读。
第4章主要介绍文本情感分析的背景、目标和挑战以及技术发展历程。还涵盖了需求分
析、实际应用和开发平台的构建,情感分析比赛中采用的方案。最后,对这些方案的源代码进
行解读。
第5章主要介绍文本机器翻译的背景和各种机器翻译技术,包括规则方法、统计方法、神
经网络、注意力机制和Transformer模型等。此外,还涵盖了机器翻译比赛中采用的方案,并对
这些方案的源代码进行解读。
第6章主要介绍文本智能纠错的背景以及各种智能纠错技术,具体包括业界主流的解决
方案和实践案例,此外,还介绍了智能纠错比赛和相关方案,并对这些方案的原理和源代码进
行解读。其中包括 GECToR、MacBERT、PERT、PLOME等。
第7章主要介绍知识图谱构建的背景和构建范式,涵盖知识的定义、结构化数据、半结构
化数据和非结构化数据的抽取方案。对于非结构化信息抽取,重点介绍了实体识别、关系识别
和事件抽取的各种方案。最后,介绍了生成式统一模型抽取技术。
第8章主要介绍知识图谱问答的技术原理,包括信息检索方法和语义解析方法,然后讲解
知识图谱问答的具体技术实现方案和对源码进行解读。
第9章主要介绍结构化知识NL2SQL问答的背景和NL2SQL技术,具体包括X-SQL、
IRNET、SQLNET等。还将介绍NL2SQL比赛和相关方案,并对这些方案的源代码进行解读。
第10章主要介绍ChatGPT大语言模型的定义和背景,以及ChatGPT的发展历程,概述了
GPT-1、 GPT-2、GPT-3三代模型的原理,以及ChatGPT的实现原理,包括大模型的微调技术、
能力来源、预训练和微调等。还阐述了ChatGPT的应用,包括提示工程、应用场景和优缺点,
并介绍了开源大模型ChatGLM、LLaMA的原理。
第11章主要介绍智慧政务、公共安全、智慧应急等多个行业在文本分析和知识图谱方面的
实践案例。针对每个案例,介绍了具体的案例背景、解决方案、系统架构和实现过程,最后对案例进行总结。
致 谢
本书由苏海波、刘译璟、易显维和苏萌共同编写完成。其中,第1章由刘译璟编写,第2~5章、
第7章、第10章由苏海波编写,第6章、第8章、第9章由易显维编写,第11章由苏萌编写。另外,本书
的编写还得到了杜晓梦、赵群、黄子珍、左祥、郑义、赵硕等同事的协助,在此表示感谢。
在编写本书的过程中,我们参考了大量的相关论文和他人的文献。这些优秀的研究工作为
我们提供了宝贵的参考和启发,使本书的内容更加准确和全面。对此,我们表示衷心的感谢。
此外,我们要感谢出版社编辑对这本书的重视。他们在本书的出版工作中提供了大力的
协助、进行了反复校正和润色,保证了本书的质量,使本书能够顺利出版。
资源下载
本书提供了源代码,可以扫描下方二维码下载。
如果下载有问题,请联系booksaga@126.com,邮件主题为“数据科学技术:文本分析和
知识图谱”。
最后,我们衷心感谢所有关心和支持本书的读者。正是因为你们的关注和鼓励,给予了我
们持续前行的动力。我们希望本书能为你们提供有价值的知识和观点,同时也愿意听到你们
的反馈和建议,以便我们不断改进完善本书。
在编写本书的过程中,我们面临了许多挑战和困难,但也获得了无数宝贵的经验和成长。
我们对每个人的付出和贡献心存感激,并相信本书将为数据科学技术的学习者、从业者和研
究者带来实际的帮助和启发。
编 者
2023 年 11 月
|
|