新書推薦:
《
推拿纲目
》
售價:NT$
1836.0
《
精致考古--山东大学实验室考古项目论文集(一)
》
售價:NT$
1112.0
《
从天下到世界——国际法与晚清中国的主权意识
》
售價:NT$
347.0
《
血色帝国:近代英国社会与美洲移民
》
售價:NT$
265.0
《
海外中国研究·王羲之:六朝贵族的世界(艺术系列)
》
售價:NT$
811.0
《
唐宋绘画史 全彩插图版
》
售價:NT$
449.0
《
“御容”与真相:近代中国视觉文化转型(1840-1920)
》
售價:NT$
505.0
《
鸣沙丛书·大风起兮:地方视野和政治变迁中的“五四”(1911~1927)
》
售價:NT$
454.0
|
編輯推薦: |
1.【实操】涉及技术原理、实现细节和实践应用,涵盖向量数据库的方方面面
2.【生动】10次版本迭代/10000行代码;27张表/41幅图/22个思维导图轻松学
3.【专业】作者罗云是腾讯云向量数据库负责人,带领团队积累了丰富的一线经验
4.【热门】自制成功立马投入实践,带大家结合RAG实现个人知识库等大模型应用
5.【简单】附赠随书代码,随学随查——原来,构建向量数据库如此简单!
|
內容簡介: |
这是一本需要“动手实践”的图书,通过带领大家从零构建一款分布式向量数据库,让大家透彻理解向量数据库的技术原理和实现细节。
本书共分为三大部分,内容由浅入深、循序渐进。“第一部分 认识向量数据库”(第1~3章)是基础篇,介绍向量数据库的基础知识,涵盖向量及数据库的基本概念、向量数据库的发展历程和核心功能。“第二部分 构建向量数据库”(第4~6章)是核心篇,详细介绍如何从零开始构建并优化向量数据库,巨细靡遗地展示数据库内核的技术实现细节并辅以代码示例、技术架构图等,旨在让大家真正实现动手写向量数据库。“第三部分 向量数据库的实践与展望”(第7~8章)是结束篇,通过实践案例展示向量数据库在AI应用中的使用方法,并尝试勾勒向量数据库的未来。
本书面向数据库开发人员、数据库管理员、数据库架构师等数据库从业人员,AI从业者,及其他对向量数据库感兴趣的读者。
|
關於作者: |
罗云 腾讯云数据库副总经理、腾讯云创始团队成员、中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)数据库与存储工作组副组长。 十余年云计算产品技术专家,在复杂分布式系统的建设和管理上实践多年并积累了丰富的经验,擅长将数据治理技术(采集、加工、存储、检索)和AI结合,在AI时代更好地发挥数据的价值。 领导多个平台或产品完成从0到1的上线与商业化运营,达到国内领先水平,其中包括: 1. 一站式 Serverless开发平台(小程序云开发) 2. TencentDB for Redis/MongoDB/KeeWiDB、Tencent Cloud VectorDB等数据库产品 3. 腾讯云数据传输服务(DTS)、数据库智能管家(DBbrain)等多款数据采集和智能化应用平台
|
目錄:
|
第 一部分 认识向量数据库
第 1章 向量数据库基础 2
1.1 向量 2
1.1.1 什么是向量 2
1.1.2 万物皆可向量 4
1.1.3 向量间的相似度 6
1.1.4 相似度应用案例 8
1.2 数据库 11
1.2.1 什么是数据库 11
1.2.2 关系型数据库 13
1.2.3 非关系型数据库 14
1.2.4 传统数据库的限制 15
1.3 为什么需要向量数据库 16
1.3.1 向量数据和传统数据的差异 16
1.3.2 向量数据库应运而生 17
1.3.3 大模型时代的智能存储平台 18
1.4 小结 19
第 2章 向量数据库极简史 21
2.1 孕育期(1980—2012) 21
2.1.1 深度神经网络的飞速发展 22
2.1.2 深度神经网络vs向量数据库 23
2.2 诞生期(2012—2017) 24
2.3 成长期(2017年至今) 25
2.3.1 行业发展简况 26
2.3.2 代表性产品能力对比 27
2.3.3 代表性产品技术架构 28
2.4 小结 32
第3章 向量数据库的核心能力 33
3.1 基础能力 33
3.1.1 逻辑层次 34
3.1.2 索引 39
3.1.3 关键指标 42
3.2 高阶能力 43
3.2.1 动态schema 43
3.2.2 别名机制 44
3.2.3 向量化 45
3.2.4 混合查询 46
3.3 小结 47
第二部分 构建向量数据库
第4章 实现单机向量数据库 50
4.1 实现向量数据索引 50
4.1.1 FAISS核心功能 51
4.1.2 实现扁平索引 56
初始版本v0.0.1 62
4.1.3 HNSWLib核心功能 63
4.1.4 实现HNSW索引 70
版本迭代v0.0.2 73
4.2 实现混合数据索引 74
4.2.1 实现标量数据索引 74
4.2.2 统一管理入口 76
版本升级v0.1 79
4.2.3 实现过滤索引 80
版本迭代v0.1.1 86
4.3 实现系统异常恢复 87
4.3.1 数据日志持久化 87
版本迭代v0.1.2 91
4.3.2 数据快照持久化 92
版本升级v0.2 97
4.4 小结 97
第5 章 实现分布式向量数据库 99
5.1 集群数据管理 100
5.1.1 认识NuRaft 102
5.1.2 建立主从关系 106
5.1.3 实现数据复制 110
版本升级v0.3 113
5.2 集群流量管理 113
5.2.1 集群的元数据管理 114
5.2.2 统一的流量入口 117
5.2.3 读写分离 121
5.2.4 保证读写一致性 122
版本升级v0.4 123
5.3 集群异常管理 123
5.3.1 发现新主节点 123
5.3.2 发现故障从节点 125
5.3.3 实现故障切换 127
版本升级v0.5 128
5.4 集群的分片 130
5.4.1 配置集群的分片策略 130
5.4.2 根据分片策略转发请求 132
版本升级v0.6 139
5.5 小结 140
第6 章 优化向量数据库 142
6.1 性能优化 143
6.1.1 利用指令集优化向量计算 143
6.1.2 优化查询算法 144
6.1.3 优化通信协议 147
6.1.4 自定义基准测试工具 149
6.2 成本优化 154
6.2.1 多模块混合部署 155
6.2.2 单节点部署 158
6.3 易用性优化 160
6.3.1 SDK 160
6.3.2 访问鉴权 162
6.3.3 数据备份 169
6.4 小结 172
第三部分 向量数据库的实践与展望
第7 章 向量数据库实践案例 176
7.1 搭建图片查询系统 176
7.1.1 图片向量化 176
7.1.2 图片上传和查询 179
7.1.3 系统效果一览 181
7.2 搭建个人知识库 182
7.2.1 知识预处理 182
7.2.2 知识向量化 183
7.2.3 知识库管理 184
7.2.4 知识问答 185
7.2.5 系统效果一览 186
7.3 小结 187
第8 章 展望 189
8.1 从行业演进视角看 190
8.1.1 人类调度数据新范式 190
8.1.2 向量数据抹平数据格式差异 192
8.1.3 向量数据库平台化的关键 193
8.2 从行业应用视角看 194
8.2.1 RAG 简介 195
8.2.2 降低RAG 使用门槛 196
8.3 小结 197
|
|