新書推薦:
《
礼制考古经典选读
》
售價:NT$
1340.0
《
MATLAB实用教程(第六版)
》
售價:NT$
695.0
《
中国思想的再发现(壹卷:近观系列,沟口雄三教授以其精湛的学术洞察力,旨在呈现一个全面而立体的中国思想图景)
》
售價:NT$
325.0
《
骨科康复学(第2版)
》
售價:NT$
1140.0
《
笔记启蒙 : 英国皇家学会与科学革命
》
售價:NT$
390.0
《
汉语副词研究论集(第六辑)
》
售價:NT$
490.0
《
镶嵌之美:古希腊罗马的马赛克艺术
》
售價:NT$
1390.0
《
后希腊化哲学:从斯多亚学派到奥利金的发展研究
》
售價:NT$
349.0
|
編輯推薦: |
1. 聚焦互联网三大核心业务,详细阐述了检索匹配的理论和演进历史。
2. 通过落地一个基于深度学习算法模型的分布式机器学习业务案例来加深读者理解。
3. 随书免费赠送全部案例源代码和超过180分钟的高清学习视频。
|
內容簡介: |
《检索匹配:深度学习在搜索、广告、推荐系统中的应用》主要介绍了深度学习在互联网核心的三大类业务(搜索、广告、推荐系统)检索系统中的应用。书中详细讲述了检索匹配的理论、演进历史,以及在业务中落地一个基于深度学习算法模型的全流程技能,包括业务问题建模、样本准备、特征抽取、模型训练和预测等,并提供了相应的代码。
《检索匹配:深度学习在搜索、广告、推荐系统中的应用》共11章,分为四大部分。第1部分(第1~2章)介绍了深度学习的相关理论知识;第2部分(第3~6章)介绍了业务中如何上线一个深度学习模型,包括标签拼接、特征抽取、模型训练和预测等流程,采用单机实现;第3部分(第7~9章)介绍了检索算法基本理论以及演进历史,并以业内应用较为广泛的双塔模型DSSM为例进行了详细理论解析和代码实现;第4部分(第10~11章)介绍了如何将单机训练模式改造为分布式训练模式,以加快模型的训练速度,从而应对具有海量样本的业务场景。
《检索匹配:深度学习在搜索、广告、推荐系统中的应用》为读者提供了全部案例源代码下载和超过180分钟的高清学习视频,读者可直接扫描二维码观看。
《检索匹配:深度学习在搜索、广告、推荐系统中的应用》旨在为读者介绍深度学习在互联网业务中落地的方法和实现,主要面向算法工程师、相关领域研究人员和相关专业院校师生。
|
關於作者: |
康善同,本科毕业于南京大学,于北京大学获得计算机系统结构硕士学位,有十余年的互联网大厂一线算法相关工作经验。
|
目錄:
|
第1部分 理 论 准 备
第1章 深度学习时代/
1.1 深度学习的飞速发展/
1.2 深度学习在互联网的应用/
1.2.1 搜索/
1.2.2 推荐/
1.2.3 广告/
1.2.4 通用检索流程/
1.3 深度学习模型分类/
1.4 模型服务中台/
1.5 分布式机器学习/
1.6 深度学习软件框架/
1.7 小结/
第2章 深度学习简介/
2.1 生物神经网络/
2.2 人工神经网络/
2.3 业务问题建模/
2.4 DNN的拟合能力/
2.5 DNN的学习方式/
2.6 CNN与RNN/
2.7 小结/
第2部分 设计与实现
第3章 标签拼接/
3.1 时间窗口/
3.2 延迟反馈/
3.3 样本集介绍/
3.3.1 原始样本/
3.3.2 广告基本信息表/
3.3.3 用户基本信息表/
3.3.4 用户的行为日志/
3.4小结/
第4章 特征处理/
4.1 特征分类/
4.2 特征体系/
4.3 原始特征拼接/
4.3.1 拼接方法/
4.3.2 数据集特征拼接/
4.3.3 代码/
4.4 明文特征抽取/
4.4.1 特征抽取算子/
4.4.2 特征抽取示例/
4.5 特征ID化/
4.5.1 特征词表生成/
4.5.2 ID化示例/
4.6 代码说明/
4.7 小结/
第5章 模型构建/
5.1 DNN求解/
5.1.1 数学规划/
5.1.2 DNN方法/
5.2 模型层/
5.2.1 输入层/
5.2.2 神经网络层/
5.2.3 激活函数层/
5.3模型结构/
5.3.1 DLRM模型/
5.3.2 模型搭建/
5.4 损失函数/
5.4.1 MSE损失函数/
5.4.2 CrossEntropy损失函数/
5.5 优化器/
5.5.1 SGD/
5.5.2 Momentum/
5.5.3 Nesterov/
5.5.4 AdaGrad/
5.5.5 Adam/
5.5.6 扩展/
5.6 小结/
第6章 模型训练与预测/
6.1 模型评估/
6.2 模型训练/
6.2.1 模型训练流程/
6.2.2 模型训练技巧/
6.3 模型预测/
6.4 训练效果示例/
6.5 模型优化/
6.6 GPU应用/
6.7 小结/
第3部分 高级深度学习模型
第7章 检索算法理论/
7.1 检索算法抽象/
7.2 有表示匹配/
7.2.1 标签表示/
7.2.2 分布式表示/
7.3 无表示匹配/
7.4 内容理解/
7.4.1 自然语言处理/
7.4.2 计算机视觉/
7.4.3 一点思考/
7.5 用户理解/
7.6 总结/
第8章 检索算法演进/
8.1 前深度学习时代/
8.1.1 LR/
8.1.2 决策树/
8.1.3 协同过滤/
8.1.4 MF/
8.1.5 算法应用/
8.2 深度学习时代/
8.2.1 精排模型演进/
8.2.2 粗排模型演进/
8.2.3 召回模型演进/
8.3 小结/
第9章 DSSM理论与实现/
9.1 DSSM模型/
9.2 DSSM实现/
9.3 线上预测/
9.4 ANN检索/
9.4.1 基于树的方法/
9.4.2 基于Hash的方法/
9.4.3 基于图的方法/
9.4.4 ANN检索效率比较/
9.5 训练效果/
9.6 模型优化/
9.7 小结/
第4部分 分布式机器学习
第10章 计算机系统/
10.1 单机系统/
10.1.1 单机系统物理模型/
10.1.2 单机系统程序编程/
10.2 分布式系统/
10.2.1 分布式计算/
10.2.2 分布式存储/
10.2.3 分布式协同通信/
10.2.4 CAP理论/
10.2.5 一点思考/
10.3 分布式系统示例/
10.4 分布式编程示例/
10.5 小结/
第11章 分布式机器学习设计与实现/
11.1 机器学习应用系统设计/
11.2 分布式机器学习设计/
11.2.1 并行方式/
11.2.2 节点协作方式/
11.2.3 模型更新方式/
11.3 常用的分布式学习框架/
11.4 PS Lite介绍/
11.4.1 代码架构/
11.4.2 工作流程/
11.5 分布式训练实现/
11.5.1 架构设计/
11.5.2 代码实现/
11.5.3 程序运行/
11.5.4 模型保存与加载/
11.5.5 效果评估/
11.6 小结/
结语/
附录/
附录A 辅助学习资料/
|
內容試閱:
|
历史的车轮滚滚向前,事物总是处于不断的发展变化中,不断有新事物兴起,带来更加先进的生产力。对于互联网来说,内容分发和深度学习正是这样的新事物。
自从互联网(尤其是移动互联网)兴起后,其用户呈现指数级增长。在互联网里,每个用户都可以自由地发布文章、图片、视频等内容,从而导致互联网上产生了浩如烟海的内容。这些内容是如此之多,以至于互联网公司需要开发一套复杂的检索系统来为用户推送他们可能感兴趣的内容。为用户提供内容的业务可以称之为内容分发,用户通过搜索引擎查询相关知识,是主动的内容分发;用户打开短视频平台,观看平台推荐的各种短视频,是被动的内容分发。内容分发的三大核心业务即为搜索、广告和推荐系统。
内容分发业务的猛烈发展带来了检索匹配算法的快速进步。2011年,笔者次接触算法工作,召回的主流算法是协同过滤,排序用的是LR和GBDT。然而到了2015年,深度学习已经被引入到互联网业务中,并且四处开花,全面统治了互联网业务的算法系统。
与此同时,学术界对深度学习算法的研究也开展得如火如荼,各种基于深度学习的算法创新层出不穷。但是,在大型的互联网业务中,算法的核心目标是预估点击率、转化率、购买金额、观看时长等业务指标,这些算法任务面临的场景具有两个特点——海量的样本数据和高维稀疏的特征体系。因此在互联网业务中涌现出了很多独具特色的算法创新,譬如大规模的特征体系、模型的分布式训练/实时训练,以及与业务紧密结合的模型结构(如阿里的行为序列模型系列、百度的莫比乌斯模型)等。
《检索匹配:深度学习在搜索、广告、推荐系统中的应用》旨在向读者介绍在实际的互联网内容分发业务中,检索匹配算法的基本理论知识,以及深度学习模型实践。书中不仅详细介绍了检索匹配算法的各种分类和演进历史,以及模型上线所需要的样本准备、特征抽取、模型训练和预测服务等环节,并在此基础上,介绍了互联网业务中常用的高级网络结构和分布式机器学习。
纸上得来终觉浅,绝知此事要躬行。内容分发算法系统中充满着大量细节,必须理论结合代码实现才能有清晰的认识。本书提供了一个深度学习模型上线所需的全套代码(包括特征抽取、单机/分布式模型训练、模型预测、模型保存与加载等)供读者进行学习参考,并以淘宝广告点击率预估任务为示例详细介绍了每一个模块的实现和效果。
《检索匹配:深度学习在搜索、广告、推荐系统中的应用》为读者提供了全部案例源代码下载和超过180分钟的高清学习视频,读者可直接扫描二维码观看,也可以关注封底“IT有得聊”微信公众号下载(详见本书封底)。
希望本书所讲述的内容能够对从事算法相关研究或工作的读者有一些帮助。
特别感谢快手孔莹、B站李晓伟在深度学习理论与应用、分布式机器学习实现等方面与笔者进行的诸多探讨,令笔者受益良多。
后,非常感谢机械工业出版社的编辑老师在本书成书过程中的大力帮助和图书出版方面的专业指导。
康善同
2022年1月
|
|