新書推薦:
《
王氏之死(新版,史景迁成名作)
》
售價:NT$
250.0
《
敢为天下先:三年建成港科大
》
售價:NT$
352.0
《
直观的经营:哲学视野下的动态管理
》
售價:NT$
407.0
《
长高食谱 让孩子长高个的饮食方案 0-15周岁儿童调理脾胃食谱书籍宝宝辅食书 让孩子爱吃饭 6-9-12岁儿童营养健康食谱书大全 助力孩子身体棒胃口好长得高
》
售價:NT$
214.0
《
身体自愈力:解决内在病因的身体智慧指南
》
售價:NT$
449.0
《
非言语沟通经典入门:影响人际交往的重要力量(第7版)
》
售價:NT$
560.0
《
山西寺观艺术壁画精编卷
》
售價:NT$
7650.0
《
中国摄影 中式摄影的独特魅力
》
售價:NT$
4998.0
|
編輯推薦: |
《动手学图机器学习》并不是一本纯粹介绍图机器学习理论的著作,Alessandro Negro 博士作为科学家和 Reco4 公司的 CEO,长期维护图数据源的推荐系统。他结合机器学习工程和图机器学习方法,通过推荐引擎、欺诈检测和知识图谱等案例,讲述了图机器学习工程实战。他以源代码为示例,逐步讲述其实现过程,以及如何更有效地管理图数据、实施算法、存储预测模型和可视化结果。本书适合作为数据科学家和数据科学从业者以及企业工程师的参考书。
《动手学图机器学习》内容涉及图数据工程、图数据库存储、图机器学习技术、图机器学习结果可视化,涵盖了整个软件工程的生命周期。建议读者借鉴这种思维模式,将这种工程思维模式迁移到其他机器学习项目实战中。另外,本书很好地将图机器学习算法和应用案例相结合,以核心代码为例进行讲解,如果读者要思考机器学习理论如何解决实际项目问题,本书值得借鉴。在现实中,往往很难用前沿技术来解决实际问题,机器学习项目也很难落地,本书在这两个方面有很多值得借鉴的意义。此外,从本书中也可发现,单一的算法或模型很难解决实际问题,往往要使用混合模型或者将多个机器学习算法相结合形成混合机器学习算法
|
內容簡介: |
识别关系是机器学习的基础。通过识别和分析数据中的关系,以图为核心的算法(如K-邻近或PageRank)显著提高了机器学习应用的效率。基于图的机器学习技术以全新方式为社交网络、欺诈检测、自然语言处理和推荐系统等领域的机器学习提供了强有力的支持。
《动手学图机器学习》是行业类的权威书籍,旨在倾授如何利用面向图的机器学习算法和工具,充分挖掘结构化和非结构化数据集中的自然关系,读者可以从中吸收图架构和图设计实践的精髓,并学会从容避开常见的陷阱。作者Alessandro Negro通过真实的应用示例,将GraphML(一种图建模语言)概念与实际任务完美联系起来,使读者能够更好地理解图技术在机器学习中的价值,并熟练应用该技术。
● 大数据平台中的图
● 推荐、自然语言处理、欺诈检测
● 图算法
● 与Neo4j图数据库协作
|
關於作者: |
Alessandro Negro,GraphAware的首席科学家,是机器学习及图技术领域的杰出专家。他备受业界认可,是众多会议争相邀请的发言人,并拥有计算机科学博士学位。
|
目錄:
|
第Ⅰ部分 导论
第1 章 机器学习和图:介绍 3
1.1 机器学习项目生命周期 5
1.1.1 业务理解 6
1.1.2 数据理解 6
1.1.3 数据预处理 7
1.1.4 建模 7
1.1.5 评估 8
1.1.6 部署 8
1.2 机器学习挑战 8
1.2.1 事实来源 8
1.2.2 性能 11
1.2.3 存储模型 11
1.2.4 即时性 12
1.3 图 12
1.3.1 什么是图 12
1.3.2 图作为网络模型 15
1.4 图在机器学习中的作用 20
1.4.1 数据管理 21
1.4.2 数据分析 21
1.4.3 数据可视化 22
1.5 本书心智模型 22
1.6 本章小结 23
第2 章 图数据工程 24
2.1 处理大数据 26
2.1.1 数量 27
2.1.2 速度 29
2.1.3 多样性 31
2.1.4 真实性 32
2.2 大数据平台中的图 33
2.2.1 图对于大数据很有价值 34
2.2.2 图对于主数据管理意义重大 40
2.3 图数据库 44
2.3.1 图数据库管理 45
2.3.2 分片 47
2.3.3 复制 49
2.3.4 原生与非原生图数据库 51
2.3.5 标签属性图 55
2.4 本章小结 56
第3 章 图在机器学习应用中的作用 58
3.1 机器学习工作流中的图 59
3.2 管理数据源 61
3.2.1 监控目标 64
3.2.2 检测欺诈 67
3.2.3 识别供应链中的风险 69
3.2.4 推荐条目 70
3.3 算法 76
3.3.1 识别供应链中的风险 76
3.3.2 在文档中查找关键词 78
3.3.3 监控目标 80
3.4 存储并访问机器学习模型 81
3.4.1 推荐条目 82
3.4.2 监控目标 84
3.5 可视化 87
3.6 剩余部分:深度学习和图神经网络 89
3.7 本章小结 91
第Ⅱ部分 推荐
第4 章 基于内容的推荐 97
4.1 表示条目特征 99
4.2 对用户进行建模 112
4.3 提供推荐 118
4.4 图方法的优点 137
4.5 本章小结 137
第5 章 协同过滤 138
5.1 协同过滤推荐 141
5.2 为User-Item 数据集创建二部图 142
5.3 计算最近邻网络 147
5.4 提供推荐 156
5.5 处理冷启动问题 161
5.6 图方法的优点 164
5.7 本章小结 165
第6 章 基于会话的推荐 166
6.1 基于会话的方法 166
6.2 事件链和会话图 169
6.3 提供推荐 174
6.3.1 基于条目的k-NN 175
6.3.2 基于会话的k-NN 180
6.4 图方法的优点 185
6.5 本章小结 185
第7 章 上下文感知和混合推荐 186
7.1 基于上下文的方法 186
7.1.1 表示上下文信息 189
7.1.2 提供推荐 193
7.1.3 图方法的优点 208
7.2 混合推荐引擎 209
7.2.1 多模型,单图 210
7.2.2 提供推荐 212
7.2.3 图方法的优点 214
7.3 本章小结 214
第Ⅲ部分 打击欺诈
第8 章 图欺诈检测的基本方法 217
8.1 欺诈预防和检测 218
8.2 图在打击欺诈行为中的作用 222
8.3 铺垫:基本方法 229
8.3.1 寻找信用卡诈骗的源头 229
8.3.2 识别欺诈环 236
8.3.3 图方法的优点 242
8.4 本章小结 242
第9 章 基于邻近算法 243
9.1 基于邻近算法:介绍 244
9.2 基于距离的方法 245
9.2.1 将交易存储为图 247
9.2.2 创建k 最近邻图 248
9.2.3 识别欺诈交易 255
9.2.4 图方法的优点 263
9.3 本章小结 263
第10 章 社交网络分析反欺诈 264
10.1 社交网络分析概念 266
10.2 基于分数的方法 269
10.2.1 邻域度量 272
10.2.2 中心性指标 278
10.2.3 集体推理算法 285
10.3 基于聚类的方法 289
10.4 图的优点 293
10.5 本章小结 294
第Ⅳ部分 用图训练文本
第11 章 基于图的自然语言处理 297
11.1 一个基本方法:存储和访问单词序列 300
11.2 NLP 和图 309
11.3 本章小结 322
第12 章 知识图谱 323
12.1 知识图谱:介绍 323
12.2 知识图谱构建:实体 327
12.3 知识图谱构建:关系 334
12.4 语义网络 341
12.5 无监督关键字提取 346
12.5.1 关键字共现图 353
12.5.2 聚类关键字和主题识别 354
12.6 图方法的优点 357
12.7 本章小结 357
附录A 机器学习算法分类 359
附录B Neo4j 362
附录C 处理图模式和工作流 374
附录D 表示图 381
|
內容試閱:
|
在我记忆中,2012 年的夏天是意大利南部最热的夏天之一。当时,我和妻子正等候着我们的第一个儿子降生,由于临近生产,我们很少外出,也没能享受阿普利亚清新干净的溪水。在这段时间里,你可以沉迷于DIY(我并没有),或者做一些具有挑战性的事情。
因为我对数独游戏不太感兴趣,于是开展了一个仅在晚间和周末进行的项目:尝试构建一个通用的推荐引擎,该引擎可以服务于多个范围和场景,从小而简单的用户-条目交互数据集到复杂但清晰的数据集,最终包含相关的上下文信息。
就在这时,图(Graph)强行进入了我的生活。这种灵活的数据模型使我可以用相同方式存储用户的购买行为,还可以存储所有的推论信息(后文正式定义为上下文信息)以及生成的推荐模型。当时,Neo4j 1.x 刚刚发布。虽然那时它还没有Cypher 和现在所具备的其他高级查询机制,但它足够稳定,可以作为我项目的主要图数据库。我利用图来解决项目中出现的难题,4 个月后,我发布了reco4j 的alpha 版本,这是史上第一个基于图的推荐引擎!
此后,我开始了一段真挚热烈的工作经历。我独自尝试,四处推广reco4j 的理念,坚持了3 年(说实话,并不是很成功),直到我与GraphAware(一家小型咨询公司,帮助许多公司成功完成了有关图的项目)的首席执行官Michal Bachman 通了电话。几天后,我飞往伦敦,与其签订合同,成为该公司的第六名员工。此后,图便成了我生命中最重要的一部分(但当然,排在我的两个孩子之后)。
之后,图的生态系统发生了很大变化。越来越多的大公司开始采用图作为其核心技术,为客户提供高级服务或解决内部问题。GraphAware 取得了显著进展,我成了首席科学家,有机会利用图来帮助公司构建新服务并改进现有服务。图不仅能够解决传统问题——从基本的搜索工具到推荐引擎,从欺诈检测到信息检索——还能够作为重要技术手段,改进并增强机器学习项目。为了对自然连接数据和非连接数据执行不同类型的分析,网络科学和图算法提供了一些新工具。
从事咨询工作多年以来,每当与数据科学家和数据工程师交谈时,我发现了许多常见问题可以利用图模型或图算法解决。通过向人们展示处理机器学习项目的不同方式,积累了丰富经验,得益于此,我写下本书。图无法解决所有问题,但可以作为解决问题的一把利剑。通过学习本书,你也可以开启自己的美妙科研之旅。
关于本书
《动手学图机器学习》是一本有关在机器学习应用程序中如何有效使用图的实用指南,展示了构建完整解决方案的所有流程,其中,图发挥了关键作用。本书侧重于介绍与图相关的方法、算法和设计模式。根据作者在构建复杂机器学习应用程序方面的经验,本书提出了许多方法,假设其为食谱,那么图就是客户所得美味中的主要原料。在机器学习项目的整个生命周期中,此类方法非常有用,表现在多个方面,例如,更有效地管理数据源、实施更好的算法、存储预测模型以便更快地访问它以及更有效地可视化结果从而进一步分析数据。
本书读者对象
本书适合你吗?如果你是数据科学家或数据工程师,本书可以帮助你完成或开始你的学习之旅。如果你是经理,要启动或推动一个新的机器学习项目,本书可以帮助你为团队提出不同的观点。如果你是一位高级开发人员且有兴趣探索图的功能,本书可以帮助你以新视角理解图的作用,不仅可以将图作为一种数据库,还可以作为一种AI 推动技术。
本书不是有关机器学习技术的笼统纲要,它侧重于介绍与图相关的方法、算法和设计模式,这是本书的突出主题。具体而言,本书重点介绍图方法如何帮助你开发和交付更优秀的机器学习项目。本书详细介绍了图模型技术,并描述了多种基于图的算法。对于最复杂的概念,将用具体的场景来进行说明,并为其设计了具体的应用程序。
本书旨在成为一本实用指南,帮助你在生产环境中安装应用程序以供使用。因此,本书描述了优化技术和启发式方法,以帮助你处理真实数据、真实问题和真实用户。本书不仅讨论了小型示例,还讨论了来自实际用例的端到端应用程序,并提供了一些处理具体问题的建议。
如果你对这些场景感兴趣,那么本书绝对是你的最佳选择。
本书结构
本书内容共12 章,分为4 个部分。第Ⅰ部分介绍了本书的主题,从通用机器学习和图概念开始,然后了解结合这些概念的优势:
● 第1 章介绍机器学习和图,并涵盖理解后续章节所需的基本概念。
● 第2 章列出将大数据作为机器学习输入的主要挑战,并讨论如何使用图模型和图数据库来应对这些挑战。还介绍了图数据库的主要特征。
● 第3 章详细描述图在机器学习工作流中的作用,以及一个用于大规模图处理的系统。
第Ⅱ部分讨论了几个真实用例,其中图促进了机器学习项目的发展并改进了最终结果,特别关注以下推荐方法:
● 第4 章介绍最常见的推荐技术,并描述如何为其中一种技术设计合适的图模型:基于内容的推荐引擎。详细展示如何将现有(非图)数据集导入图模型并实现基于内容的推荐引擎以供使用。
● 第5 章描述如何为协同过滤方法设计合适的图模型,以及如何充分实现协同过滤推荐引擎以供使用。
● 第6 章介绍基于会话的推荐算法,并描述一个能够捕获用户会话数据的图模型。
说明如何将样本数据集导入设计的模型,以及如何在其基础上实现真正的推荐引擎。
● 第7 章介绍如何实现一个考虑用户上下文的推荐引擎。描述为上下文感知推荐引擎构建的图模型,并展示如何将现有数据集导入图模型。此外,还说明如何在单个引擎中组合多种推荐方法。
第Ⅲ部分介绍了欺诈检测:
● 第8 章介绍欺诈检测,并描述不同领域中存在的不同类型的欺诈行为。还明确图对于建模数据的作用,从而更快、更容易地揭示欺诈行为,同时也指明一些用于打击欺诈的简单图模型采用的技术和算法。
● 第9 章转向更高级的基于异常检测的反欺诈算法。展示如何使用图来存储和分析交易的k-NN 并识别异常交易。
● 第10 章介绍如何使用社交网络分析(Social Network Analysis,SNA)对欺诈者和欺诈风险进行分类。列出用于基于SNA 进行欺诈分析的不同图算法,并展示如何从数据中导出正确的图。
第Ⅳ部分涵盖自然语言处理(Natural Language Processing,NLP):
● 第11 章介绍与基于图的NLP 相关的概念。特别是,描述了一种简单方法:通过NLP 提取非结构化数据的隐藏结构,来分解文本并将其存储在图中。
● 第12 章介绍知识图谱,详细描述了如何从文本中提取实体和关系并从中创建知识图谱。列出与知识图谱共同使用的后处理技术,如语义网络构建和自动主题提取。
即使从头至尾通读本书可以最大限度地提高学习效果,但你不必如此。当遇到新挑战时,你都可以将本书用作参考书。对于本领域的初学者,我建议从前3 章开始阅读,首先了解关键概念,然后跳到特定研究主题的章节。如果你对特定主题或应用程序感兴趣,最好从你感兴趣的部分开始:第4 章(推荐方法)、第8 章(欺诈检测)、第11 章(自然语言处理)。如果你是图和机器学习方面的专家,只是想寻求建议,那么可以自行阅读感兴趣的章节。
关于代码、参考文献和彩图的下载
本书包含许多源代码示例,包括带有编号的代码清单和内嵌的普通代码示例。在这两种示例中,源代码都被格式化成宽度固定的字体,从而与普通文本进行区分。
许多情况下,源代码已被重新格式化;我们添加了换行符和重新设计的缩进,以适应书中可用的页面空间。在某些情况下,即使这样也还不够,代码清单还包括续行标记(?)。此外,当在正文中对代码清单中的源代码进行描述时,经常会删除代码清单中的源代码注释。有些代码清单带有代码注释,用于突出重要的概念。
本书示例的源代码可以通过扫描本书封底的二维码下载。另外,各章与各附录所引用的参考文献、书中各图的彩图也可通过扫描本书封底的二维码下载。
|
|