登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入 新註冊 | 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / EMS,時效:出貨後2-3日

2024年08月出版新書

2024年07月出版新書

2024年06月出版新書

2024年05月出版新書

2024年04月出版新書

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

2023年09月出版新書

2023年08月出版新書

2023年07月出版新書

『簡體書』机器学习大数据平台的构建、任务实现与数据治理——使用Azure、DevOps、MLOps

書城自編碼: 3976591
分類: 簡體書→大陸圖書→計算機/網絡數據庫
作者: [美]弗拉德·里斯库蒂亚[Vlad Riscutia]著
國際書號(ISBN): 9787302657637
出版社: 清华大学出版社
出版日期: 2024-04-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:NT$ 529

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
关键冲突:如何化人际关系危机为合作共赢(原书第2版)
《 关键冲突:如何化人际关系危机为合作共赢(原书第2版) 》

售價:NT$ 390.0
探索清陵五十年
《 探索清陵五十年 》

售價:NT$ 4576.0
定鼎中原之路:从皇太极入关到玄烨亲政
《 定鼎中原之路:从皇太极入关到玄烨亲政 》

售價:NT$ 458.0
财之道丛书·如何让人投资你:股权激励融资全揭秘
《 财之道丛书·如何让人投资你:股权激励融资全揭秘 》

售價:NT$ 458.0
PyTorch深度学习与计算机视觉实践
《 PyTorch深度学习与计算机视觉实践 》

售價:NT$ 411.0
新任经理 100 天实战指南
《 新任经理 100 天实战指南 》

售價:NT$ 406.0
日本百鬼画谱
《 日本百鬼画谱 》

售價:NT$ 322.0
大明拐点 : 天启党争
《 大明拐点 : 天启党争 》

售價:NT$ 302.0

建議一齊購買:

+

NT$ 435
《 Access数据库开发从入门到精通 》
+

NT$ 722
《 可视化指南:数据分析与数据交互 》
+

NT$ 342
《 数据库系统概论(第6版) 》
+

NT$ 774
《 PostgreSQL修炼之道:从小工到专家(第2版) 》
+

NT$ 568
《 车载激光雷达点云数据处理及应用 》
+

NT$ 695
《 精益数据分析 珍藏版 》
編輯推薦:
机器学习大数据平台的构建、任务实现与数据治理

  你需要构建安全、稳定的数据平台,需要可以扩展到任何规模的工作负载。当项目从实验室进入生产环境时,你需要确信它可以应对现实工作中的挑战。本书能够帮助你实现这些需求,将讲述如何设计和实现基于云的、可以轻松监控、扩展和修改的数据基础设施。
  通过本书,你将学到构建和维护大型企业大数据平台所需的技能。书中包括设置基础设施、编排、工作负载和治理,写作风格清晰、实用。在学习过程中,你将建立高效的机器学习管道,然后掌握省时的自动化和DevOps解决方案。书中基于Azure的示例很容易在其他云平台上实现。
內容簡介:
主要内容
● 数据字典和数据治理
● 数据质量管控、合规和分发
● 构建自动化管道以提高可靠性
● 数据摄取、存储和分发
● 支持生产环境中的数据建模、分析和机器学习
關於作者:
Vlad Riscutia是微软的软件架构师。
目錄
第1 章 简介 1
1.1 什么是数据工程 2
1.2 本书读者对象 3
1.3 什么是数据平台 3
1.3.1 数据平台的构成 4
1.3.2 基础设施即代码,无代码基础设施 6
1.4 使用云构建 7
1.4.1 IaaS、PaaS 和SaaS 7
1.4.2 网络、存储和计算 7
1.4.3 如何使用Azure 8
1.4.4 与Azure 交互 8
1.5 实现Azure 数据平台 11
1.6 本章小结 13
第Ⅰ部分 基础设施
第2 章 存储 17
2.1 在数据平台中存储数据 18
2.1.1 跨多个数据织物存储数据 19
2.1.2 SSOT 20
2.2 Azure Data Explorer简介 22
2.2.1 部署Azure Data Explorer集群 23
2.2.2 使用Azure Data Explorer 26
2.2.3 解决查询限制问题 29
2.3 Azure Data Lake Storage简介 30
2.3.1 创建Azure Data Lake Storage 账户 30
2.3.2 使用Azure Data Lake Storage 31
2.3.3 集成Azure Data Explorer 32
2.4 数据摄取 34
2.4.1 数据摄取频率 34
2.4.2 加载类型 36
2.4.3 数据重建和重新加载 38
2.5 本章小结 41
第3 章 DevOps 43
3.1 什么是DevOps 44
3.2 Azure DevOps 简介 47
3.3 部署基础设施 50
3.3.1 导出Azure Resource Manager 模板 51
3.3.2 创建Azure DevOps 服务连接 54
3.3.3 部署Azure Resource Manager 模板 56
3.3.4 理解Azure Pipelines 60
3.4 部署Azure Data Explorer对象和分析 61
3.4.1 使用Azure DevOps 市场扩展 63
3.4.2 将所有内容都存储在Git并自动部署所有内容 67
3.5 本章小结 68
第4 章 编排 69
4.1 导入Bing COVID-19 开放数据集 70
4.2 Azure Data Factory 简介 72
4.2.1 设置数据源 73
4.2.2 设置数据接收器 75
4.2.3 设置管道 79
4.2.4 设置触发器 82
4.2.5 使用Azure Data Factory进行编排 84
4.3 Azure Data Factory 的DevOps 84
4.3.1 从Git 部署Azure Data Factory 87
4.3.2 设置访问控制 88
4.3.3 部署生产环境的Azure Data Factory 90
4.3.4 小结 92
4.4 使用Azure Monitor 进行监控 93
4.5 本章小结 95
第Ⅱ部分 具体的工作任务
第5 章 数据处理 99
5.1 数据建模技术 100
5.1.1 规范化和反规范化 100
5.1.2 数据仓库 103
5.1.3 半结构化数据 104
5.1.4 小结 107
5.2 身份钥匙环 108
5.2.1 构建身份钥匙环 109
5.2.2 理解钥匙环 111
5.3 时间线 113
5.3.1 构建时间线视图 113
5.3.2 使用时间线 115
5.4 应用DevOps 以保证数据处理能够按计划可靠地运行 116
5.4.1 使用Git 追踪和处理函数 116
5.4.2 使用Azure Data Factory构建钥匙环 117
5.4.3 扩展规模 123
5.5 本章小结 127
第6 章 数据分析 129
6.1 开发环境和生产环境分离下如何访问数据 130
6.1.1 对生产数据处理后再部分复制到开发环境 132
6.1.2 将生产数据完全复制到开发环境 133
6.1.3 在开发环境中提供生产数据的只读视图 133
6.1.4 小结 135
6.2 设计数据分析的工作流程 136
6.2.1 原型 138
6.2.2 开发和用户验收测试 139
6.2.3 生产环境 141
6.2.4 小结 143
6.3 让数据科学家能够自助移动数据 144
6.3.1 基本原则和相关背景 145
6.3.2 数据合约 145
6.3.3 管道验证 146
6.3.4 事后分析 150
6.3.5 小结 151
6.4 本章小结 151
第7 章 机器学习 153
7.1 训练一个机器学习模型 154
7.1.1 使用scikit-learn训练模型 155
7.1.2 高消费者模型实现 156
7.2 引入Azure Machine Learning 158
7.2.1 创建工作区 158
7.2.2 创建Azure Machine Learning 计算目标 159
7.2.3 设置Azure Machine Learning 存储 160
7.2.4 在云中运行机器学习 162
7.2.5 小结 167
7.3 MLOps 167
7.3.1 从Git 部署 168
7.3.2 存储管道ID 171
7.3.3 小结 172
7.4 机器学习的编排 172
7.4.1 连接Azure Data Factory与Azure Machine Learning 173
7.4.2 机器学习编排 175
7.4.3 小结 178
7.5 本章小结 179
第Ⅲ部分 数据治理
第8 章 元数据 183
8.1 理解大数据平台中元数据的需求 184
8.2 介绍Azure Purview 186
8.3 维护数据字典 190
8.3.1 设置扫描 190
8.3.2 浏览数据字典 194
8.3.3 小结 195
8.4 管理数据术语表 196
8.4.1 添加新的术语 196
8.4.2 审查术语 198
8.4.3 自定义模板和批量
导入 198
8.4.4 小结 200
8.5 了解Azure Purview 的高级功能 200
8.5.1 追踪数据血缘 200
8.5.2 分类规则 201
8.5.3 REST API 203
8.5.4 小结 204
8.6 本章小结 204
第9 章 数据质量 207
9.1 数据测试概述 207
9.1.1 可用性测试 208
9.1.2 正确性测试 209
9.1.3 完整性测试 210
9.1.4 异常检测测试 212
9.1.5 小结 214
9.2 使用Azure Data Factory进行数据质量检查 214
9.2.1 使用Azure Data Factory进行测试 215
9.2.2 执行测试 218
9.2.3 创建和使用模板 219
9.2.4 小结 221
9.3 扩展数据测试 221
9.3.1 支持多个数据平台 221
9.3.2 按计划运行测试和触发运行测试 223
9.3.3 编写测试 224
9.3.4 存储测试定义和结果 228
9.4 本章小结 231
第10 章 合规 233
10.1 数据分类 234
10.1.1 特征数据 234
10.1.2 遥测数据 235
10.1.3 用户数据 235
10.1.4 用户拥有的数据 236
10.1.5 业务数据 236
10.1.6 小结 236
10.2 将敏感数据变得不那么敏感 237
10.2.1 聚合 238
10.2.2 匿名化 239
10.2.3 伪匿名化 242
10.2.4 数据掩码 246
10.2.5 小结 246
10.3 访问控制模型 247
10.3.1 安全组 248
10.3.2 保护Azure Data Explorer 250
10.3.3 小结 255
10.4 GDPR 和其他考虑因素 256
10.4.1 数据处理 256
10.4.2 数据主体请求 256
10.4.3 其他考虑因素 259
10.5 本章小结 259
第11 章 数据分发 261
11.1 数据分发概述 262
11.2 构建数据API 264
11.2.1 Azure Cosmos DB简介 266
11.2.2 填充Cosmos DB集合 269
11.2.3 检索数据 271
11.2.4 小结 274
11.3 机器学习模型如何对外提供服务 274
11.4 共享数据进行批量复制 274
11.4.1 分离计算资源 275
11.4.2 Azure Data Share简介 277
11.4.3 小结 282
11.5 数据共享的最佳实践 282
11.6 本章小结 284
附录A Azure 服务 285
附录B KQL 快速参考 287
附录C 运行代码示例 289
內容試閱
本书凝聚了我过去几年在Azure 客户增长和分析团队扩展大数据平台的经验,希望对你有所帮助。随着我们的数据科学团队的壮大和团队的洞见对业务的重要性越来越突出,必须确保我们的数据平台是稳健的。
大数据的世界相对较新,规则仍在建立中。我相信我们的故事具有普遍性和参考性:数据团队一开始只有几个人,这个阶段的首要目标是证明数据团队可以产生有价值的洞见。在这个阶段,很多工作是临时的,没有进行大规模工程投资的必要性和紧迫性。数据团队中的数据科学家在他们的机器上运行机器学习(ML)模型,生成一些预测,然后通过电子邮件发送结果这一简单的流程就足以满足需求了。
随着时间的推移,团队不断地壮大,团队需要处理更多的任务和工作,并且这些任务对于团队的成功和效率至关重要。同样的ML 模型现在需要插入一个能够处理实时数据流的系统,并且每天都需要运行,处理的数据量比最初的原型多100 倍以上。
此时,可靠的工程实践就变得至关重要了;我们需要应对规模的变化、可靠性、自动化、监控等。
本书包含了过去几年我在数据工程方面学到的宝贵经验,主要包括以下内容:
● 助力数据团队中的每个数据科学家在我们的平台上部署新的分析和数据移动流程,并且保证生产环境的可靠性。
● 构建一个机器学习平台,以简化和自动化执行数十个ML 模型。
● 构建一个元数据目录,以理解大量可用的数据集。
● 实施各种方法来测试数据的质量,并在出现问题时发送警报。
本书的基本主题是DevOps,将软件工程界几十年的最佳实践引入大数据世界中。
此外,还讲述了另一个重要的主题——数据治理;讲述了理解数据、确保数据质量、合规和访问控制等数据治理的重要组成部分。
本书描述的模式和实践与平台无关。无论你使用哪个云,这些模式和实践都应该同样有效。话虽如此,我们不能过于抽象,所以需要一个具体云平台来讲述具体示例。
本书使用了Azure。即使在Azure 中,也有很多种服务可供选择。
在讲述具体示例时,我们使用了Azure 的某些服务,但请记住,本书更多关注的是通过这些服务实现的数据工程实践,而不是具体的这些服务。我希望你喜欢本书,并且能够找到一些适用于你的环境和业务领域的最佳实践。
致 谢
非常感谢我的妻子Diana 和女儿Ada 的支持。感谢你们一直陪伴着我!
没有Michael Stephens 和Elesha Hyde 的宝贵建议和意见,本书无法成书。同时,感谢Danny Vinson 对初稿的审查,以及Karsten Str?b?k 对所有代码示例的检查。我还要感谢所有审稿人所付出的时间和提出的反馈意见:Albert Nogu é s、Arun Thangasamy、Dave Corun、Geoff Clark、Glenn Swonk、Hilde Van Gysel、Jesús A. Juárez Guerrero、Johannes Verwijnen、Kelum Senanayake、Krzysztof Kamyczek、Luke Kupka、Matthias Busch、Miranda Whurr、Oliver Korten、Peter Kreyenhop、Peter Morgan、Phil Allen、Philippe Van Bergen、Richard B. Ward、Richard Vaughan、Robert Walsh、Sven Stumpf、Todd Cook、Vishwesh Ravi Shrimali 和Zekai Otles。
非常感谢Azure 客户增长和分析团队的支持,感谢他们给我学习的机会:Tim Wong、Greg Koehler、Ron Sielinski、Merav Davidson、Vivek Dalvi 和团队中的其他人。
我还有幸与微软公司的许多其他团队合作。我要感谢IDEAs 团队,特别是Gerardo Bodegas Martinez、Wayne Yim 和Ayyappan Balasubramanian;Azure Data Explorer团队,Oded Sacher 和Ziv Caspi;Azure Purview 团队,Naga Krishna Yenamandra 和Gaurav Malhotra;Azure Machine Learning 团队,特别是Tzvi Keisar。
最后,我要感谢Manning 团队,感谢他们在本书从立项到上市整个过程中所做的方方面面的工作。
关 于 本 书
就像软件工程将工程严密性引入软件开发一样,数据工程旨在以可靠的方式处理数据,为数据工作带来同样的严密性。本书讲述了在实际生产系统中实现大数据平台的各个方面:数据摄取、运行数据分析和机器学习(ML),以及数据分发等。本书的重点是运维方面,如DevOps、监控、规模和合规性。本书将使用Azure 服务实现具体示例。
本书读者对象
本书主要面向有几年经验的数据科学家、软件工程师或架构师,读者应该已是一名数据工程师,目前希望构建和扩展生产数据平台。读者应该具备基本的云知识和一些处理数据的经验。
本书内容
本书分为三个部分,每部分从不同的角度看待数据平台。第1 章介绍了数据平台的总体架构,概述了我们将在示例中使用的Azure 服务,并定义了一些关键术语(例如数据工程和基础设施即代码等),以奠定一些共同的基础。第Ⅰ部分涵盖了数据平台的核心基础设施。
● 第2 章介绍了存储基础设施,这是大数据平台的核心。
● 第3 章介绍了DevOps,DevOps 将软件工程的严密性引入数据领域。
● 第4 章介绍了编排,即如何在数据平台上安排和执行数据的移动和处理。
第Ⅱ部分涵盖了数据平台支持的主要工作任务。
● 第5 章介绍了数据处理,即对原始数据进行处理和转换以更好地适应不同的分析需求和场景。
● 第6 章介绍了运行数据分析,即在进行重复的报告和分析任务时,采用一系列良好的工程方法和技巧来提高效率和准确性。
● 第7 章提供了一套完整的解决方案,以支持从数据准备和特征工程到模型训练和部署的整个机器学习工作流程(又称为MLOps)。
第Ⅲ部分涵盖了数据治理的各个方面。
● 第8 章讲述了元数据(关于数据的数据)以及如何理解大数据平台中的所有资产。
● 第9 章讲述了数据质量以及对数据集进行不同类型的测试可以帮助我们评估数据质量并发现潜在的问题。
● 第10 章讲述了一个重要主题——合规,包括我们如何对不同类型的数据进行分类和处理。
● 第11 章讲述了数据分发以及与其他下游团队共享数据的各种方式。
这些章节可以按任意顺序阅读,因为它们涉及数据工程的不同方面。然而,如果你想运行代码示例,则必须阅读第Ⅰ部分。如果你不打算运行代码示例,可以随意跳过第Ⅰ部分,直接阅读你最感兴趣的章节。
本书代码
本书包含许多源代码示例,既有编号的列表形式,也有与普通文本一起排列的行内形式。在这两种情况下,源代码都以等宽字体格式化,从而与普通文本分隔开来。
此外,在许多情况下,我们对原始源代码重新格式化;我们添加了换行符并重新调整了缩进,以适应书本印刷的页面宽度。在某些情况下,我们还使用了行连续标记(?)。
我们在很多代码清单中添加了代码注释,以突出显示重要概念。
本书的所有代码示例都可以在GitHub 找到:https://github.com/vladris/azuredata-engineering,也可以扫描封底二维码下载。代码经过了完全的测试,但由于Azure云和周边工具不断发展,如果你在尝试代码示例时遇到问题,请查看附录C。

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.