新書推薦:
《
禅心与箭术:过松弛而有力的生活(乔布斯精神导师、世界禅者——铃木大拙荐)
》
售價:NT$
301.0
《
先进电磁屏蔽材料——基础、性能与应用
》
售價:NT$
1010.0
《
可转债投资实战
》
售價:NT$
454.0
《
王氏之死(新版,史景迁成名作)
》
售價:NT$
250.0
《
敢为天下先:三年建成港科大
》
售價:NT$
352.0
《
长高食谱 让孩子长高个的饮食方案 0-15周岁儿童调理脾胃食谱书籍宝宝辅食书 让孩子爱吃饭 6-9-12岁儿童营养健康食谱书大全 助力孩子身体棒胃口好长得高
》
售價:NT$
214.0
《
身体自愈力:解决内在病因的身体智慧指南
》
售價:NT$
449.0
《
非言语沟通经典入门:影响人际交往的重要力量(第7版)
》
售價:NT$
561.0
|
編輯推薦: |
企业比以往任何时候都更加了解云数据湖架构对于从数据中获取价值的重要性。但是,要构建一个稳健、可扩展、性能卓越的数据湖,仍然是一个复杂的命题,因为需要大量的工具和选项协同工作,以提供从数据到洞察力的无缝端到端管道。 这本实用书籍简明而全面地概述了云数据湖的设置、管理和治理。作者Rukmani Gopalan是一位产品管理领导者和数据爱好者,他指导数据架构师和工程师了解云数据湖工作的主要方面,从设计考虑因素和最佳实践到数据格式优化、性能优化、成本管理和治理。 通过阅读本书,你将: ? 了解基于云的大数据战略对企业的益处。 ? 获得设计高性能、可扩展数据湖的指导和最佳实践。 ? 研究架构和设计选择以及数据管理原则和策略。 ? 构建可随着组织和业务需求的增加而扩展的数据战略。 ? 在云中实施可扩展的数据湖。 ? 使用基于云的高级分析,从数据中获取更多价值。
|
內容簡介: |
本书详细介绍了可用于数据处理的表格格式、云产品、框架、存储层,以及如何将这些内容组合在一起,以获得适合自己需求的高性能解决方案。作者在书中提供的决策框架将帮助你明智地决定选择哪种数据湖。本书是大数据领域每个人的书。阅读本书后,你将了解构建云数据湖所需的所有基础知识,并能够以多种方式应用这些知识。本书主要面向数据架构师、数据开发人员和数据运维专业人员,他们希望广泛地了解设置和运营云数据湖的各个方面。
|
關於作者: |
Rukmani Gopalan是微软经验丰富的产品管理负责人。除了开发高度可扩展的服务和令人愉悦的端到端客户体验外,她还与零售、制造和医疗保健等不同行业的各种客户合作,在云上构建他们的大数据分析解决方案。 在从单一的本地数据平台迁移时,Rukmani还致力于在云上构建高度可扩展的数据湖架构。
|
目錄:
|
目录 前言1 第1章 大数据—超越喧嚣9 1.1 什么是大数据10 1.2 弹性数据基础设施的挑战14 1.3 云计算基础15 1.3.1 云计算术语16 1.3.2 云的价值主张17 1.4 云数据湖架构19 1.4.1 本地数据仓库解决方案的限制20 1.4.2 什么是云数据湖架构21 1.4.3 云数据湖架构的优势21 1.5 开启云数据湖之旅23 1.6 总结26 第2章 云上的大数据架构27 2.1 为什么Klodars公司要迁移到云27 2.2 云数据湖架构基础28 2.2.1 浅谈数据的多样性29 2.2.2 云数据湖存储31 2.2.3 大数据分析引擎33 2.2.4 云数据仓库39 2.3 现代数据仓库架构41 2.3.1 参考架构41 2.3.2 现代数据仓库架构的用例43 2.3.3 现代数据仓库架构的优势和挑战45 2.4 数据湖仓一体架构45 2.4.1 参考架构46 2.4.2 数据湖仓一体架构的用例52 2.4.3 数据湖仓一体架构的优势和挑战54 2.4.4 数据仓库和非结构化数据56 2.5 数据网格56 2.5.1 参考架构57 2.5.2 数据网格架构的用例59 2.5.3 数据网格架构的优势和挑战59 2.6 什么是适合的架构60 2.6.1 了解客户60 2.6.2 了解业务驱动因素61 2.6.3 考虑增长和未来场景62 2.6.4 设计注意事项62 2.6.5 混合方法64 2.7 总结64 第3章 数据湖的设计注意事项66 3.1 设置云数据湖基础设施66 3.1.1 确定目标67 3.1.2 规划架构和可交付成果70 3.1.3 云数据湖实施74 3.1.4 发布和运行75 3.2 在数据湖中组织数据75 3.2.1 数据生命中的一天75 3.2.2 数据湖区76 3.2.3 组织机制79 3.3 数据治理简介80 3.3.1 数据治理的参与者81 3.3.2 数据分类83 3.3.3 元数据管理、数据目录和数据共享84 3.3.4 数据访问管理85 3.3.5 数据质量和可观测性86 3.3.6 Klodars公司的数据治理89 3.3.7 数据治理总结90 3.4 管理数据湖成本91 3.4.1 揭秘云上的数据湖成本92 3.4.2 数据湖成本策略94 3.5 总结96 第4章 可扩展的数据湖97 4.1 可扩展性探秘97 4.1.1 什么是可扩展性98 4.1.2 日常生活中的规模98 4.1.3 数据湖架构中的可扩展性101 4.2 数据湖处理系统的内部104 4.2.1 内部数据复制105 4.2.2 内部ELT/ETL处理107 4.2.3 关于其他交互式查询的说明110 4.3 可扩展数据湖解决方案的注意事项110 4.3.1 选择合适的云产品111 4.3.2 峰值容量规划114 4.3.3 数据格式和作业配置文件116 4.4 总结117 第5章 优化云数据湖架构以提高性能118 5.1 度量性能的基础知识118 5.1.1 性能的目标和指标120 5.1.2 度量性能121 5.1.3 优化以提高性能122 5.2 云数据湖性能124 5.2.1 SLA、SLO和SLI124 5.2.2 示例:Klodars公司如何管理其SLA、SLO和SLI125 5.3 性能驱动因素126 5.3.1 复制作业的性能驱动因素127 5.3.2 Spark作业的性能驱动因素129 5.4 性能调优的优化原则和技术132 5.4.1 数据格式132 5.4.2 数据组织和分区138 5.4.3 在Apache Spark上选择正确的配置140 5.5 减少数据传输开销142 5.6 优质产品和性能143 5.6.1 大型虚拟机案例144 5.6.2 闪存案例144 5.7 总结145 第6章 深入了解数据格式146 6.1 为什么我们需要这些开放数据格式146 6.1.1 为什么我们需要存储表格数据147 6.1.2 为什么在云数据湖中存储表格数据是一个问题148 6.2 Delta Lake149 6.2.1 为什么开发Delta Lake149 6.2.2 Delta Lake如何工作152 6.2.3 什么时候使用Delta Lake153 6.3 Apache Iceberg154 6.3.1 为什么开发Apache Iceberg154 6.3.2 Apache Iceberg是如何工作的155 6.3.3 什么时候使用Apache Iceberg157 6.4 Apache Hudi159 6.4.1 为什么孵化Apache Hudi159 6.4.2 Apache Hudi如何工作160 6.4.3 什么时候使用Apache Hudi163 6.5 总结164 第7章 架构的决策框架165 7.1 云数据湖评估166 7.2 云数据湖评估分析168 7.2.1 从零开始169 7.2.2 将现有数据湖或数据仓库迁移到云169 7.2.3 改进现有的云数据湖170 7.3 决策框架的第1阶段:评估171 7.3.1 了解客户需求171 7.3.2 了解改进的机会172 7.3.3 了解业务驱动因素174 7.3.4 确定需求的优先级来完成评估阶段175 7.4 决策框架的第2阶段:定义176 7.4.1 确定云数据湖的设计选择178 7.4.2 规划云数据湖项目可交付成果181 7.5 决策框架的第3阶段:实施183 7.6 决策框架的第4阶段:操作185 7.7 总结186 第8章 数据启迪未来的六大经验187 8.1 第1课:关注云数据湖的工作方式和时间,而不是“如果”和 “为什么”188 8.2 第2课:权力越大,责任越大—数据也不例外188 8.3 第3课:客户引领技术,而不是技术引领客户190 8.4 第4课:改变是不可避免的,所以要做好准备192 8.5 第5课:建立同理心,分清轻重缓急192 8.6 第6课:巨大的影响不会在一夜之间发生193 8.7 总结194 附录 云数据湖决策框架模板195
|
內容試閱:
|
前言 早上六点,手机温柔地唤醒主人,并自动打开消息通知。智能冰箱提醒主人需要订购牛奶,并显示牛奶库存不足,可下单购买更多的牛奶。健身机器可以根据主人的锻炼计划进行个性化选择。一切准备就绪,吃早餐时,不需要盯着时钟,因为手机会根据其对主人通勤的了解和交通模式提醒主人何时该开车出门。当主人离开时,智能家居助手会确保关灯、锁门。几十年前看起来像科幻小说 的东西,现在却是我们生活中的普通一天。所有这一切之所以可能,是因为技术在三个关键领域取得了飞跃:无处不在的计算设备、通过将互联网引入这些设备而缩小了世界的连接,以及帮助设备学习模式和做出决策的技术(数据、人工智能、机器学习)。数据现在是世界运作的核心,企业越来越依赖数据来为其业务提供信息和带来转型。 2013年,我在为Microsoft Office开发身份和个性化服务,这开启了我的数据之旅。我在这一年中学习了很多东西,了解了开发基于云的应用程序意味着什么,包括构建直接面向消费者的体验与企业级应用程序之间的细微差别。不过,最重要的是,我很高兴能够从这些云服务直接连接到客户体验。当我们寄送盒装产品(即以CD或DVD形式发货的产品)并让客户将其安装在他们的设备上 时,我们了解他们体验的唯一方法是获取匿名遥测数据,组织用户研究或关注小组,或者通读客户遇到问题时的支持案例。我们对产品使用情况的许多见解都基于客户数据,而这只占一小部分。通过构建的云服务,我可以实时了解客户。这有助于调整服务并为用户提供更个性化的体验。我们能够与客户一起实验各种功能,以更好地了解什么对他们的生产力更有帮助。从那时起,我一直在研究各种平台和云服务,我意识到当数据的价值被云的弹性放大时,可以帮助企业实现信息化和转型。 为什么写这本书 多年来,我与不同行业(医疗保健、消费品、零售和制造业等)的数百名客户进行了接触,并帮助他们实现了云上的大数据分析。我还推动了将企业的本地分析工作负载向云的迁移,以利用机器学习中的新兴技术和实现更好的成本管理。可以理解的是,每一个客户都带着不同的动机和问题来找我。 然而,有一个共同点将他们联系在一起:从数据中获得价值的强烈愿望。5年前我与这些客户讨论大数据分析的基础知识,现在他们已经开始操作非常成熟的实现,并在数据湖上运行更多的关键业务工作负载。作为这些对话的一部分的几个关键问题可以归结为设置、组织、保护和优化数据湖实现。在理想情况下,这些因素会融入数据湖架构设计中,在某些不幸的情况下,当客户遇到强制重新架构或重新设计的问题时,我们会讨论这些问题。 虽然利用云数据湖有无限可能性,但也伴随着理解和处理在构建和操作云数据湖应用程序时所涉及的复杂性。我相信,虽然业界正在努力简化这一过程,但理解云数据湖解决方案的概念,对于构建经得起时间考验的数据湖架构大有帮助。我非常喜欢帮助我的客户、合作伙伴和团队建立这种基本理解,并看到他们有能力为各自的团队或企业转型提供变革性见解。 在本书中,我希望将所有对话和相关的经验教训集结起来,为数据从业者提供一种方法,帮助他们设计一个可扩展的云数据湖架构,从而为客户的业务提供信息和转型服务。 目标读者 本书主要面向数据架构师、数据开发人员和数据运维专业人员,他们希望广泛地了解设置和运营云数据湖的各个方面。通读本书后,读者将了解以下内容: ? 基于云的大数据战略为组织(企业)带来的好处。 ? 架构选择和设计选择,包括现代数据仓库、数据湖仓一体和数据网格。 ? 设计高性能、可扩展数据湖的指南和最佳实践。 ? 数据治理原则、策略和设计选择。 无论你正在迈出第一步,还是正在考虑实现云上的现代化数据湖,都应准备好与云提供商和工程团队进行知情的、高水平的设计对话,并且能够在时间、精力和金钱方面规划并预算工程投资。大数据分析是发展、技术和范式转变能在眨眼间发生的领域之一。这意味着现在可能存在大量的机会。我愿意对任何特定技术保持中立,因此当一项新技术出现时,我们仍能够在所有可用技术选项的背景下应用这些基础知识。 Klodars 公司 在本书中,我们将把云数据湖的概念应用于一个虚构的企业(即 Klodars 公司),以一个能引起大多数人共鸣的商业问题来说明它们。 Klodars公司是一个虚构的企业,在华盛顿州西雅图销售雨伞和雨具。除了网站销售外,Klodars还雇用销售人员与零售商联系,在西雅图地区批量销售雨伞。它有一个小型的软件开发团队,负责编写应用程序来管理库存和销售,在其办公室维护的服务器上利用 SQL Sever 作为运行的操作数据库。它还利用Salesforce 来管理其客户档案和交互资料。 由于产品的优良质量和出色的销售渠道,Klodars 公司在华盛顿州以及邻近的俄勒冈州和爱达荷州迅速扩张,其直接面向消费者的业务正在通过网站迅速发展,营销部门也在社交媒体上开展出色的宣传活动。此外,Klodars 希望扩大业务,根据客户需求销售冬季装备。因此,它计划收购另一家销售冬季装备的企业。虽然这对企业来说是个令人振奋的消息,但它正处于转折点,它的数据库技术无法完全满足其不断增长的需求,所以它正在评估向云迁移。 本书概览 虽然我建议你从头到尾阅读这本书,以便全面理解,但每一章都是独立的,你可以根据需求专注于特定的主题。 ? 第1章将全面介绍云数据湖的含义及其优势。你还将了解在迁移到云时需要考虑的设计注意事项并做出明智的选择,而不是直接进行迁移。 ? 第2章将介绍各种云数据湖架构,你将了解每种架构的价值主张。在该章结束时,你将了解这些云架构适用的场景,并获得企业利用这些架构的具体示例。 ? 数据是新的黄金。云数据湖架构的关键是数据层的稳健设计,它为在其上构建的每个场景奠定了基础。第3章将详细介绍数据湖的基础层,以及在数据湖中设计、组织和管理数据的各个方面。我强烈建议重点关注该章,以帮助你设计数据湖,使其既满足你的即时需求,又能随着业务的增长而扩展。 ? 第4章将讨论设计数据湖以实现扩展的各种注意事项,还将提供一组最佳实践,供你在构建数据资产和数据管道时借鉴。第5章和第6章将深入探讨两个方面:调整云数据湖以满足所需的性能,以及作为性能关键构建块的数据格式。 ? 第7章将介绍一个决策框架,可以基于该框架选择正确的数据湖架构。同时,该章还将提供一个参考清单。 ? 第 8 章包罗万象,涵盖本书前面可能没有回答的问题。随着我们每天学习的 知识越来越多,数据湖社区正在成长和快速创新,你有机会影响这些创新, 并提出自己的想法。 阅读本书后,你将了解构建云数据湖所需的所有基础知识,并能够以多种方式 应用这些知识,包括以下内容: ? 使用书中的设计选择来构建可以随着企业和业务需求的增长而扩展的数据 策略。 ? 向关键决策者介绍精干的数据平台团队如何使用强大的数据策略推动关键业 务转型。 ? 利用可扩展的数据基础设施,使你的企业能够专注于关键业务问题。 ? 使用云上的高级分析技术使数据实现更多价值。
|
|