《企业数据湖》 - 台灣·大書城 - [印度]汤姆斯·约翰[Tomcy，John]潘卡·米斯拉[P - 机械工业出版社

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　聯絡我們　 \|　運費計算　 \|　幫助中心　\|　加入書簽
		會員登入新用戶註冊

HOME

新書上架

暢銷書架

好書推介

2023年度TOP

香港／國際用戶

最新/最熱/最齊全的簡體書網

品種：超過100萬種書，正品正价，放心網購，悭钱省心

送貨：速遞 / 物流，時效：出貨後2-4日

『簡體書』企业数据湖

書城自編碼： 3295259
分類：簡體書→大陸圖書→計算機/網絡→數據庫
作者： [印度]汤姆斯·约翰[Tomcy，John]潘卡·米斯拉[P
國際書號(ISBN)： 9787111615538
出版社：机械工业出版社
出版日期： 2018-12-01

書度/開本： 16开

售價：NT$ 644

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《非对称创新：中国企业赶超战略魏江刘洋》
售價：NT$ 495.0

《潜能觉醒》
售價：NT$ 395.0

《初平：汉末群雄混战（190—195）》
售價：NT$ 245.0

《建安：官渡大决战（196—200）》
售價：NT$ 245.0

《中亚民族史》
售價：NT$ 840.0

《人工智能与智能制造：概念与方法［美］马苏德·索鲁什［美］理查德·D.布拉茨》
售價：NT$ 640.0

《中平：东汉王朝大崩溃（184—189）》
售價：NT$ 245.0

《基于鲲鹏的分布式图分析算法实战》
售價：NT$ 495.0

編輯推薦：

Apache Hadoop、Sqoop、Flume、Flink和Elasticsearch等。第三部分展示一些非常实用的数据湖落地建议，包括企业应如何建立一个真实的数据湖，以及提高数据湖运营效率所需的其他技术组件。第三部分*后还详细介绍了几个实际的用例，以及在企业内实现这些用例时应考虑的重要方面。
通过阅读本书，你将：
·使用大数据技术构建企业级数据湖。
·掌握Lambda架构的精髓，以及如何在企业内使用它。
·学习与Apache Sqoop及其功能相关的技术细节。
·Kafka与Hadoop组件集成，用于获取企业数据。
·使用Flume进行流式数据处理。
·理解Flink与流式数据处理的关系。
·Hadoop生态圈组件的协同使用，以及它们能带来的好处。
·使用Elastic Stack构建快速、流式、高吞吐应用。
·确保数据摄取处理在不同数据格式配置时的一致性。

內容簡介：

本书分为三个主要部分。*部分介绍了数据湖的概念、企业中数据湖泊的重要性，以及Lambda架构的最新进展。第二部分将深入研究使用Lambda架构构建数据湖的主要组件，介绍了一些流行的大数据技术，如Apache Hadoop、Spark、Sqoop、Flume和弹性搜索。第三部分以实际操作的方式展示如何实现一个企业数据湖，并介绍了几个实际的用例，而且展示了如何将其他外围组件添加到湖中以提高效率。在本书的*后，读者将能够选择正确的大数据技术，使用lambda架构模式来构建企业数据湖。

關於作者：

汤姆斯·约翰（Tomcy John）是一名企业级Java技术专家，拥有工学学士学位，并且有超过14年多行业的开发经验。他目前担任Emirates Group IT核心架构部门的首席架构师。在此之前，他曾在甲骨文公司、安永公司任职。他主要擅长构建企业级应用，并且在企业内担任首席导师和布道者，以促进新技术融入企业标准技术栈。
潘卡·米斯拉（Pankaj Misra）是一名技术传播者，拥有工程学士学位，并且有超过16年跨多个业务领域的技术经验。自2015年以来，他一直在Emirates Group IT任职。他擅长架构和构建多技术栈的解决方案及实现。他在印度的技术论坛上也是一名活跃分子，参与过多个海量数据、可水平扩展的近实时数据处理和分析产品的构建。

译者序
推荐序
关于作者
关于技术审核人员
前言
第一部分　概述
第1章　数据导论2
1.1　探索数据3
1.2　什么是企业数据4
1.3　企业数据管理5
1.4　大数据相关概念6
1.5　数据与企业的相关性8
1.6　数据质量9
1.7　企业中数据如何存放10
1.7.1　内联网（企业内部）10
1.7.2　互联网（企业外部）10
1.7.3　数据持久化存储（RDBMS或者NoSQL）12
1.7.4　传统的数据仓库13
1.7.5　文件存储13
1.8　企业现状14
1.9　企业数字化转型15
1.10　数据湖用例启示16
1.11　总结17
第2章　数据湖概念概览18
2.1　什么是数据湖18
2.2　数据湖如何帮助企业19
2.3　数据湖是如何工作的20
2.4　数据湖与数据仓库的区别21
2.5　数据湖的构建方法22
2.6　Lambda架构驱动的数据湖22
2.6.1　数据摄取层——摄取数据用于处理和存储23
2.6.2　批处理层——批量处理已提取数据23
2.6.3　快速处理层——近实时数据处理24
2.6.4　数据存储层——存储所有数据24
2.6.5　服务层——数据交付与导出25
2.6.6　数据获取层——从源系统获取数据25
2.6.7　消息层——数据传输的保障26
2.6.8　探索数据摄取层27
2.6.9　探索Lambda层28
2.7　总结35
第3章　Lambda架构：一种数据湖
实现模式36
3.1　什么是Lambda架构36
3.2　Lambda 架构简史37
3.3　Lambda架构的原则37
3.3.1　容错原则38
3.3.2　不可变数据原则38
3.3.3　重新计算原则38
3.4　Lambda架构的组件38
3.4.1　批处理层39
3.4.2　快速处理层41
3.4.3　服务层43
3.5　Lambda架构的完整工作原理44
3.6　Lambda架构的优势45
3.7　Lambda架构的劣势46
3.8　Lambda架构技术概览46
3.9　应用Lambda47
3.9.1　企业级日志分析47
3.9.2　获取和分析传感器数据47
3.9.3　电子邮件平台实时统计48
3.9.4　实时赛事分析48
3.9.5　推荐引擎48
3.9.6　安全威胁分析48
3.9.7　多渠道用户行为分析48
3.10　Lambda架构运行范例48
3.11　Kappa架构49
3.12　总结50
第4章　数据湖中的Lambda应用51
4.1　Hadoop发行版本介绍51
4.2　影响企业大数据技术栈选择的因素53
4.2.1　技术能力53
4.2.2　是否易于部署和维护53
4.2.3　集成准备53
4.3　批处理层与数据处理53
4.3.1　NameNode服务器54
4.3.2　Secondary NameNode服务器55
4.3.3　YARN55
4.3.4　数据存储节点55
4.3.5　快速处理层56
4.3.6　Flume用于数据获取57
4.3.7　Spark Streaming58
4.4　服务层62
4.4.1　数据存储层62
4.4.2　数据访问层63
4.5　总结64
第二部分　数据湖的技术组件
第5章　基于Apache Sqoop的批量数据获取68
5.1　数据湖背景中的数据获取68
5.1.1　数据获取层68
5.1.2　批量数据获取——技术路线图69
5.2　为什么使用Apache Sqoop70
5.2.1　Sqoop简史71
5.2.2　Sqoop的优势71
5.2.3　Sqoop的劣势72
5.3　Sqoop的功能72
5.3.1　Sqoop 2的架构74
5.3.2　Sqoop 1与Sqoop 275
5.3.3　Sqoop的功能77
5.3.4　使用Sqoop导入数据77
5.3.5　使用Sqoop导出数据78
5.4　Sqoop connector79
5.5　Sqoop对HDFS的支持81
5.6　Sqoop运行范例81
5.6.1　安装与配置81
5.6.2　数据源配置90
5.6.3　Sqoop配置（数据库驱动）91
5.6.4　将HDFS配置为目的地91
5.6.5　Sqoop数据导入91
5.6.6　Sqoop数据导出97
5.6.7　Sqoop job98
5.6.8　Sqoop 299
5.6.9　SCV用例视角中的Sqoop102
5.7　适合使用Sqoop的场景103
5.8　不适合使用Sqoop的场景104
5.9　实时Sqooping是否可行104
5.10　其他选项104
5.10.1　原生大数据connector105
5.10.2　Talend106
5.10.3　Pentaho Kettle（PDI——Pentaho数据集成）106
5.11　总结106
第6章　基于Apache Flume的流式数据获取108
6.1　数据获取108
6.1.1　什么是流式数据109
6.1.2　批量数据和流式数据110
6.1.3　流式数据获取——技术路线图110
6.1.4　什么是Flume111
6.1.5　Sqoop和Flume112
6.2　为什么使用Flume113
6.2.1　Flume简史113
6.2.2　Flume的优势113
6.2.3　Flume的劣势114
6.3　Flume的架构原则114
6.4　Flume架构115
6.4.1　Flume 架构之一：分布式数据流水线116
6.4.2　Flume 架构之二：扇出117
6.4.3　Flume 架构之三：扇入117
6.4.4　Flume架构中的3层设计118
6.4.5　高级Flume架构118
6.4.6　Flume的可靠性级别120
6.5　Flume事件——流式数据120
6.6　Flume Agent120
6.7　Flume Source122
6.8　Flume Channel123
6.9　Flume Sink125
6.10　Flume配置126
6.11　Flume事务管理127
6.12　Flume的其他组件128
6.12.1　Channel Processor128
6.12.2　Interceptor129
6.12.3　Channel Selector129
6.12.4　Sink Group130
6.12.5　事

內容試閱：

对许多企业来说，数据变得越来越重要，数据的重要性在多个方面得到了凸显。事实上，企业正在用核心数据来改善自己的运营。本书将首先介绍什么是数据，它与企业的相关性，以及企业如何利用这些数据以数字化的方式改变自己。为了利用数据，企业需要能存储海量数据的“仓库”，在当今时代，这些仓库不再被称为“数据仓库”，相反，它们被称为“数据湖”。
正如今天所看到的，我们有很多利用了大数据技术的用例。数据湖的概念已经存在了很长时间，但直到最近它才在企业中得到真正的关注。本书将这两个方面结合在一起，使用最新的大数据技术，并遵循良好的架构模式，提供了可立即上手的、成熟的、能稳定运行的数据湖。
本书将把数据湖和Lambda架构结合在一起，帮助读者在他们的企业中实际操作这些内容。本书从较高的层次引入了大量的大数据技术，但是我们不打算将它定位为涉及很多技术框架的权威指南，因为书中涉及的每一种技术框架都值得用一本书来深入介绍它们。
本书用所选的技术框架涵盖了数据湖、Lambda架构模式的解释和实现。当然，这些具体的技术可以在将来或者根据组织设置的标准来替换。所以，本书内容中的精髓不仅在现在，而且在将来很长一段时间内都是有效的。因此，与同一领域的其他那些依赖具体技术框架的书籍相比，本书的“保鲜期”更长。
本书将带你踏上一段奇妙的旅程，在这个过程中，它遵循一种既直观又令人兴奋的结构。
本书涵盖的内容
本书分为3部分。每部分都包含若干章，当一个部分完成后，读者将会从整体上理解该部分内容。这些部分的设计和结构使得读者首先了解主要的功能和技术；然后在接下来的部分，或者更确切地说，在本书最后一部分中，一切都会被整合在一起。在本书的末尾，读者将实现一个可操作的数据湖。
第一部分，向读者介绍了与数据、数据湖及其重要组件相关的各种概念。此部分共分4章，如下所列，各章都有明确的目标。
第1章，以通用的方式向读者介绍什么是数据，以及数据与企业的相关性。该章解释了在当前社会数据为什么重要，以及应该如何使用它们。现实生活中的各种用例已经展示了数据的重要性以及数据是如何改变企业的。这些真实的案例将启发读者的创造性思维，并思考如何利用数据来改变自己的企业。
第2章，进一步深入了解数据湖概念的细节，并解释使用数据湖能解决企业面临的哪些问题。该章还提供了关于Lambda架构以及如何将其用于数据湖的内容。到该章结束，读者将了解数据湖的概念和组织构建数据湖所采用的各种方法。
第3章，详细介绍Lambda架构、它的各种组件以及数据湖与此架构模式之间的关联。在该章中，读者将详细了解Lambda架构，包括它产生的原因和能解决的具体问题。该章还将帮助读者理解Lambda架构的核心概念以及如何在企业中应用它的能力。读者还将理解各种设计模式和组件，在构建Lambda架构时它们可以帮助实现批处理和实时数据处理。现在，读者对数据、数据湖和Lambda架构应该有了足够的了解，可以跳到下一节，学习如何为所在企业实现数据湖。
第4章,向读者介绍可用于Lambda架构每一层（组件）的技术，还将帮助读者选择一个市场中领先且让我们感觉非常棒的技术。在该章中，读者将了解当前大数据技术领域中的各种Hadoop发行版本，以及如何利用它们在企业数据湖中构建Lambda架构。在这些技术背景下，读者将了解企业数据湖中批处理层、快速处理层和服务层背后的细节及设计动机。
第二部分，向读者介绍了许多技术，这些技术将是数据湖实现的一部分。此部分中的每一章都涉及一种技术框架，它们逐步被用于构建数据湖和用例，即单一客户视图（SCV）。几乎每一章中讨论的技术的所有重要技术细节都将以整体的方式被涵盖，因为过于深入的探讨超出了本书的范围。此部分由6章组成，每章都有一个明确的目标，如下所述。
第5章，对Apache Sqoop做了深入的介绍，给出了选择这种技术框架的理由，也向读者提供了其他技术选项相关的大量细节。该章还给出了数据湖和Lambda架构的详细实例。在该章中，读者将理解Sqoop框架以及其他用于将数据从企业数据源加载到数据湖的类似工具。读者也将了解Sqoop架构相关的各种技术细节，还可以通过示例了解Sqoop的实际操作以及使用Hadoop技术时涉及的各种步骤。
第6章，将深入学习Apache Flume，它是一个中间环节，与数据湖及Lambda架构中的其他技术框架衔接。读者将会理解Flume作为一个框架，数据湖通过哪些模式来使用它。读者还将了解Flume架构和技术实现细节，并使用该框架来获取和使用数据，其中还包括了使用特定的功能来处理事务控制、数据重放的示例。读者还将了解如何使用流式数据处理技术来进行基于流的处理。
第7章，将深入介绍Apache Kafka。该章最开始给出了选择一种特定技术的理由，同时列举了其他技术选项的细节。在这一章中，读者将会理解Kafka是一个面向消息的中间件，同时会了解它与其他消息中间件的差异。读者可以从客户端（发布者）、代理和消费者（订阅者）的角度来了解Kafka及其功能的细节，以及如何利用它来构建水平扩展能力。读者还将了解如何将Kafka与Hadoop组件集成以获取企业数据，以及这种集成给数据湖带来的功能。
第8章，读者将理解基于流式数据和流式处理的概念，特别是关于Apache Flink的概念。读者将深入研究数据湖和大数据技术背景下的Apache Flink，通过示例演示Flink的实时数据处理。读者还将认识到流式处理功能如何依赖于架构中的各种其他层，以及这些层如何影响流式处理能力。
第9章，将深入介绍Apache Hadoop。在这一章中，读者将更深入地了解Hadoop，对其有一个全面的认识，同时尝试使用各种Hadoop组件及一些特定功能，这些组件可以为企业数据湖提供服务。在数据湖背景下，将在实现级上对Hadoop进行解释，如Hadoop框架是如何实现文件存储、不同文件格式数据处理和MapReduce范式的。Hadoop可以构成数据湖的基础，Hadoop技术栈也能提供近实时处理能力。
第10章，会深入研究Elasticsearch。读者将理解Elasticsearch作为数据索引框架的作用以及如何利用该框架提供的各种分析器进行有效的搜索。读者还将理解数据湖如何有效利用Elasticsearch的分片和分发机制来提供高效的一致性数据服务，了解如何使用Elasticsearch来处理快速流式数据，及构建高性能应用。
第三部分，将汇集本书第一部分和第二部分的技术组件，为读者提供数据湖的整体视图。我们将以简短的方式引入额外的概念和技术，如果有需要，读者可根据企业需求更深入地探索这些内容。另外，深入研究该章所涵盖的技术超出了本书的范围。但是，我们仍希望读者了解这些附加技术，以及在需要时如何将它们引入数据湖实现。本部分由两章组成，每章都有一个明确的目标，下面会详细叙述。
第11章，将所有技术点整合在一起，在向读者介绍完数据湖、Lambda架构及其他各种技术之后，为读者展示了整体的图景。到了这个阶段，读者应该有成就感，这时可以将代码库组织起来，展示它是如何工作的。在这一章中，读者将会意识到如何集成数据湖的各个组件来实现一个功能完备的数据湖。读者还将通过运行范例来实现数据湖的完整性，将前几章学习的内容结合在一起，完成一个可运行的数据湖实现。
第12章，贯穿本书，读者通过单一客户视图的形式来理解用例；然而，在浏览本书的过程中，还有其他与组织相关的用例，读者可对它们进行深入的思考。在这一章中，这种思想得到了进一步的阐发。读者将理解并实现各种用例，这些用例可以从数据湖中获得巨大的回报，并帮助优化它们的持有、运营和活动成本，还能从这些数据使用中推导出商业智能。在该章中，读者还将认识到这些用例的多样性以及企业数据湖能为这些用例提供多大程度的帮助。
阅读本书的必备条件
本书面向开发人员、架构师和产品项目负责人，用于实现基于Lambda架构的企业数据湖。书中包括可运行范例，用以帮助读者理解和观察围绕数据湖及其基本实现的各种概念。为了运行这些范例，需要使用各种开源软件、所需的基础设施和开发IDE。我们努力保持示例简洁并利用常见的框架和组件。用于运行这些示例的操作系统为CentOS 7，但是这些示例可以在Linux操作系统的任何版本上运行。
本书的目标读者
致力于实现企业数据湖的Java开发者和架构师。
致力于实践Lambda架构和大数据技术的Java开发者。
致力于探索大数据技术并渴望利用大数据技术提供解决方案的Java开发者。
排版约定
在本书中，不同的文本样式用来区分不同的信息。下面是一些例子，以及每种样式的解释。
代码块样式如下所示：
命令行输入或输出样式如下所示：
警告或重要的注意事项。
提示或技巧。
范例下载
本书的范例代码可以从http：www.packtpub.com通过个人账号下载，也可以访问华章图书官网http：www.hzbook.com，通过注册并登录个人账户下载。
本书涉及的代码也托管在GitHub上，请参考https：github.comPacktPublishingData-Lake-for-Enterprises。

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	台灣用户　\|　香港/海外用户

megBook.com.tw
Copyright (C) 2013 - 2024 （香港）大書城有限公司　All Rights Reserved.