新書推薦:
《
传统文化有意思:古代发明了不起
》
售價:NT$
199.0
《
无法从容的人生:路遥传
》
售價:NT$
340.0
《
亚述:世界历史上第一个帝国的兴衰
》
售價:NT$
490.0
《
大处着眼:持久战与《论持久战》
》
售價:NT$
390.0
《
人工智能与大数据:采煤机智能制造
》
售價:NT$
440.0
《
未来漫游指南:昨日科技与人类未来
》
售價:NT$
445.0
《
新民说·逝去的盛景:宋朝商业文明的兴盛与落幕(上下册)
》
售價:NT$
790.0
《
我从何来:自我的心理学探问
》
售價:NT$
545.0
|
編輯推薦: |
1.本书是华为HCIA-Big Data认证的官方教材,内容专业、可靠。
2.本书采用大量的实践案例,并结合了行业典型应用。
3.本书从基础概念到核心技术,再到解决方案,全方位覆盖大数据知识体系。
4.本书介绍前沿技术如ClickHouse与ElasticSearch,拓宽读者视野,紧跟技术发展趋势。
5.本书提供丰富的教学资源,如电子课件等。
|
內容簡介: |
本书以大数据为中心,对大数据及其相关技术、产品和实践案例进行了详细的讲解。全书共分9章,从大数据概述、华为大数据产品入手,详细介绍了开源的分布式计算框架——Hadoop,以及Hadoop生态圈的多个组件:Flume、Kafka、HDFS、Zookeeper、MapReduce、YARN、HBase、Hive、Spark以及Flink;除上述组件外,还介绍了ElasticSearch和ClickHouse。
本书适合正在准备考取华为HCIA-Big Data认证的人员、从事大数据工作的专业人员阅读,也可作为高等院校相关专业师生的参考书。
|
關於作者: |
华为技术有限公司 华为技术有限公司,成立于1987年,总部位于广东省深圳市龙岗区。华为是全球领先的信息与通信技术(ICT)解决方案供应商,专注于ICT领域,坚持稳健经营、持续创新、开放合作,在电信运营商、企业、终端和云计算等领域构筑了端到端的解决方案优势,为运营商客户、企业客户和消费者提供有竞争力的ICT解决方案、产品和服务,并致力于实现未来信息社会、构建更美好的全联接世界。
|
目錄:
|
第 1章 大数据概述 2
1.1 什么是大数据 4
1.1.1 大数据的来源 4
1.1.2 大数据的发展历程 6
1.2 大数据的数据特征及数据类型 7
1.3 华为鲲鹏大数据 12
1.4 大数据的发展趋势 14
1.5 华为DataArts Studio 15
1.5.1 什么是DataArts Studio 16
1.5.2 DataArts Studio产品功能 16
1.5.3 DataArts Studio应用场景 18
1.6 华为云大数据服务——MRS 21
习题 24
第 2章 大数据采集与分布式流处理平台 26
2.1 大数据采集技术 28
2.2 Flume 29
2.2.1 Flume简介及框架 29
2.2.2 Flume的关键特性 32
2.2.3 Flume应用举例 33
2.3 Kafka 33
2.3.1 Kafka简介 34
2.3.2 Kafka的架构与功能 36
2.3.3 Kafka数据管理 40
习题 42
第3章 大数据分布式处理概述 44
3.1 大数据开发与分布式技术简介 46
3.1.1 大数据开发 47
3.1.2 分布式管理技术 49
3.2 Hadoop——分布式大数据系统 50
3.2.1 Hadoop简介 50
3.2.2 Hadoop 3.x 53
3.3 Hadoop的体系架构 55
3.4 Hadoop与分布式开发 58
3.5 Hadoop的生态系统 60
习题 68
第4章 HDFS分布式文件系统和ZooKeeper 70
4.1 分布式文件系统 72
4.1.1 分布式文件系统的设计思路 72
4.1.2 最早的分布式文件系统 73
4.1.3 大数据环境下分布式文件系统的优化思路 75
4.2 HDFS的体系架构及特点 76
4.2.1 HDFS的体系架构 76
4.2.2 HDFS的特点 78
4.3 HDFS的完整性 79
4.3.1 校验和 79
4.3.2 运行后台进程来检测数据块 79
4.4 HDFS数据的读/写流程 80
4.5 HDFS的常用工具 83
4.5.1 FsShell实现 83
4.5.2 DFSAdmin实现 84
4.6 ZooKeeper分布式协调服务 86
4.6.1 ZooKeeper概述 86
4.6.2 ZooKeeper的体系结构 87
4.6.3 ZooKeeper奇数节点和偶数节点 89
习题 90
第5章 分布式计算——MapReduce和YARN 92
5.1 什么是MapReduce 94
5.2 MapReduce编程模型 95
5.2.1 MapReduce简单模型 96
5.2.2 MapReduce复杂模型 97
5.2.3 WordCount案例 98
5.3 MapReduce数据流及任务流 101
5.3.1 MapReduce数据流 101
5.3.2 MapReduce任务流 104
5.4 YARN概述 106
5.5 YARN的基本框架 107
5.6 YARN的工作流程 110
习题 112
第6章 分布式数据库技术——HBase 114
6.1 海量数据与NoSQL 116
6.1.1 关系数据库的局限 116
6.1.2 CAP理论 116
6.1.3 NoSQL 118
6.2 HBase简介 119
6.3 HBase表视图 122
6.3.1 HBase逻辑视图 122
6.3.2 HBase物理视图 123
6.4 HBase物理存储模型 126
6.5 HBase的基本操作 127
6.5.1 HBase Shell的命令 127
6.5.2 general操作 128
6.5.3 DDL(数据定义语言)操作 129
习题 131
第7章 分布式数据仓库技术——Hive 134
7.1 什么是Hive 136
7.1.1 Hive的本质 136
7.1.2 Hive的基础架构 137
7.2 Hive的安全性 140
7.2.1 默认授权模式 140
7.2.2 基于存储的授权模式 140
7.2.3 基于SQL标准的授权模式 141
7.3 Hive Shell 141
7.4 Hive的性能调优 145
7.4.1 分区表 146
7.4.2 存储优化 147
7.4.3 矢量化查询优化 148
7.5 HQL简介 149
7.5.1 认识HQL 149
7.5.2 Hive管理数据的方式 150
习题 151
第8章 ClickHouse与ElasticSearch分布式搜索 152
8.1 ClickHouse概述 154
8.2 ClickHouse的架构及其基本特性 155
8.2.1 ClickHouse的架构 155
8.2.2 ClickHouse的基本特性 157
8.3 ClickHouse的使用案例 159
8.4 ElasticSearch简介 166
8.5 ElasticSearch的架构及其基本特性 170
8.5.1 ElasticSearch的架构 170
8.5.2 ElasticSearch的基本特性 172
8.6 ElasticSearch的使用案例 173
习题 179
第9章 大数据实时处理技术 182
9.1 Spark——分布式技术 184
9.1.1 Spark概述与架构 184
9.1.2 弹性分布式数据集 186
9.1.3 Spark的扩展功能 188
9.1.4 Spark的应用举例 190
9.2 Flink——分布式实时处理引擎 192
9.2.1 Flink的原理与架构 193
9.2.2 Flink的运行架构 195
9.2.3 Flink应用举例 197
习题 202
|
|