新書推薦:
《
人生解忧:佛学入门四十讲
》
售價:NT$
490.0
《
东野圭吾:分身(东野圭吾无法再现的双女主之作 奇绝瑰丽、残忍又温情)
》
售價:NT$
295.0
《
浪潮将至
》
售價:NT$
395.0
《
在虚无时代:与马克斯·韦伯共同思考
》
售價:NT$
260.0
《
日内交易与波段交易的资金风险管理
》
售價:NT$
390.0
《
自然信息图:一目了然的万物奇观
》
售價:NT$
640.0
《
经纬度丛书·州县之民:治乱之间的小民命运
》
售價:NT$
440.0
《
女性史:古代卷(真正意义上的女性大历史)
》
售價:NT$
560.0
|
內容簡介: |
本书全面详细地介绍了大数据生态系统中的主流技术。全书共10章,主要包括大数据生态系统概述、大数据采集技术、大数据存储技术、大数据分析处理技术等内容,书中涵盖了Hadoop、Hive、Hbase、Kafka、Spark、Flink等技术的原理和实践,其中重点介绍了Hadoop技术、Spark技术及Flink技术。
本书详细介绍了主流大数据技术框架的基本原理、环境搭建、操作使用和在典型行业中的具体应用,使读者不仅能够在宏观上全面认知大数据生态系统,而且还能在微观上深入理解大数据技术细节。
本书不仅适合大数据技术初学者阅读,还可以帮助金融、电信、电商、能源、政府部门的大数据应用决策和技术人员,以及IT经理、CTO、CIO等快速学习大数据技术,并能作为大数据相关岗位培训的教程。
|
目錄:
|
前言
●第1章初识大数据
1.1什么是大数据
1.2大数据行业应用
1.3什么是Hadoop
1.4Hadoop产生背景
1.5Hadoop的架构模块介绍
1.6Hadoop在大数据、云计算中的
位置和关系
1.7国内外Hadoop应用案例介绍
1.8Hadoop生态圈以及各组成部分
简介
1.9本章小结
●第2章Hadoop之分布式文件系统
HDFS
2.1构建Hadoop集群
2.1.1集群简介
2.1.2Hadoop集群部署
2.2Hadoop集群启动和停止
2.2.1Hadoop集群启动
2.2.2Hadoop集群停止
2.3HDFS的Shell命令行客户端
操作
2.4HDFS的工作机制
2.4.1HDFS概述
2.4.2HDFS的重要特性
2.4.3HDFS写数据流程
2.4.4HDFS读数据流程
2.5NameNode和SecondaryNameNode
功能剖析
2.5.1NameNode与SecondaryNameNode
解析
2.5.2元数据的checkpoint的条件
2.5.3fsimage与edits详解
2.5.4fsimage和edits文件信息查看
2.6DataNode的工作机制及存储
2.6.1DataNode工作机制
2.6.2数据完整性保证
2.6.3DataNode掉线判断时限参数
2.7HDFS的安全模式
2.8本章小结
●第3章Hadoop之分布式计算
MapReduce
3.1MapReduce概述
3.1.1MapReduce介绍
3.1.2为什么要使用MapReduce
3.2MapReduce框架结构及核心
运行机制
3.3MapReduce编程规范和示例
编写
3.3.1编程规范
3.3.2MapReduce编程入门之
单词计数
3.4MapTask数量及切片机制
3.4.1MapTask个数
3.4.2如何控制MapTask的个数
3.4.3Map并行度的经验之谈
3.5ReduceTask并行度的决定
3.6MapReduce中的combiner
3.7MapReduce中的Shuffle
3.7.1Map端
3.7.2Reduce端
3.7.3Shuffle小结
3.8MapReduce与Yarn
3.8.1Yarn概述
3.8.2Yarn的重要概念
3.9MapReduce在Yarn上运行
流程
3.9.1job 提交过程
3.9.2job 初始化过程
3.9.3Task 任务分配
3.9.4Task 任务执行
3.9.5运行进度与状态更新
3.9.6job 完成
3.10实战项目1:基于MapReduce
实现用户流量分析
3.10.1需求描述
3.10.2需求分析
3.10.3开发实现
3.10.4提交任务
3.11本章小结
●第4章分布式协调服务
Zookeeper
4.1Zookeeper简介
4.1.1Zookeeper是什么
4.1.2Zookeeper常用应用场景
4.2Zookeeper集群部署
4.2.1Zookeeper集群角色
4.2.2Zookeeper集群安装
4.3Zookeeper核心工作机制
4.3.1Zookeeper特性
4.3.2Zookeeper数据结构
4.3.3节点类型
4.4Zookeeper的Shell命令行
操作
4.4.1客户端连接
4.4.2命令行操作
4.5项目实战2:基于Zookeeper
实现服务器上下线动态感知
4.5.1需求描述
4.5.2开发实现
4.6本章小结
●第5章分布式数据库Hbase
5.1Hbase数据库介绍
5.1.1Hbase简介
5.1.2Hbase表的数据模型
5.2Hbase整体架构
5.3Hbase集群搭建
5.4Hbase的Shell命令演示
5.5Hbase的内部原理
5.5.1Hbase的存储原理
5.5.2Hbase读数据流程
5.5.3Hbase写数据流程
5.6Hbase的Flush、compact
机制
5.6.1Flush触发条件
5.6.2Flush的流程
5.6.3Compact合并机制
5.7Hbase表的预分区
5.8region合并
5.8.1region合并说明
5.8.2如何进行region合并
5.9Hbase表的rowkey设计
5.9.1rowkey长度原则
5.9.2rowkey散列原则
5.9.3rowkey原则
5.10Hbase表的热点
5.10.1表的热点描述
5.10.2热点问题解决
5.11项目实战3:基于MapReduce
实现数据入库Hbase表中
5.11.1需求描述
5.11.2开发实现
5.12本章小结
●第6章数据仓库Hive
6.1Hive基本概念
6.1.1Hive简介
6.1.2Hive与传统数据库对比
6.2Hive的架构原理
6.3Hive的数据类型
6.4Hive的安装部署
6.5Hive的交互方式
6.5.1Hive交互Shell
6.5.2Hive JDBC服务
6.5.3Hive的命令
6.6Hive的DDL操作
6.6.1数据库的DDL操作
6.6.2表的DDL操作
6.7Hive的分区表
6.8Hive的静态分区和动态
分区
6.8.1静态分区
6.8.2动态分区
6.9Hive的数据导入
6.10Hive数据导出
6.11项目实战4:基于Hive分析
用户搜索日志数据
6.11.1需求描述
6.11.2数据格式
6.11.3开发实现
6.12本章小结
●第7章日志采集框架Flume
7.1Flume介绍
7.1.1Flume概述
7.1.2Flume的优势
7.1.3Flume的运行机制
7.1.4Flume采集系统结构图
7.2Flume安装部署
7.3Flume数据采集应用
7.3.1采集目录到HDFS
7.3.2采集文件到HDFS
7.4项目实战5:Flume之静态拦
截器的使用
7.4.1案例场景
7.4.2场景分析
7.4.3数据流程处理分析
7.4.4开发实现
7.5本章小结
●第8章分布式消息系统Kafka
8.1Kafka概述
8.1.1Kafka定义
8.1.2Kafka的特性
8.1.3Kafka集群架构和角色
8.2Kafka集群安装部署
8.3Kafka命令行的管理使用
8.4Kafka生产者和消费者的API
代码开发
8.4.1生产者代码开发
8.4.2消费者代码开发
8.5Kafka分区策略
8.6为什么Kafka速度那么快
8.7Kafka的文件存储机制
8.7.1文件存储概述
8.7.2Segment文件
8.7.3Kafka如何快速查询数据
8.7.4Kafka高效文件存储
设计特点
8.8consumer消费原理
8.8.1consumer与topic关系
8.8.2Offset管理
8.8.3coordinator工作机制
8.9项目实战6: Kafka整合
Flume
8.9.1需求描述
8.9.2需求分析
8.9.3需求实现
8.10本章小
|
內容試閱:
|
【写作背景】
次工业革命是以蒸汽机、汽船、火车为代表,标志着人类进入蒸汽时代,大大加强了世界各地之间的联系,改变了世界面貌。第二次工业革命是以电力、内燃机、飞机、汽车为代表,标志着人类进入电气时代。而随着第三次工业革命的深入展开,计算机、原子能、航空航天等各个领域取得了长足发展。第四次工业革命则对人工智能、清洁能源、无人控制技术、量子信息技术等多个领域进行了深耕。
无论是第三次还是第四次工业革命,都能看到计算机软件的发展起到了重要作用,从信息革命到人工智能,从大数据到深度学习等各个领域都取得了非常大的成就。特别是近几年在大数据技术的不断进步下,海量的数据处理发展迅速,通过挖掘海量数据的深度价值,训练机器学习更加精准的模型,可以实现海量数据的实时处理,提高数据的处理效率。
有很多的公司对大数据技术比较陌生,不太了解大数据究竟能够给公司带来什么样的价值,如何利用大数据技术来实现对公司海量数据的治理,如何使用大数据技术实现公司海量数据的价值挖掘等。这些顾虑都在制约着公司选择使用大数据的技术,从而阻止了大数据技术为公司创造更大的利润和价值。
为了让大家快速掌握大数据技术,学习大数据的系统理论知识,掌握大数据的应用案例进行实践,我们组织编撰了此书,希望让越来越多的人能够了解到大数据技术,尽快接受大数据的技术价值,从而为公司创造更大的利润和价值。
【内容特色】
随着信息化建设的速度越来越快,产生的数据越来越多,在过去的两年里,人类创造的数据比之前整个人类历史上存在的数据还要多,地球上平均每人将以约17MB/s的速度创造数据。面对每天产生的海量数据,传统的数据处理手段越来越难以满足人们对数据处理的速度、效率、准确性等的要求。因此,以大数据技术手段来对海量的数据进行处理,已成为全球所有数据处理工程师的普遍选择。
大数据的技术繁杂、技术难度较大,从初的Hadoop分布式文件存储系统,到Hive、Hbase、Spark、Flink等各种计算和存储的技术框架,每一个框架都有其特定的应用场景,在哪种场景下应该选择使用哪一项技术成为众多数据处理人员必须面对的棘手问题。本书内容由浅入深,全面讲解主流框架的技术特性以及适用场景。让读者能够轻松掌握大数据的技术选型以及每一项大数据技术的运用场景。本书涵盖内容全面,基本上覆盖了目前常用的各种大数据技术框架,能够让读者全面系统地学习大数据常用的技术框架,轻松做到“一书在手,大数据技术全都有”,更好地掌握大数据技术的方方面面。
【编写人员安排及致谢】
在本书中,编者向读者展示了大数据各项技术的使用详解以及运用场景,涉及的技术框架繁多,每一个技术都亲自动手实践,尽量避免错误以及纰漏。但是编者水平有限,且多人写作也会造成一定的协作问题,因此书中难免存在一定的问题,欢迎大家进行指正。
本书的编写人员安排如下:刘雪松负责编写第1~2章,李伟杰负责编写第3~4章,王超负责编写第5~7章,李沙负责编写第8~10章,全书由李沙统稿。在编写本书期间,感谢开课吧科技股份有限公司提供的平台,感谢其他编者的辛苦付出,感谢家人的默默陪伴,是他们的全力支持,才得以让本书顺利出版,希望本书能够为大家带来帮助。
编者
|
|