新書推薦:
《
引爆:炸药、硝酸盐和现代世界的形成
》
售價:NT$
388.0
《
人类星球:我们如何创造了人类世(企鹅·鹈鹕丛书013)
》
售價:NT$
418.0
《
伏候圣裁:中国古代的君主与政治
》
售價:NT$
449.0
《
艺术图像学研究(第一辑)
》
售價:NT$
857.0
《
摆脱强迫的人生(修订版)
》
售價:NT$
403.0
《
知宋·宋代之司法
》
售價:NT$
454.0
《
空间与政治
》
售價:NT$
398.0
《
少年读三国(全套12册)
》
售價:NT$
2234.0
|
編輯推薦: |
本书深入讲解大数据技术的核心概念和实际应用。
配套资源丰富,附赠
●长达13个小时的部分实例操作视频
●全书实例源代码
●电子版本教程
●PPT
|
內容簡介: |
本书深入探讨了大数据技术的核心概念和实际应用。从大数据的基础架构Hadoop开始,逐步解析了分布式协调服务Zookeeper、数据仓库Hive、面向列的数据库HBase等关键技术。此外,还介绍了数据迁移工具Sqoop、数据采集工具Flume、发布订阅消息系统Kafka等实用工具。本书还深入讲解了数据处理分析引擎Spark、全文搜索引擎Elasticsearch及分布式处理引擎Flink的工作原理和应用实例。最后,通过电商推荐系统实战和Flink实现电商用户行为分析两个案例,展示了大数据技术在实际业务中的应用。
本书附带全书实例源代码、电子版本教程(下载方式见封底),以及可扫码观看的长达13个小时的部分实例操作视频,帮助读者更深入了解大数据技术的具体内容,非常适合对大数据技术感兴趣的读者,尤其是想要深入了解大数据技术原理和应用的开发者和管理者阅读。
|
關於作者: |
韦宇杰, 毕业于华南理工大学广州学院,获得了机械工程及自动化的学士学位,一位融合机械工程与自动化专业背景的资深程序员。
作为一名资深程序员,在大数据领域深耕多年,积累了丰富的实战经验。他精通从数据采集、清洗、存储到分析的全链条技术,擅长运用最前沿的工具和框架解决复杂的数据处理问题,让庞大的数据集在他的手中焕发出前所未有的价值。他的职业生涯跨越了多个领域,不仅在大数据处理和系统开发方面表现出色,更在算法设计和模型构建上拥有深厚的专业知识。
在数据处理、算法设计以及系统优化方面积累了丰富的经验。他曾参与华为的应用系统经营分析系统的研发工作,期间他充分发挥了自己的算法训练和模型设计能力,为项目的成功贡献了关键的技术支持。这段经历不仅证明了他在大数据处理领域的实力,也彰显了他在算法和模型构建方面的专业素养。
作为一位对技术充满热情的程序员,他深耕细作,苦练编程,善于总结,慢慢的形成了个人的编程风格,在数据处理、算法、系统布局等方面有自己独特的见解和处理方式。本书是作者多年工作经验的总结,以最贴近实际的案例帮助读者更容易,更轻松,更深入地了解大数据开发。
|
目錄:
|
前言
环境搭建视频教程二维码清单
第1章大数据简介
1.1大数据的概述
1.2大数据的特点
1.3大数据的应用领域
1.4目前企业应用的主流大数据技术
1.5大数据开发流程
第2章大数据基础架构Hadoop
2.1Hadoop简介
2.2Hadoop架构详解
2.2.1分布式存储系统HDFS
2.2.2分布式资源管理框架YARN
2.2.3离线计算框架MapReduce
2.3HDFS读、写文件流程
2.3.1HDFS写文件流程
2.3.2HDFS读文件流程
2.4HDFS的实战操作
2.4.1HDFS上传文件
2.4.2HDFS创建文件
2.4.3HDFS创建目录
2.4.4HDFS重命名文件
2.4.5HDFS删除文件
2.5YARN原理
2.6YARN调度器详解
2.7MapReduce工作原理
2.8MapReduce核心的原理Shuffle
2.8.1Map端
2.8.2Reduce端
2.9MapReduce常用三大组件
2.9.1MapReduce中的Partitioner
2.9.2MapReduce中的Sort
2.9.3MapReduce中的Combiner
2.10MapReduce项目实战
2.10.1清洗日志
2.10.2统计电影最高评分
第3章分布式协调服务Zookeeper
3.1ZooKeeper简介
3.2ZooKeeper结构和工作原理
3.2.1ZooKeeper集群角色
3.2.2ZooKeeper的数据结构
3.2.3ZooKeeper的工作流程
3.2.4ZooKeeper的监听器
3.3ZooKeeper实战
3.3.1ZooKeeper创建持久节点
3.3.2ZooKeeper创建临时节点
3.3.3ZooKeeper递归创建节点
3.3.4ZooKeeper读取数据
3.3.5ZooKeeper更新数据
3.3.6ZooKeeper监听节点
3.3.7ZooKeeper监听子节点
3.3.8ZooKeeper实现服务注册与发现
第4章数据仓库Hive
4.1Hive简介和特点
4.2Hive结构和原理
4.2.1Hive结构
4.2.2Hive运行的流程
4.2.3Hive的HQL转换过程
4.3电商用户行为分析
4.3.1项目背景及目的
4.3.2数据导入
4.3.3数据清洗
4.3.4数据分析
第5章面向列的数据库HBase
5.1HBase简介
5.2HBase架构
5.2.1HBase的组件
5.2.2HBase工作机制
5.3HBase数据模型
5.4HBase读写流程
5.4.1HBase写操作流程
5.4.2HBase读操作流程
5.5HBase的API示例
5.5.1HBase创建表
5.5.2HBase保持数据
5.5.3HBase更新数据
5.5.4HBase获取数据
5.5.5HBase删除数据
5.5.6使用HBase获取某一行数据
5.6HBase存储订单案例
第6章大数据开发实战数据迁移工具Sqoop
6.1Sqoop架构和工作原理
6.1.1Sqoop导入原理
6.1.2Sqoop导出原理
6.2Sqoop将HDFS数据导入MySQL
6.3Sqoop将MySQL数据导入HDFS
第7章数据采集工具Flume
7.1Flume简介
7.2Flume构成和工作原理
7.2.1Flume构成
7.2.2Flume工作原理
7.3Flume实战
7.3.1Flume监听目录实战
7.3.2Flume一对多实战
7.3.3Flume拦截器实战
7.3.4Flume采集数据到HDFS
7.3.5Kafka对接Flume实战
第8章发布订阅消息系统Kafka
8.1Kafka 简介
8.2Kafka的消息生产者
8.2.1Kafka生产者的运行流程
8.2.2Kafka生产者分区
8.2.3副本的同步复制和异步复制
8.2.4Kafka消息发送确认机制
8.3Kafka的Broker保存消息
8.3.1存储方式与策略
8.3.2Topic创建与删除
8.4Kafka的消息消费者
8.4.1消费机制
8.4.2消费者组
8.5Kafka 的存储机制
8.5.1Kafka主题Topic
8.5.2Kafka分片Partition
8.5.3Kafka日志Segment File
8.6Kafka 实战
8.6.1Kafka发送消息
8.6.2Kafka自定义分区发送消息
8.6.3Spring Boot整合Kafka发送消息
第9章数据处理分析引擎Spark
9.1Spark 简介
9.2Spark 运行原理
9.2.1Spark的基本概念
9.2.2Spark运行的原理
9.2.3Driver运行在Client
9.2.4Driver运行在Worker节点
9.3Spark算子RDD
9.3.1RDD的属性
9.3.2RDD的依赖关系
9.3.3RDD的shuffle过程
9.3.4RDD的缓存和检查机制
9.4Spark SQL
9.4.1Spark SQL概念
9.4.2Spark SQL的架构
9.4.3DataSets和DataFrames
9.4.4Spark SQL示例
9.5Spark Streaming
9.5.1Spark Streaming介绍/9.5.2DStream转换操作
9.5.3Spark Streaming窗口操作
9.5.4DStream输入
9.5.5DStream 输出
9.5.6DSFrame和SQL操作
9.5.7Spark Streaming检查点
9.6Spark Streaming接收Flume数据实战
9.7Spark Streaming接收Kafka数据实战
第10章全文搜索引擎Elasticsearch
10.1Elasticsearch简介
10.2Elasticsearch架构和原理
10.2.1Elasticsearch核心概念
10.2.2Elasticsearch工作原理
10.2.3Elasticsearch倒排索引
10.3Elasticsearch实战
10.3.1Elasticsearch索引创建
10.3.2Elasticsearch索引更新
10.3.3Elasticsearch索引查询
10.3.4Elasticsearch索引删除
10.3.5Elasticsearch保存文档
10.3.6Elasticsearch更新文档
10.3.7Elasticsearch精确查询
10.3.8Elasticsearch模糊查询
10.3.9Elasticsearch范围查询
10.3.10Elasticsearch布尔查询
10.3.11Elasticsearch聚合查询
10.3.12Elasticsearch高亮查询
10.4Elasticsearch实现搜索系统
10.4.1搜索系统项目环境准备
10.4.2Elasticsearch实现搜索功能
第11章分布式处理引擎Flink
11.1Flink 概述
11.2Flink基本组件和运行时架构
11.2.1Flink运行时架构
11.2.2Flink的分层
11.3Flink流处理流程
11.3.1Flink环境设置(Environment)
11.3.2Flink源算子(Source)
11.3.3Flink支持的数据类型
11.3.4
|
內容試閱:
|
大数据是未来的发展趋势,将应用到生活各个方面,影响和改变我们的生活。本书旨在使更多读者更深入地了解大数据,以及使用大数据的技术解决生活中的问题。
本书采用基础优先的方法,每章内容都有使用大数据组件安装的实战案例,以及每一个组件的开发案例,并且提供了相应的代码。使用这种理论结合实践的方式,将大数据的技术应用到项目中,从而让读者能更加容易地掌握相关的技术和原理。
本书内容根据笔者在大数据开发中积累的常用技术和经验编写而成,把书中的内容串联在一起,就是日常大数据开发的整个流程,本书先介绍理论,后经过案例练习,注重实战,让读者在阅读的过程中,就能感受到大数据日常开发的一个具体流程,同时也能帮助读者学会大数据项目开发的流程。
本书还介绍了推荐项目的开发流程,详细介绍了项目的需求和实现思路,同时提供了相应的实例代码,供读者学习和参考。书中的推荐项目能够让读者更加深刻地了解大数据在日常生活中的应用,以及如何把大数据的技术应用到项目中。
新手、基础比较薄弱和知识系统不够全面的读者,可以结合本书中的案例,逐一练习。本书配有电子版教程和视频教程,每章的内容都会详细讲解。
本书各章简述部分均列出内容大纲,有助于读者对本章的内容有一个总体的认识和了解,有利于读者以从整体到局部的方式学习各章的内容,达成学习的目标。本书以容易理解的方式讲述各章的内容,教授学习的方法、解决问题的方法、程序设计的概念、代码实现的思路。本书各章内容使用多个简单的例子来演示重要的概念,让读者从实战中领悟到重要概念,化抽象为具体,便于理解和记忆。
本书旨在为读者提供更加简单的方法,让你拥有一本可以实战的书,一本可以带去上班参考使用的大数据技术手册。在阅读过程中有任何问题,欢迎发邮件到yuancoder@foxmail.com。
|
|