《Hadoop大数据分析技术》 - 台灣·大書城 - 迟殿委陈鹏程 - 清华大学出版社

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　聯絡我們　 \|　運費計算　 \|　幫助中心　\|　加入書簽
		會員登入新用戶註冊

HOME

新書上架

暢銷書架

好書推介

2024年度TOP

香港／國際用戶

最新/最熱/最齊全的簡體書網

品種：超過100萬種書，正品正价，放心網購，悭钱省心

送貨：速遞 / 物流，時效：出貨後2-4日

『簡體書』Hadoop大数据分析技术

書城自編碼： 3808202
分類：簡體書→大陸圖書→計算機/網絡→數據庫
作者：迟殿委陈鹏程
國際書號(ISBN)： 9787302620990
出版社：清华大学出版社
出版日期： 2022-11-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：NT$ 352

我要買件

** 我創建的書架 **
未登入.

編輯推薦：

本书系统讲解Hadoop生态圈各组件的核心知识、操作方法和分析技术，并通过两个综合实战项目——影评大数据分析、旅游酒店评价大数据分析，来贯穿Hadoop大数据分析的完整流程。

內容簡介：

伴随Hadoop的成长，Hadoop不再是一个简单的数据分布式存储平台和工具，已经成长为一个完整的生态圈。本书采用Hadoop 3.2.2版本，系统讲解Hadoop生态系统主流的大数据分析技术。本书配套示例源码、PPT课件、教学大纲与编程环境。本书共分11章。内容包括Hadoop概述与大数据环境准备、Hadoop伪分布式集群搭建、HDFS分布式存储实战、MapReduce实战、ZooKeeper与高可用集群实战、Hive数据仓库实战、HBase数据库实战、Flume数据采集实战、Kafka实战、影评大数据分析项目实战、旅游酒店评价大数据分析项目实战。本书可作为Hadoop大数据技术初学者的入门书，也可作为Hadoop大数据分析工程师的指导手册，还可作为高等院校或者高职高专大数据专业的教材或教学参考书。

關於作者：

迟殿委，计算机软件与理论专业硕士，毕业于南昌大学，系统架构设计师。有多年企业软件研发经验和丰富的JavaEE培训经验，熟练掌握JavaEE全栈技术框架，对Java核心编程技术有深刻理解。主要擅长JavaEE系统架构设计、大数据分析与挖掘。

第1章 Hadoop概述与大数据环境准备 1
1.1 大数据定义 2
1.2 Hadoop生态介绍 2
1.2.1 Hadoop简介 2
1.2.2 Hadoop版本简介 4
1.2.3 Hadoop生态系统和组件介绍 6
1.3 Hadoop 3新特性 7
1.4 虚拟机安装 9
1.5 安装Linux操作系统 10
1.6 SSH工具与使用 15
1.7 Linux统一设置 16
1.8 小结 18
第2章 Hadoop伪分布式集群搭建 19
2.1 安装独立运行的Hadoop 19
2.2 Hadoop伪分布式环境准备 22
2.3 Hadoop伪分布式安装 26
2.4 HDFS操作命令 31
2.5 Java项目访问HDFS 33
2.5.1 创建Maven项目 34
2.5.2 HDFS操作示例 36
2.6 winutils 38
2.7 快速MapReduce程序示例 39
2.8 小结 42
第3章 HDFS分布式存储实战 43
3.1 HDFS的体系结构 43
3.2 NameNode的工作 44
3.2.1 查看镜像文件 45
3.2.2 查看日志文件 46
3.2.3 日志文件和镜像文件的操作过程 47
3.3 SecondaryNameNode 49
3.4 DataNode 50
3.5 HDFS的命令 50
3.6 远程过程调用 51
3.7 小结 53
第4章 MapReduce实战 55
4.1 MapReduce的运算过程 55
4.2 WordCount示例 57
4.3 自定义Writable 60
4.4 Partitioner分区编程 64
4.5 自定义排序 66
4.6 Combiner编程 67
4.7 默认Mapper和默认Reducer 68
4.8 倒排索引 69
4.9 Shuffle 73
4.10 小结 77
第5章 ZooKeeper与高可用集群实战 79
5.1 ZooKeeper简介 79
5.1.1 Zxid 80
5.1.2 版本号 81
5.2 单一节点安装ZooKeeper 82
5.3 基本客户端命令 83
5.4 Java代码操作ZooKeeper 86
5.5 ZooKeeper集群安装 91
5.6 znode节点类型 92
5.7 观察节点 93
5.8 配置Hadoop高可用集群 93
5.9 用Java代码操作集群 102
5.10 小结 104
第6章 Hive数据仓库实战 105
6.1 Hive3的安装配置 107
6.2 Hive的命令 110
6.3 Hive内部表 114
6.4 Hive外部表 116
6.5 Hive表分区 117
6.5.1 分区技术细节 117
6.5.2 分区示例 119
6.6 查询示例汇总 121
6.7 Hive函数 122
6.8 Hive自定义函数 128
6.9 Hive视图 132
6.10 hiveserver2 132
6.11 使用JDBC连接hiveserver2 134
6.12 小结 135
第7章 HBase数据库实战 136
7.1 HBase的特点 136
7.2 HBase安装 139
7.2.1 HBase的单节点安装 140
7.2.2 HBase的伪分布式安装 142
7.2.3 Java客户端代码 144
7.3 HBase集群安装 150
7.4 HBase Shell操作 153
7.4.1 数据模型定义 154
7.4.2 数据基本操作 156
7.5 协处理器 160
7.6 Phoenix 162
7.7 小结 168
第8章 Flume数据采集实战 169
8.1 Flume的安装与配置 170
8.2 快速示例 171
8.3 在ZooKeeper中保存Flume的配置文件 172
8.4 Flume的更多Source 176
8.4.1 Avro Source 176
8.4.2 Thrift Source和Thrift Sink 180
8.4.3 Exec Source 183
8.4.4 Spool Source 184
8.4.5 HDFS Sinks 184
8.5 小结 185
第9章 Kafka实战 186
9.1 Kafka的特点 187
9.2 Kafka术语 188
9.3 Kafka安装与部署 189
9.3.1 单机部署 189
9.3.2 集群部署 195
9.4 小结 198
第10章影评大数据分析项目实战 199
10.1 项目介绍 199
10.2 项目需求分析 199
10.3 项目详细实现 203
10.3.1 搭建项目环境 203
10.3.2 编写爬虫类 206
10.3.3 编写分词类 207
10.3.4 第一个job的Map阶段实现 210
10.3.5 第一个job的Reducer阶段实现 210
10.3.6 第二个job的Map阶段实现 211
10.3.7 第二个job的自定义排序类阶段的实现 211
10.3.8 第二个job的自定义分区阶段实现 212
10.3.9 第二个job的Reduce阶段实现 212
10.3.10 Run程序主类实现 213
10.3.11 编写词云类 214
10.3.12 效果测试 215
第11章旅游酒店评价大数据分析项目实战 216
11.1 项目介绍 216
11.2 项目需求分析 217
11.2.1 数据集需求 217
11.2.2 功能需求 217
11.3 项目详细实现 218
11.3.1 数据集上传到HDFS 219
11.3.2 Hadoop数据清洗 221
11.3.3 构建Hive数据仓库表 225
11.3.4 Sqoop数据导入与导出 230
11.3.5 数据可视化开发 232

內容試閱：

国家提出要加快 5G 网络和数据中心等新型基础设施建设（简称新基建）的进度。其中，信息化新型基础设施包含云计算、大数据、人工智能、区块链、5G 等内容。大数据是指具有海量（volume）、多模态（variety）、变化速度快（velocity）、蕴含价值高（value）和真实性（veracity）“5V”特征的数据，使得传统的数据存储、管理、分析技术已经无法满足大数据的处理要求。大数据给传统的数据处理和数据分析带来巨大的挑战，已引起学术界和工业界的高度关注。Hadoop正是在这种背景下产生的一个大数据开源平台。许多大型互联网公司，如谷歌、阿里巴巴、百度、京东等互联网公司都急需掌握Hadoop大数据技术的人才，而目前人才市场上大数据技术相关人才由于种种原因存在供不应求的状况，本书在这个背景下创作而成。
本书内容
本书是一本关于Hadoop 3.2.2大数据平台搭建和数据分析、生态体系主要组件的应用和开发方面的实战书籍，涉及的知识面比较广，涵盖了当前整个Hadoop生态系统主流的大数据开发技术。本书从实践操作与开发讲起，在基本操作已经掌握以后，再回过头来讲解理论知识。所以，本书是先实践再理论，方便读者快速掌握Hadoop大数据分析技术。
全书共分11章，第1章讲解Hadoop框架简介及新版本特性，并详细介绍大数据环境的准备工作，包括Linux操作系统的安装、SSH工具使用和配置等；第2章讲解Hadoop伪分布式的安装和开发体验，使读者熟悉Hadoop大数据开发两大核心组件，即HDFS和MapReduce；第3~9章讲解Hadoop生态系统各框架HDFS、MapReduce、输入/输出、Hadoop集群配置、ZooKeeper、HBase、Hive、Flume数据采集系统、Kafka等，并通过实际案例加深对各个框架的理解与应用。第10~11章分别通过影评大数据分析项目实战和旅游酒店评价大数据分析项目实战，使读者了解完整的大数据项目开发过程，并巩固所学的知识，使之掌握的内容更加系统、全面。
本书目的
通过本书的学习，读者可以对照书中的步骤成功搭建属于自己的Hadoop大数据集群，并掌握基于Hadoop的大数据分析与开发技术，最终能够独立完成Hadoop大数据分析与开发项目。
本书适合的读者
本书可作为Hadoop框架初学者的入门书以及大数据分析人员的参考手册，也可作为高校开设大数据平台搭建或大数据开发课程的参考教材。学习本书要求读者有一定的Java编程基础并了解Linux系统的基础知识。本书每一个章节的实践操作内容都有详细清晰的步骤讲解，即使读者没有任何大数据基础，也可以对照书中的步骤成功搭建属于自己的大数据集群，本书是一本真正提高读者动手能力、以实操为主的入门书籍。通过本书的学习，结合每章配套的源代码，读者能够迅速理解与掌握Hadoop大数据相关技术框架，并可以熟练使用Hadoop集成环境进行大数据项目的开发。
配套源码、PPT课件等资源下载
本书配套源码、PPT课件、教学大纲与编程环境，需要用微信扫描下边二维码获取，可按扫描后的页面提示填写你的邮箱，把下载链接转发到邮箱中下载。如果下载有问题或阅读中发现问题，请联系 booksaga@163.com，邮件主题写“Hadoop大数据分析技术”。

作者
2022年9月

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	台灣用户　\|　香港/海外用户

megBook.com.tw
Copyright (C) 2013 - 2025 （香港）大書城有限公司　All Rights Reserved.