新書推薦:
《
人格阴影 全新修订版,更正旧版多处问题。国际分析心理学协会(IAAP)主席力作
》
售價:NT$
305.0
《
560种野菜野果鉴别与食用手册
》
售價:NT$
305.0
《
中国官僚政治研究(一部洞悉中国政治制度演变的经典之作)
》
售價:NT$
286.0
《
锂电储能产品设计及案例详解
》
售價:NT$
505.0
《
首辅养成手册(全三册)
》
售價:NT$
551.0
《
清洁
》
售價:NT$
296.0
《
组队:超级个体时代的协作方式
》
售價:NT$
352.0
《
第十三位陪审员
》
售價:NT$
245.0
|
內容簡介: |
Hadoop是当前热门的大数据处理与分析平台。《Hadoop大数据开发基础项目化教程》将大数据平台相关内容划分为8个项目,分别是大数据时代、Hadoop基础环境、Hadoop环境搭建、分布式存储HDFS、MapReduce分布式编程、Hadoop数据仓库Hive、Hadoop数据库HBas、协调系统Zookeeper,每个项目按照知识点拆解分为相关的多个任务,每个任务都有详细的操作步骤实现,由浅入深、将理论和实践相融合,循序渐进地介绍Hadoop集群的相关知识点,使读者能够学以致用,融会贯通,快速理解和掌握。
本书可作为高职高专院校大数据技术及应用等计算机相关专业的教材使用,也适用于应用型本科院校数据科学与大数据、大数据管理与应用等专业的师生使用,还可供大数据零基础的初学者入门和进阶、大数据相关领域的广大程序设计人员参考。
|
關於作者: |
陈秀玲,计算机专业教授,1999年7月毕业于哈尔滨理工大学,同年就职于黑龙江职业学院,从事计算机相关专业的教学工作至2019年8月。由2019年8月至今在重庆化工职业学院从事大数据应用相关专业的教学工作。近十年共计完成课题20项(其中主持省教育厅、省科技处课题2项、院级重点课题1项,参与各类课题各4项,主持或参与职教学会、高教学会、院级一般课题13项),并且全部结题。将研究成果和教学经验整理发表论文十余篇、主编或编写教材共计16部,申请实用新型专利2项,参与专利5项。主讲《C语言》、《C 》、《Java语言》、《Python》、《MySQL》、《VB程序设计》、《SQL Server数据库》、《软件工程》、《软件测试》、《操作系统》、《IT项目经理》、《VFP数据库》等多门课程。
|
目錄:
|
项目1 大数据时代 1
任务1 认识大数据 1
1.1.1 大数据定义 2
1.1.2 大数据核心特征 2
1.1.3 大数据体系架构 3
任务2 大数据关键技术 4
1.2.1 大数据技术分类 4
1.2.2 大数据存储基础 5
1.2.3 大数据与云计算、物联网 6
任务3 大数据的应用 6
1.3.1 大数据典型应用—— 霍廷 6
1.3.2 大数据典型应用——亚马逊 7
1.3.3 大数据典型应用——城管通 7
1.3.4 大数据典型应用——智能公交站牌 7
1.3.5 大数据典型应用——金融分析 7
1.3.6 大数据典型应用——医疗决策 7
1.3.7 大数据典型应用——农业防稻瘟 8
1.3.8 大数据典型应用——社会治理 8
1.3.9 大数据典型应用——疫情阻击 8
习题 8
项目2 Hadoop基础环境 10
任务1 熟悉Linux 10
2.1.1 Linux简介 11
2.1.2 Linux发行版 11
2.1.3 Linux文件 11
2.1.4 Linux常用命令应用 12
任务2 认识Hadoop 15
2.2.1 Hadoop简介 15
2.2.2 Hadoop发展史 16
2.2.3 Hadoop发行版本 16
2.2.4 Hadoop基本概念 17
2.2.5 Hadoop的优点 18
2.2.6 Hadoop基本使用 19
任务3 准备Linux环境 20
2.3.1 虚拟机简介 20
2.3.2 VMware虚拟机 20
2.3.3 安装虚拟机 20
任务4 Hadoop基础环境搭建 21
2.4.1 Hadoop核心知识 21
2.4.2 Hadoop生态社区 22
2.4.3 安装主机master 24
2.4.4 拍快照保留历史数据 28
2.4.5 更改主机名称 29
2.4.6 设置共享文件夹 32
2.4.7 安装Java并配置环境 35
任务5 Notepad 实现共享编辑 37
2.5.1 Notepad 简介 37
2.5.2 下载并编辑Notepad 37
2.5.3 实现远程连接Linux 39
习题 43
项目3 Hadoop环境搭建 45
任务1 Hadoop单节点环境搭建 45
3.1.1 单节点基础 46
3.1.2 单节点安装 46
3.1.3 单节点配置环境及检验 47
任务2 Hadoop伪分布式环境搭建 49
3.2.1 伪分布式环境基础 49
3.2.2 伪分布式环境安装 51
3.2.3 伪分布式环境配置及测试 53
任务3 Hadoop完全分布式环境搭建 60
3.3.1 完全分布式环境基础 61
3.3.2 完全分布式环境安装 62
3.3.3 完全分布式环境配置 72
任务4 使用Xshell远程终端模拟器 78
3.4.1 Xshell简介 78
3.4.2 Xshell特点 78
3.4.3 Xshell下载和安装 78
3.4.4 Xshell远程连接虚拟机 79
任务5 使用MobaXterm终端软件 83
3.5.1 MobaXterm简介 83
3.5.2 MobaXterm特点 84
3.5.3 MobaXterm下载并安装 84
3.5.4 使用MobaXterm连接虚拟机 85
习题 88
项目4 分布式存储HDFS 90
任务1 HDFS的组成与工作机制 90
4.1.1 HDFS简介 91
4.1.2 机架感知与副本冗余存储策略 91
4.1.3 HDFS体系结构 92
4.1.4 NameNode工作原理 93
4.1.5 查看NameNode格式化后的数据文件 94
任务2 HDFS数据操作 96
4.2.1 HDFS shell简介 96
4.2.2 HDFS用户命令 97
4.2.3 启动并查看HDFS进程 97
4.2.4 借助浏览器查看 98
4.2.5 HDFS管理员命令 99
4.2.6 HDFS完成数据文件的简单操作 100
4.2.7 使用HDFS管理员命令完成相关服务操作 102
任务3 创建HDFS项目 103
4.3.1 IDEA开发工具使用 103
4.3.2 IDEA安装 104
4.3.3 借助IDEA创建Maven项目 107
任务4 HDFS的文件读写 109
4.4.1 HDFS文件读写流程 110
4.4.2 启动Hadoop进程 111
4.4.3 客户端向HDFS写文件 112
4.4.4 客户端向HDFS读文件 114
习题 115
项目5 MapReduce分布式编程 117
任务1 认识MapReduce 117
5.1.1 MapReduce介绍 117
5.1.2 Wordcount程序体验 118
任务2 MapReduce编程模型 124
5.2.1 MapReduce 设计构思和框架结构 124
5.2.2 MapReduce 编程规范 126
5.2.3 编写自己的单词统计程序 126
任务3 MapReduce案例实战—— 去重 137
5.3.1 数据去重思想 137
5.3.2 MapReduce数据去重程序编写 138
任务4 MapReduce案例实战—— 排序 145
5.4.1 MapReduce数据排序 145
5.4.2 Shuffle工作原理 146
任务5 MapReduce案例实战—— Map端join 153
5.5.1 Map端join的使用场景 154
5.5.2 Map端join的执行流程 154
任务6 MapReduce优化 162
5.6.1 资源相关参数 162
5.6.2 容错相关参数 163
5.6.3 效率与稳定性参数 163
习题 163
项目6 Hadoop数据仓库Hive 165
任务1 Hive环境搭建 165
6.1.1 Hive简介 166
6.1.2 Hive优点 166
6.1.3 安装Mysql 166
6.1.4 Mysql基本应用 167
6.1.5 安装Hive 173
6.1.6 配置Hive环境 174
6.1.7 启动Hive 177
任务2 Hive数据库基本操作 178
6.2.1 数据库相关知识 179
6.2.2 数据库操作 179
任务3 Hive表基本操作 181
6.3.1 表的相关知识 181
6.3.2 Hive内置函数 182
6.3.3 Hive元数据存储 182
6.3.4 表操作 184
习题 189
项目7 Hadoop数据库HBase 190
任务1 HBase安装配置基础 190
7.1.1 HBase简介 191
7.1.2 HBase发展历史 191
7.1.3 HBase基本概念 191
7.1.4 HBase特点 192
7.1.5 HBase安装前的准备 193
任务2 HBase多种模式安装 195
7.2.1 HBase安装模式 195
7.2.2 HBase常用命令 195
7.2.3 HBase伪分布式安装及配置 196
7.2.4 HBase完全分布式安装及配置 201
任务3 HBase创建用户表 205
7.3.1 HBase数据模型 205
7.3.2 HBase存储机制 206
7.3.3 HBase存储架构 206
7.3.4 HBase表的基本命令 207
7.3.5 创建用户表 207
任务4 操作表信息 209
7.4.1 对表的操作命令 209
7.4.2 增加表记录 209
7.4.3 查看表信息 210
7.4.4 修改表结构 211
7.4.5 更新表记录 213
7.4.6 删除记录/表 214
习题 215
项目8 协调系统Zookeeper 216
任务1 Zookeeper基础知识 216
8.1.1 Zookeeper概述 217
8.1.2 Zookeeper基本概念 217
8.1.3 Zookeeper应用场景 218
任务2 Zookeeper安装基础 218
8.2.1 Zookeeper安装模式 218
8.2.2 Zookeeper角色 219
8.2.3 Zookeeper常用命令 219
8.2.4 Zookeeper安装前准备 220
任务3 Zookeeper多种模式安装 222
8.3.1 Zookeeper配置中的参数 222
8.3.2 单节点模式安装及配置 222
8.3.3 伪集群模式安装及配置 227
8.3.4 完全分布式模式安装及配置 232
习题 235
参考文献 237
|
內容試閱:
|
随着信息技术的快速发展,世界已经进入了大数据时代。Hadoop是当前热门的大数据处理与分析平台,本书作为Hadoop的入门教材,采用项目化形式编写,是一本适合零基础读者学习并研发的大数据基础教程。本教材是化学工业出版社有限公司出版的“高等职业教育大数据技术专业系列教材”之一。
为了全面贯彻落实教育部印发的《高等学校课程思政建设指导纲要》指示精神和《国家职业教育改革实施方案》,全书融入课程思政元素,坚持校企双元、产教融合开发原则;切实把立德树人根本任务贯穿到大数据技术专业的教学全过程,将专业教育与思政育人紧密结合,在专业教育中增强学生职业道德和操守,做到润物细无声地培养大数据工程技术人员的工匠精神。
1. 教材内容体系组织
全书打破传统将Hadoop集群知识点按照章节顺序、先理论后实践的编写模式,引入曾为思科、北京神州数码、中冶赛迪、重庆移动、招商银行等多家大型企事业单位提供大数据运维服务、大数据分析服务、大数据国际认证培训等服务的高新技术企业——重庆翰海睿智大数据科技有限公司的优秀导师,与高校教师共同研发本项目化教材。将Hadoop集群平台涉及的相关技术分为8个项目,每个项目的知识点拆解成多个任务,由浅入深地通过具体的各个任务讲解具体知识,将知识点融会贯通,使枯燥的学习充满乐趣。全书采用“任务描述—相关知识—任务实现”方式,侧重通过详细的操作步骤做到任务的具体实现,方便初学者快速理解和领悟各个知识点的综合运用。
2. 教材主要内容
本书是一本以任务引领、问题导向的教材,非常适合零基础的读者学习和理解Hadoop。全书共有8个项目,每个项目中又分成多个任务。
项目1大数据时代,包含3个任务,主要阐述大数据的基本概念、大数据核心特征以及大数据在现实生活中的具体应用。
项目2 Hadoop基础环境,包含5个任务,以熟悉Linux、认识Hadoop、准备Linux环境、Hadoop基础环境搭建和Notepad 实现共享编辑5个任务引领贯穿,着重使读者了解Linux基础、Hadoop发展历程及特点;熟悉Hadoop基本概念、熟练应用Linux常用命令和具体掌握Hadoop基础环境搭建等知识,为后面项目的学习奠定基础。
项目3 Hadoop环境搭建,包含5个任务,以Hadoop单节点环境搭建、Hadoop伪分布式环境搭建、Hadoop完全分布式环境搭建为抓手,并配套使用Xshell远程终端模拟器、MobaXterm终端软件实现借助当前为流行和先进的远程终端软件连接并控制远程的主机,轻松操作和管理。
项目4分布式存储HDFS,分为4个任务,以HDFS的组成与工作机制、HDFS数据操作、创建HDFS项目和HDFS的文件读写4个任务,主要阐述了HDFS的体系结构、HDFS的常用shell命令、HDFS的读写流程和借助IDEA完成HDFS的文件读写操作。
项目5 MapReduce分布式编程,分为6个任务,以认识MapReduce、MapReduce编程模型、MapReduce案例实战——去重、MapReduce案例实战——排序、MapReduce案例实战——Map端join和MapReduce优化为切入点,主要介绍了MapReduce工作原理及应用场景、理解MapReduce编程模型、掌握MapReduce编程方法和MapReduce程序在Yarn上的运行等。
项目6 Hadoop数据仓库Hive,分为3个任务,以Hive环境搭建、Hive数据库基本操作、Hive表基本操作为载体,主要阐述了Hive的特点、熟悉Hive数据类型、区分Hive四种表、Hive的安装及配置,使读者能熟练应用Hive创建数据库、创建表、修改表等。
项目7 Hadoop数据库HBase,分为4个任务,通过HBase安装配置基础、HBase多种模式安装、HBase创建用户表和操作表信息4个任务实例,详细阐述了HBase简介、HBase工作原理、HBase安装及配置和具体的HBase应用等。
项目8协调系统Zookeeper,分为3个任务,具体有Zookeeper基础知识、Zookeeper安装基础和Zookeeper多种模式安装。主要阐述了提供分布式协调一致性服务的Zookeepe,需要读者了解Zookeeper基本概念、Zookeeper安装模式,掌握Zookeeper的工作原理、Zookeeper单机模式搭建、完全分布式模式安装及配置和Zookeeper的启动并可以综合、灵活运用。
本书由重庆化工职业学院陈秀玲、重庆化工职业学院王德选、哈尔滨广厦学院陈井霞担任主编,重庆翰海睿智大数据科技股份有限公司崔大洪、重庆化工职业学院任小平担任副主编,参加编写的还有重庆化工职业学院陈红。其中陈秀玲编写项目3;王德选编写项目1、项目6、项目8;陈井霞编写项目2、项目7;崔大洪编写项目4;任小平编写项目5;陈红编写全书的线上习题。同时特别感谢重庆翰海睿智大数据科技股份有限公司的杨锦秀、王秀君,为本书多个任务提供了设计思路等诸多帮助。全书由陈秀玲统稿。
3.教材主要特色
(1)引入重庆翰海睿智大数据科技股份有限公司——高新技术企业(认定编号:GR201951100755)和双软认证企业(渝RQ-2019-0080)的优秀企业导师,做到校企双元共建。
(2)本书是项目化教材,知识点以任务的形式贯穿。
(3)内容选取贴近实际运用需要、内容丰富,涵盖8个项目、33 个任务。
(4)项目采用“任务描述—相关知识—任务实现”方式统领各个知识点,侧重具体实践操作,配有详细的操作步骤,方便读者理解和掌握。
(5)每个项目配套课后习题和线上习题两部分,可用手机扫描教材中配套的二维码获得课后习题的答案和线上习题及答案。线上习题增加大数据行业面试题,方便读者及时获取行业动态,明确自己的努力方向。
(6)语言简明易懂,由浅入深学习Hadoop大数据平台相关知识。
本书适合零基础的大数据初学者入门和进阶,可作为高等院校大数据类专业的教材,也可供相关领域的广大程序设计人员参考。
本书的编写参考了诸多相关资料,在此表示衷心的感谢。由于水平和时间有限,书中难免存在疏漏之处,欢迎读者批评指正。
编者
2021年2月
|
|