新書推薦:
《
利他主义的生意:偏爱“非理性”的市场(英国《金融时报》推荐读物!)
》
售價:NT$
352.0
《
认知行为疗法:心理咨询的顶层设计
》
售價:NT$
454.0
《
FANUC工业机器人装调与维修
》
售價:NT$
454.0
《
吕著中国通史
》
售價:NT$
286.0
《
爱琴海的光芒 : 千年古希腊文明
》
售價:NT$
908.0
《
不被他人左右:基于阿德勒心理学的无压力工作法
》
售價:NT$
301.0
《
SDGSAT-1卫星热红外影像图集
》
售價:NT$
2030.0
《
股市趋势技术分析(原书第11版)
》
售價:NT$
1010.0
|
編輯推薦: |
本书以Centos 7、Eclipse等为实验开发工具,搭建了Hadoop、HBase、ZooKeeper、Spark等相应的实验集群,通过相关经典实验案例,使学生能较快掌握大数据基础理论知识和综合实践能力。本书配套实验演示视频,增强学习效果。
|
內容簡介: |
本书是理论与实践相结合的教材,以Centos 7、Eclipse等为实验开发工具,搭建了Hadoop、HBase、ZooKeeper、Spark等相应的实验集群,通过相关经典实验案例,使学生由浅入深、由点到面的逐步提高和巩固大数据基础理论知识和综合实践能力。
|
關於作者: |
王成良,男,已从事教学和科研工作近30年。一直在重庆大学计算机学院和软件学院从事多媒体技术、计算机网络、数据库技术等课程的教学工作。
曾经编写过的教材(教材名称、出版时间、字数、出版社、获奖情况等)
1 多媒体技术与网页设计, 2006.8,完成10万字,清华大学出版社
2 Web开发技术及其应用,2007.10,完成65万字,清华大学出版社
3 JAVA EE 5开发基础与实践, 2008.11, 完成15万字,清华大学出版社
4 数据库技术及应用,2011,清华大学出版社
5)Web开发技术(第2版),2013,清华大学出版社
|
目錄:
|
第1章大数据概述
1.1大数据发展背景
1.1.1引言
1.1.2发展历程
1.2大数据相关概念及特点
1.2.1大数据特点
1.2.2相关概念介绍
1.3大数据应用过程
1.3.1数据采集
1.3.2预处理
1.3.3数据存储管理
1.3.4数据挖掘分析
1.4大数据技术
1.4.1大数据集群
1.4.2大数据技术架构
1.5大数据行业应用
1.5.1互联网与电子商务行业
1.5.2医疗健康行业
1.5.3交通行业大数据应用
1.5.4金融行业
1.5.5政府机构
1.5.6零售业
1.5.7其他应用领域
1.6大数据的挑战和机遇
1.6.1大数据的挑战
1.6.2大数据的机遇
1.7本书内容结构介绍
第2章Hadoop基础
2.1概念介绍
2.1.1架构
2.1.2Apache Hadoop概述
2.2Hadoop的安全性
2.2.1安全问题
2.2.2Simple机制
2.2.3Kerberos机制
2.2.4委托令牌
2.3实验环境准备
2.3.1虚拟机安装
2.3.2CentOS 7 系统安装
2.3.3其他软件安装
2.4搭建Hadoop
2.4.1CentOS 7系统配置
2.4.2SSH免密码登录
2.4.3配置JDK
2.4.4解压Hadoop
2.4.5配置Hadoop
2.4.6启动Hadoop
第3章HDFS的介绍和简单操作
3.1Hadoop分布式文件系统HDFS
3.2HDFS的原理
3.3HDFS写操作
3.4HDFS读操作
3.5HDFS删除操作
3.6HDFS常用命令
3.7实验
3.7.1创建目录
3.7.2上传文件命令
3.7.3罗列HDFS上的文件
3.7.4查看HDFS里某一个文件
3.7.5将HDFS中的文件复制到本地
3.7.6递归删除HDFS下的文档
第4章YARN的原理和操作
4.1YARN简介
4.1.1YARN的概念及背景
4.1.2YARN的使用
4.1.3YARN介绍
4.2YARN的基本架构
4.3YARN的工作流程
4.4YARN协议
4.5YARN的优点
第5章MapReduce的介绍和简单使用
5.1MapReduce简介
5.2Map过程
5.3Reduce过程
5.4开发环境的搭建
5.5实验
5.5.1单词计数
5.5.2二次排序实验
5.5.3计数器实验
第6章Hive
6.1Hive 简介
6.1.1Hive基础
6.1.2Hive的工作原理
6.1.3Hive与传统数据库
6.2HiveQL基础
6.3Hive的安装与配置
6.3.1搭建Hive
6.3.2安装配置MySQL
6.3.3配置Hive
6.4实验
第7章HBase
7.1HBase简介
7.1.1HBase基础
7.1.2HBase数据模型
7.1.3HBase访问接口
7.2HBase与RDBMS
7.3HBase的安装与配置
7.3.1伪分布式安装
7.3.2完全分布式
7.4实验
第8章ZooKeeper基础
8.1ZooKeeper简介
8.1.1概念简介
8.1.2主要特点
8.2ZooKeeper体系结构
8.3关键算法ZAB
8.4ZooKeeper集群搭建
8.5ZooKeeper四字命令
8.6实验
8.6.1ZooKeeper客户端
8.6.2ZooKeeper Java API的使用
第9章Spark基础
9.1Spark介绍
9.1.1概念介绍
9.1.2组件介绍
9.1.3特性
9.2Spark主要架构
9.3Spark计算模型
9.4Spark运行模式
9.5Spark SQL
9.5.1Hive and Shark
9.5.2Shark和Spark SQL
9.5.3Spark SQL运行架构
9.5.4sqlContext和hiveContext的运行过程
9.6Spark Steaming
9.6.1术语定义
9.6.2Storm与Spark Streaming的比较
9.6.3运行原理
9.7安装Spark
9.8实验
第10章Apache Kafka
10.1基础概念介绍
10.1.1消息队列
10.1.2消息中间件
10.2Kafka结构
10.3Producer和Consumer
10.3.1Kafka Producer
10.3.2Kafka Consumer
10.3.3消费状态跟踪
10.4Kafka的特性
10.5消息与日志
10.5.1写操作
10.5.2读操作
10.5.3删除操作
10.5.4消息可靠性
10.6实验
10.6.1Kafka集群搭建
10.6.2消息发送与接收
参考文献
|
內容試閱:
|
随着云时代的到来,大数据Big Data引起了人们越来越多的关注。大数据作为IT领域最热门的技术之一,正在不断渗透到人们的生活中,具有广阔的应用空间和发展前景,社会对大数据人才的需求也日益迫切。了解和学习大数据相关知识,不仅是对数据科学和大数据技术、计算机等相关专业学生的要求,也是学生未来职业发展的一种重要途径。
本书与实践相结合介绍大数据基础理论,以Centos 7、Eclipse等作为实验开发环境和工具,搭建了包括Hadoop、HBase、ZooKeeper、Spark等Hadoop生态圈的实验集群,通过典型的实验案例,学生可以由浅入深、由点到面地逐步学习、掌握大数据基础理论知识,并能结合具体实验熟悉大数据基础技术,培养综合实践能力。
本书内容充实、丰富,覆盖面广,共分为10章。第1章介绍大数据相关定义及概念,包括大数据的历史与发展、大数据的特点和应用场景以及大数据的挑战和机遇等;第2章介绍Apache架构与Apache Hadoop的基本概念、Hadoop的安全性、Hadoop的搭建及相关实验案例;第3章介绍Hadoop分布式文件系统HDFS的概念、原理、常用命令及简单的实验案例;第4章介绍YARN的基本架构,描述YARN的工作流程,详细分析YARN协议及优点;第5章介绍MapReduce的基本知识,详细描述Map框架流程、应用MapReduce所需的环境搭建及相关实验;第6章介绍Hive的相关定义、Hive安装配置过程及典型实验;第7章介绍HBase的基础、数据模型以及访问接口,详细讲解HBase伪分布式和完全分布式的安装与配置;第8章介绍ZooKeeper的发展背景及主要特点,详细说明ZooKeeper的体系结构与关键算法ZAB,同时还介绍ZooKeeper的四字命令及集群搭建操作,并讲解相应的实验案例;第9章介绍Spark的基本概念、组件以及Spark的特性,着重描述Spark的主要架构,并对Spark的计算模型、集群搭建、相关技术及实验进行详细讲解;第10章主要介绍Apache Kafka分布式消息系统相关的消息队列、中间件,详细描述Kafka的结构、Producer和Consumer的消息状态、Kafka的相应消息与日志、Kafka的特性及Kafka的消息发送与接收。本书在多数章章末提供了必要的基础实验,便于读者全面、深入地掌握大数据基础技术的知识点。
本书的编写得到了重庆大学大数据与软件学院领导的关心和支持,邓惠尹、王子梁、张钧洋、王丹、谭杨等参与了本书部分内容的编写工作,在此一并表示感谢。
由于作者水平有限,加之时间仓促,书中难免存在疏漏和不妥之处,恳请同行专家和读者给予批评和指正。对于本书中的实验操作视频,读者可扫描相应章节的二维码直接观看。
本书的配套课件、完整的案例源代码等资源可以从清华大学出版社网站www.tup.com.cn或微信公众号书圈下载,本书及课件等资源的使用中如有问题,请联系404905510@qq.com。
编者2020年8月
|
|