新書推薦:
《
耕读史
》
售價:NT$
500.0
《
地理计算与R语言
》
售價:NT$
551.0
《
沈括的知识世界:一种闻见主义的实践(中华学术译丛)
》
售價:NT$
398.0
《
大思维:哥伦比亚商学院六步创新思维模型
》
售價:NT$
332.0
《
宏观经济学(第三版)【2024诺贝尔经济学奖获奖者作品】
》
售價:NT$
709.0
《
UE5虚幻引擎必修课(视频教学版)
》
售價:NT$
505.0
《
真需求
》
售價:NT$
505.0
《
阿勒泰的春天
》
售價:NT$
230.0
|
編輯推薦: |
本书采用模块化的编写思路,通过25个任务,介绍Hive的相关技术。每个任务分为任务目标、知识学习、任务实施、同步训练4个环节。
|
內容簡介: |
本书是大数据技术与应用专业校企合作系列教材之一,采用模块化的编写思路,内容包括Hive概述、环境准备、Hadoop搭建和配置、安装Hive的基础操作、HiveQL的数据定义、HiveQL语句、Hive综合应用7个单元和25个教学任务。每个单元通过学习目标引出单元的教学核心内容,明确教学任务。每个任务的编写分为任务目标、知识学习、任务实施、同步训练4个环节。*后通过单元小结回顾每个单元的学习重点。本书适合作为高职院校软件技术、大数据技术及应用专业,以及计算机类相关专业的教材,也可以作为Hive爱好者的参考用书。
|
關於作者: |
朱晓彦,安徽工业经济职业技术学院;方明清,珠海城市职业技术学院;李强,珠海城市职业技术学院
|
目錄:
|
单元1 Hive概述1
任务1.1 Hive的产生背景1
1 Hive的产生背景2
2 Hive的发展历史和现状4
3 Hive与Hadoop4
任务1.2 Hive的概念9
1 Hive的系统与部署架构9
2 Hive与RDBM对比12
3数据仓库的理解12
4 Hive的数据模型15
5 HiveQL与数据存储16
任务1.3 Hadoop生态与Hive20
1 Pig20
2 HBase21
单元小结25
单元2 环境准备26
任务2.1 VMware与SecureCRT Portable26
1 VMware简介26
2 VMware的虚拟化27
任务2.2 JDK的配置37
1 JDK的简介37
2 JDK的版本37
3上传JDK的介质37
4 tar的解压与压缩37
任务2.3 免密登录41
1 免密登录用户41
2免密登录的优点42
单元小结46
单元3 Hadoop搭建和配置47
任务3.1 Hadoop搭建47
1上传Hadoop的介质47
2解压Hadoop压缩包48
3配置Hadoop的环境变量48
4配置Hadoop环境变量48
5修改Hadoop的配置文件49
6启动Hadoop服务51
7检查Hadoop的成功52
任务3.2 Hadoop配置57
1 Hadoop简介57
2 MapReduce综述61
单元小结70
单元4 安装Hive的基础操作71
任务4.1 Hive的模式71
1本地模式72
2远程模式72
3内嵌模式73
任务4.2 安装Hive实验88
1 Hive简介88
2 Hive的定义88
3设计特征88
4数据存储89
任务4.3 Hive命令95
1创建表语句95
2加载数据96
3改变表98
4替换101
5删除表102
6分区103
任务4.4 Hive命令行界面107
1 CLI选项107
2变量和属性111
3在Hive内使用Hadoop的DFS命令112
任务4.5 数据类型和文件格式114
1基本数据类型114
2文件格式116
3压缩编码119
4集合数据类型121
任务4.6 Hive权限管理125
1开启权限126
2权限操作128
任务4.7 Hive常用优化方法137
1控制Reducer数量137
2使用Map Join138
3使用distinct union all 代替union139
4解决数据倾斜的通用方法140
单元小结141
单元5 HiveQL的数据定义143
任务5.1 HiveQL的数据定义143
1 HiveQL的数据定义143
2 HiveQL和SQL的区别146
任务5.2 Hive数据库150
1 Hive的数据库150
2修改数据库属性151
任务5.3 修改表157
1增加、修改和删除表分区157
2表重命名157
3增加列157
4删除或者替换列157
5修改表属性158
6修改存储属性158
7修改表语句158
单元小结162
单元6 HiveQL语句163
任务6.1 SELECT、FROM语句的概念163
1使用正则表达式来指定列163
2使用列值进行计算165
3算术运算符165
4使用函数168
5 LIMIT语句169
6列的别名169
7 CASE、WHEN、THEN句式169
8嵌套SELECT语句172
任务6.2 GROUP BY178
任务6.3 抽样查询180
1数据块抽样180
2分桶表的输入裁剪180
任务6.4 WHERE语句181
1谓语操作符182
2浮点数比较183
任务6.5 JOIN语句184
1 JOIN优化185
2 LEFT OUTER JOIN186
3 INNER JOIN187
4 FULL OUTER JOIN189
5 LEFT SEMIJOIN189
6 RIGHT OUTER JOIN190
7 OUTER JOIN190
8笛卡儿积JOIN191
9 mapsidejoin192
单元小结194
单元7 Hive综合应用195
任务7.1 Hive和亚马逊网络服务系统AWS195
1弹性MapReduce的优点196
2注意事项196
3 EMR上的实例196
任务7.2 Hive综合案例199
1 Hive操作演示199
2交易数据演示207
单元小结227
参考文献228
|
內容試閱:
|
Hive基于Hadoop环境进行存储,Hadoop目前只能依托于Linux系统进行搭建。因为编译Hive时会调用Shell,Windows本身不支持Shell的调用;Hive还需要JDK和MySQL数据库的支持,Hive是基于Hadoop的一个数据仓库工具,它不提供数据存储功能也不进行分布式计算框架和资源调度系统。Hive使用HDFS做数据存储,并且将SQL语句翻译成MapReduce程序来调用;Hive本身不进行资源调度系统,而是通过YARN集群进行的,将数据的结构化映射成一张数据库表和Hive SQL的查询功能。
Hive中需要数据库的支持,本书对数据库中的增、减、删、改基本命令进行详细介绍,包括表的调用、整改、权限管理、正则表达式、GROUP BY、字符串及一些简单的命令符号。在讲述Hive的同时还对JDK环境变量、Hadoop环境、HBase搭建、MySQL数据库进行简单描述。
本书采用模块化的编写思路,内容包括Hive概述、环境准备、Hadoop搭建与配置、安装Hive的基础操作、HiveQL的数据定义、HiveQL语句、Hive与企业接轨这7个方面,共计25个教学任务。每个单元通过学习目标引出单元的教学核心内容,明确教学任务。每个任务的编写分为任务目标、知识学习、任务实施、同步训练4个环节。
● 任务目标:简述本任务将要达到的效果,提高学生学习兴趣。
● 知识学习:详细讲解知识点,通过系列实例实践,边学边做。
● 任务实施:通过任务综合应用所学知识,提高学生系统运用知识的能力。
● 同步训练:在任务实施的基础上通过学仿做达到理论与实践的统一、知识内化的教学目的。
最后通过单元小结,总结本单元的教学重点与难点。
本教材建议授课49学时,教学单元与学时安排如下表所示。
教学单元与学时安排
序号 单元名称 学时安排
1 单元1Hive概述 3
2 单元2环境准备 6
3 单元3Hadoop搭建和配置 4
4 单元4安装Hive的基础操作 14
5 单元5HiveQL的数据定义 6
6 单元6HiveQL语句 10
7 单元7Hive综合应用 6
学时总计 49
本书是大数据技术与应用专业校企合作系列教材,开发了丰富的数字化教学资源,可使用的教学资源如下表所示。
课程教学资源一览表
序号 资源名称 表现形式与内涵
1 课程简介 Word文档,包括对课程内容简单介绍和对课时、适用对象等项目的介绍,让学生对Hive有简单的认识
2 课程标准 Word文档,包括课程定位、课程目标要求以及课程内容与要求,可供教师备课时使用
3 授课视频 MP4视频文件,可帮助教师教好Hive这门课
4 微课 MP4视频文件,帮助学习,理解学习内容
5 电子课件 PPT文件,也可根据教师实际需要加以修改后使用
6 案例 Tar包,包括单元项目案例和综合案例,综合运用所学的知识
7 习题库、试卷库 Word文档,习题包括理论习题和操作习题,试卷包括单元测试和课程测试。通过练习和测试,加深学生对知识的掌握程度
8 附书源码 Tar包,包括本书中所有例题和任务的源代码
本书配套的资源包、运行脚本、教学课件等,可登录http:www.1daoyun.com下载。相关软件的安装文件、配置文件的源代码文件、相关程序的源代码文件及课件也可以从http:www.tdpress.com51eds网址下载。
本书由朱晓彦、方明清、李强任主编,王庆宇、周连兵、李自臣任副主编,并联合江苏一道云科技发展有限公司共同编写而成。由于编者水平有限,不足之处在所难免,恳请各位读者给予批评、指正,编者将不胜感激。
编者
2020年6月
|
|