《Hadoop技术原理与案例教程（微课版）》 - 台灣·大書城 - 韩玉民郭丽 - 人民邮电出版社

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　聯絡我們　 \|　運費計算　 \|　幫助中心　\|　加入書簽
		會員登入新用戶註冊

HOME

新書上架

暢銷書架

好書推介

2023年度TOP

香港／國際用戶

最新/最熱/最齊全的簡體書網

品種：超過100萬種書，正品正价，放心網購，悭钱省心

送貨：速遞 / 物流，時效：出貨後2-4日

『簡體書』Hadoop技术原理与案例教程（微课版）

書城自編碼： 4006636
分類：簡體書→大陸圖書→教材→研究生/本科/专科教材
作者：韩玉民郭丽
國際書號(ISBN)： 9787115639691
出版社：人民邮电出版社
出版日期： 2024-06-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：NT$ 407

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《股市趋势技术分析（原书第11版）》
售價：NT$ 1010.0

《汉匈战争全史》
售價：NT$ 454.0

《恶的哲学研究（社会思想丛书）》
售價：NT$ 500.0

《当你沉默时（悬疑推理反PUA 反家暴女性独立小说，揭秘情感PUA的真相，女性自我救赎的文学典范）》
售價：NT$ 255.0

《不止江湖》
售價：NT$ 449.0

《天才留步！——从文艺复兴到新艺术运动（一本关于艺术天才的鲜活故事集，聚焦艺术史的高光时刻！）》
售價：NT$ 704.0

《双城史》
售價：NT$ 505.0

《冯友兰和青年谈心系列：不是问题的问题（哲学大师冯友兰和年轻人谈心，命运解读）》
售價：NT$ 254.0

建議一齊購買：

NT$ 296
《高校美育教师手册》

NT$ 332
《农学概论（第二版）》

NT$ 265
《网络营销：定位、推广与策划（微课版第2版）》

NT$ 541
《能量成型控制在新能源系统中的应用》

NT$ 245
《发酵工程》

NT$ 296
《通识教育（大学预科系列教材）》

編輯推薦：

体系完整：涵盖Hadoop全生态技术原理与工具。
面向问题：问题引入，需求驱动、案例实践。
理论与实践并重：学习路线为“技术基础技术原理案例开发”，每章前有思维导图，后有常见问题与解决方案、本章小结。
资源丰富：提供微课、课件、视频、习题等配套教学资源。

內容簡介：

本书系统地介绍Hadoop技术原理与应用。本书分为4篇，第一篇为分布式存储与计算基础，第二篇为数据仓库Hive，第三篇为非关系型分布式数据库HBase，第四篇为综合案例。本书共14章，包括大数据技术基础、Hadoop简介、Hadoop分布式文件系统、 Hadoop分布式计算系统、Hadoop资源管理器Yarn、Hadoop案例开发、Hive原理与应用、Hive数据定义、Hive数据分析基础、Hive数据分析案例、HBase基础知识、HBase原理与架构、HBase案例开发、综合案例等。
本书原理与实践并重，前3篇每章都有基本案例和课后习题，以及相应的综合应用案例，第四篇是总结性的综合案例，以便读者能够深入理解原理并培养相应的工程实践能力。
本书可作为高等院校大数据、计算机、信息处理等相关专业的大数据课程教材，也可作为大数据等相关技术人员的培训教材。

關於作者：

韩玉民，长期从事计算机教育与软件研发，担任中原工学院软件学院教学副院长十多年，创新教学理念，具有丰富的专业建设、课程与教材建设、教研教改经验。软件工程专业入选国家一流本科专业建设点。主持、参与完成省级以上教研项目多项，获省级以上教学成果奖励四项，一项获2021年度河南省教学成果特等奖，并入选国家级2022年教学成果奖推荐名单。主编、副主编专业教材12部，获得首届河南省教材建设二等奖一项

第一篇分布式存储与计算基础
第1章　大数据基础
1.1　数据、信息和知识　2
1.2　大数据　3
1.2.1　大数据的发展历程　3
1.2.2　大数据的定义　5
1.3　数据分析流程　7
1.3.1　确定数据分析目标　7
1.3.2　数据采集　7
1.3.3　数据预处理　10
1.3.4　数据分析　11
1.4　大数据技术生态体系　13
1.5　大数据应用场景　17
1.5.1　基于大数据的电子商务　18
1.5.2　能源大数据体系建设　18
1.5.3　交通大数据体系建设　19
1.5.4　政务大数据体系建设　20
1.5.5　基于大数据的人口迁徙　21
1.5.6　农业大数据体系建设　21
1.6　本章小结　23
习题　23

第2章　Hadoop简介
2.1　Hadoop概述　25
2.1.1　起源　26
2.1.2　Hadoop发行版本　26
2.1.3　Hadoop架构变迁　27
2.1.4　Hadoop特点　27
2.2　Hadoop“生态圈”　28
2.3　Hadoop核心架构　29
2.3.1　HDFS　29
2.3.2　MapReduce　29
2.3.3　Yarn　30
2.4　Hadoop运行模式　30
2.4.1　本地模式　30
2.4.2　伪分布式模式　30
2.4.3　完全分布式模式　31
2.5　Hadoop集群搭建　31
2.5.1　集群规划　31
2.5.2　基本软件的安装　32
2.5.3　完全分布式集群的搭建　33
2.6　常见问题及解决方案　46
2.7　本章小结　47
习题　47

第3章　Hadoop分布式文件系统
3.1　HDFS概述　50
3.1.1　文件系统　50
3.1.2　传统文件系统　50
3.1.3　HDFS的引入　51
3.1.4　HDFS的设计目标　51
3.1.5　HDFS的使用场景　52
3.1.6　HDFS的局限性　52
3.2　HDFS的技术架构　53
3.2.1　分块存储　53
3.2.2　副本机制　55
3.2.3　NameNode　55
3.2.4　DataNode　56
3.2.5　SecondaryNameNode　57
3.2.6　BackupNode　58
3.2.7　HDFS写入数据流程　58
3.2.8　HDFS读取数据流程　59
3.3　HDFS的Shell操作　60
3.3.1　基本命令　60
3.3.2　上传命令　61
3.3.3　下载命令　61
3.3.4　高级操作　61
3.4　HDFS的API实战开发　62
3.4.1　环境介绍　62
3.4.2　pom.xml配置说明　62
3.4.3　HDFS操作　63
3.5　HDFS核心解密　65
3.5.1　再谈NameNode　65
3.5.2　节点的服役　67
3.5.3　节点的退役　68
3.5.4　DataNode多目录的配置　69
3.6　常见问题及解决方案　69
3.7　本章小结　70
习题　70

第4章　Hadoop分布式计算系统
4.1　MapReduce概述　74
4.2　WordCount入门　74
4.2.1　下载Hadoop配置文件　74
4.2.2　项目配置　75
4.2.3　打包在集群运行　77
4.3　MapReduce编程思想　78
4.3.1　MapReduce原理　79
4.3.2　MapReduce进程　80
4.3.3　MapReduce编程规范　80
4.4　Hadoop序列化　81
4.4.1　序列化与反序列化　81
4.4.2　Hadoop序列化要求　81
4.4.3　Hadoop序列化机制　82
4.5　MapReduce输入　83
4.6　Shuffle过程　87
4.6.1　Shuffle原理　87
4.6.2　分区　88
4.6.3　排序　89
4.6.4　分组　91
4.7　Combiner过程　92
4.8　MapReduce输出　93
4.9　常见问题及解决方案　94
4.10　本章小结　98
习题　98

第5章　Hadoop资源管理器Yarn
5.1　Yarn基本结构　100
5.1.1　ResourceManager　101
5.1.2　ApplicationMaster　101
5.1.3　NodeManager　102
5.1.4　Container　102
5.2　Yarn工作机制　102
5.3　Yarn资源调度器　103
5.3.1　FIFO Scheduler　104
5.3.2　Capacity Scheduler　104
5.3.3　Fair Scheduler　107
5.4　本章小结　107
习题　107

第6章　Hadoop案例开发
6.1　WordCount　109
6.2　最值　112
6.3　全排序　113
6.4　二次排序　115
6.5　MapReduce链　117
6.6　MapReduce数据合并　120
6.6.1　案例描述　120
6.6.2　Reduce JOIN实现　121
6.6.3　Map JOIN实现　124
6.7　本章小结　125
习题　125

第二篇　数据仓库Hive

第7章　Hive原理与应用
7.1　Hive简介　127
7.1.1　数据仓库简介　127
7.1.2　Hive起源　127
7.1.3　Hive的主要特点　128
7.1.4　Hive下载　128
7.1.5　Hive安装包　129
7.2　Hive组件简介　131
7.2.1　Hive元数据管理　131
7.2.2　Metastore　132
7.2.3　HiveServer2　132
7.3　Hive启动方式　133
7.3.1　Hive Metastore部署模式　133
7.3.2　JDBC访问Hive　139
7.4　Hive配置文件详解　142
7.4.1　Hive的核心配置文件　142
7.4.2　Hive运行环境参数配置　145
7.4.3　Hive的本地运行模式　146
7.5　本章小结　147
习题　147

第8章　Hive数据定义
8.1　Hive的数据结构　149
8.1.1　创建数据库与表　149
8.1.2　加载数据到表中　153
8.1.3　查询数据库与表　160
8.1.4　修改数据库与表　162
8.1.5　删除数据库与表　163
8.1.6　导出数据　164
8.2　Hive的数据类型　165
8.2.1　Hive原生数据类型　165
8.2.2　Hive复杂数据类型　169
8.2.3　数据类型转换　174
8.3　Hive的数据模型　175
8.3.1　外部表与内部表的定义与区别　176
8.3.2　分区的概念与作用　182
8.3.3　分桶的概念与作用　193
8.3.4　Hive数据表的序列化与反序列化　197
8.4　本章小结　199
习题　199

第9章　Hive数据分析基础
9.1　基于IntelliJ IDEA实现Hive操作　204
9.1.1　基于IntelliJ IDEA配置Hive　204
9.1.2　Hive服务器连接　204
9.1.3　Console功能区　206
9.2　数据查询　209
9.2.1　基本查询　209
9.2.2　分组查询　214
9.2.3　子查询　218
9.2.4　Hive的JOIN操作　220
9.2.5　Hive的JOIN原理　228
9.3　常用系统函数　231
9.3.1　聚合函数　231
9.3.2　窗口函数　232
9.3.3　表值函数　236
9.3.4　时间日期函数　238
9.3.5　字符串函数　240
9.3.6　数学函数　242
9.3.7　集合函数　243
9.4　自定义函数　244
9.4.1　UDF　245
9.4.2　UDAF　248
9.4.3　UDTF　250
9.5　本章小结　251
习题　251

第10章　Hive数据分析案例
10.1　数据分析流程与数据分析目标的选定　255
10.1.1　数据分析流程　255
10.1.2　数据分析目标的选定　255
10.2　常用数据分析方法　256
10.2.1　描述性数据分析　256
10.2.2　探索性数据分析　258
10.2.3　预测性数据分析　260
10.3　二手车数据集　261
10.3.1　数据集简介　261
10.3.2　数据分析目标　262
10.3.3　数据导入　262
10.4　二手车市场特征和需求探索案例　263
10.4.1　二手车数据描述性分析　263
10.4.2　二手车数据处理与转换　269
10.4.3　二手车数据探索性分析　270
10.4.4　二手车数据异常值与缺失值处理　271
10.5　二手车数据变量关系分析　272
10.5.1　相关系数简介　272
10.5.2　二手车数据相关系数分析　272
10.5.3　特征关系可视化分析　275
10.5.4　结果分析与结论　276
10.6　二手车数据聚类分析　277
10.7　本章小结　278
习题　278

第三篇　非关系数据库HBase

第11章　HBase基础知识
11.1　HBase概述　281
11.1.1　NoSQL的出现　281
11.1.2　HBase的出现　281
11.1.3　HBase的相关学习资源　281
11.2　HBase系统部署　281
11.2.1　版本选择　281
11.2.2　系统准备　282
11.2.3　组件的上传和解压　283
11.2.4　配置环境变量　283
11.2.5　配置ZooKeeper　284
11.2.6　配置HBase　284
11.3　HBase基本Shell操作　286
11.3.1　启动HBase Shell　286
11.3.2　创建和删除表　286
11.3.3　写入数据　287
11.3.4　查询数据　288
11.3.5　删除数据　289
11.3.6　表结构处理　289
11.4　HBase基本API操作　290
11.4.1　Maven工程基本结构　290
11.4.2　创建和删除表　291
11.4.3　写入数据　293
11.4.4　查询数据　294
11.4.5　删除数据　294
11.5　本章小结　295
习题　295

第12章　HBase原理与架构
12.1　HBase数据存储结构　297
12.1.1　大数据时代的MySQL　297
12.1.2　解决问题的思路　299
12.1.3　两类存储思路的对比　300
12.1.4　HBase的数据格式　300
12.2　HBase架构　300
12.2.1　HBase整体架构　301
12.2.2　客户端和HBase的通信过程　302
12.2.3　WAL与HLOG　302
12.2.4　HBase与HDFS　302
12.3　本章小结　303
习题　303

第13章　HBase案例开发
13.1　数据准备　304
13.2　基础统计任务　306
13.2.1　基本查询　306
13.2.2　过滤器　307
13.2.3　基本统计任务　310
13.3　高级统计任务　312
13.3.1　HBase on MapReduce　312
13.3.2　HBase with Hive　317
13.4　本章小结　318
习题　319

第四篇　综合案例

第14章　综合案例：维基百科数据挖掘
14.1　案例介绍　320
14.1.1　常见文本语料格式　320
14.1.2　语料介绍　321
14.2　案例步骤　322
14.2.1　数据的下载与上传　322
14.2.2　创建Hive外接表　325
14.2.3　正文字段预处理　328
14.2.4　文章单词统计　329
14.2.5　文章倒排表　330
14.2.6　正负面分析　332
14.3　本章小结　333
参考文献　334

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	台灣用户　\|　香港/海外用户

megBook.com.tw
Copyright (C) 2013 - 2024 （香港）大書城有限公司　All Rights Reserved.