新書推薦:
《
虚拟资本:金融怎样挪用我们的未来
》
售價:NT$
352.0
《
刻意练习不生气
》
售價:NT$
179.0
《
大宋理财:青苗法与王安石的金融帝国(全彩插图本)
》
售價:NT$
500.0
《
安全感是内心长出的盔甲
》
售價:NT$
305.0
《
快人一步:系统性能提高之道
》
售價:NT$
505.0
《
我们为什么会做梦:让梦不再神秘的新科学
》
售價:NT$
352.0
《
算法图解(第2版)
》
售價:NT$
356.0
《
科学的奇幻之旅
》
售價:NT$
352.0
|
編輯推薦: |
Hadoop是大数据处理的同义词。Hadoop的编程模型简单,“一次编码,任意部署”,且生态圈日益完善,已成为一个可供不同技能水平的程序员共同使用的全方位平台。今天,面临着处理和分析大数据的任务,Hadoop成了理所当然的工具。Hadoop 2.0扩展了羽翼,能覆盖各种类型的应用模式,并解决更大范围的问题。
|
內容簡介: |
这本高阶教程将通过大量示例帮助你精通Hadoop,掌握Hadoop实践和技巧。主要内容包括:Hadoop MapReduce、Pig 和Hive 优化策略,YARN 审读剖析,如何利用Storm,等等。如果你熟悉Hadoop,并想将自己的技能再提高一个层次,本书是你的不二之选。
|
關於作者: |
Sandeep Karanth
Scibler公司联合创始人,负责数据智能产品的架构;DataPhi Labs公司联合创始人兼首席架构师,专注于构建和实施软件系统。他拥有14年以上的软件行业从业经验,既设计过企业数据应用,也开发过新一代移动应用。他曾就职于微软总部和微软印度研究院。他的Twitter账号是@karanths,GitHub账号是https:github.comKaranth。
|
目錄:
|
第1 章 Hadoop 2.X 1
1.1 Hadoop 的起源 1
1.2 Hadoop 的演进 2
1.3 Hadoop 2.X 6
1.3.1 Yet Another Resource Negotiator(YARN) 7
1.3.2 存储层的增强 8
1.3.3 支持增强 11
1.4 Hadoop 的发行版 11
1.4.1 选哪个Hadoop 发行版 12
1.4.2 可用的发行版 14
1.5 小结 16
第2 章 MapReduce 进阶 17
2.1 MapReduce 输入 18
2.1.1 InputFormat 类 18
2.1.2 InputSplit 类 18
2.1.3 RecordReader 类 19
2.1.4 Hadoop 的“小文件”问题 20
2.1.5 输入过滤 24
2.2 Map 任务 27
2.2.1 dfs.blocksize 属性 28
2.2.2 中间输出结果的排序与溢出 28
2.2.3 本地reducer 和Combiner 31
2.2.4 获取中间输出结果——Map 侧 31
2.3 Reduce 任务 32
2.3.1 获取中间输出结果——Reduce 侧 32
2.3.2 中间输出结果的合并与溢出 33
2.4 MapReduce 的输出 34
2.5 MapReduce 作业的计数器 34
2.6 数据连接的处理 36
2.6.1 Reduce 侧的连接 36
2.6.2 Map 侧的连接 42
2.7 小结 45
第3 章 Pig 进阶 47
3.1 Pig 对比SQL 48
3.2 不同的执行模式 48
3.3 Pig 的复合数据类型 49
3.4 编译Pig 脚本 50
3.4.1 逻辑计划 50
3.4.2 物理计划 51
3.4.3 MapReduce 计划 52
3.5 开发和调试助手 52
3.5.1 DESCRIBE 命令 52
3.5.2 EXPLAIN 命令 53
3.5.3 ILLUSTRATE 命令 53
3.6 Pig 操作符的高级特性 54
3.6.1 FOREACH 操作符进阶 54
|
|