|
內容簡介: |
尽管不需要一个巨大的计算基础设施来运用Apache Hadoop处理大规模数据,但是要开始启动项目仍然是十分困难的。这本实践指南展示了如何在云中使用亚马逊弹性MapReduce(EMR)来快速启动数据分析项目,EMR是亚马逊Web服务(AWS)提供的Hadoop框架。
作者Kevin Schmidt和Christopher Phillips通过一个样本MapReduce日志分析应用程序的开发全过程,向读者展示了使用EMR、多种AWS和Apache技术的最佳实践。通过使用代码样本和示例配置,本书介绍了如何装配解决大数据分析问题所必要的基础材料。
获取用于大规模数据分析的AWS和Apache软件工具的概览。
使用一个简单的日志分析器来贯穿执行Job Flow处理的全过程。
发现用于过滤和分析数据集的有用的MapReduce模式。
使用Apache Hive 和Pig代替Java程序来构建MapReduce的Job Flow。
学习使用亚马逊EMR来运行机器算法的基础知识。
开发使用亚马逊EMR和其他AWS工具的项目开销模型。
|
關於作者: |
Kevin J.Schmidt是Dell SecureWorks有限公司的一名资深管理员。他负责公司SIEM平台主要部分的设计与开发。
Christopher Phillips是Dell SecureWorks有限公司的一名资深软件开发者。他负责公司的威胁智能服务平台的设计与开发。
|
|