|
內容簡介: |
本书描述了减少数据基础设施成本和开发时间的技巧,适用于软件工程师、数据工程师、开发者和系统管理员。你不仅可以从中获得关于Spark的全面理解,也将学会如何让它运转自如。
在本书中你将发现:
* Spark SQL的新接口如何在SQL的RDD数据结构上改善性能
* Core Spark和Spark SQL之间的数据拼接选择
* 充分发挥标准RDD转换功能的技巧
* 如何处理Spark的键值对范式的相关性能问题
* 编写高性能Spark代码,不使用Scala或JVM
* 如何在应用建议的改进措施时测试功能和性能本书描述了减少数据基础设施成本和开发时间的技巧,适用于软件工程师、数据工程师、开发者和系统管理员。你不仅可以从中获得关于Spark的全面理解,也将学会如何让它运转自如。
在本书中你将发现:
* Spark SQL的新接口如何在SQL的RDD数据结构上改善性能
* Core Spark和Spark SQL之间的数据拼接选择
* 充分发挥标准RDD转换功能的技巧
* 如何处理Spark的键值对范式的相关性能问题
* 编写高性能Spark代码,不使用Scala或JVM
* 如何在应用建议的改进措施时测试功能和性能
* 使用Spark MLlib和Spark ML机器学习库
* Spark的流组件和外部社区软件包
|
|