《Spark数据分析：基于Python语言》 - 台灣·大書城 - [澳]杰夫瑞·艾文[Jeffrey，Aven] - 机械工业出版社

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　聯絡我們　 \|　運費計算　 \|　幫助中心　\|　加入書簽
		會員登入新用戶註冊

HOME

新書上架

暢銷書架

好書推介

2023年度TOP

香港／國際用戶

最新/最熱/最齊全的簡體書網

品種：超過100萬種書，正品正价，放心網購，悭钱省心

送貨：速遞 / 物流，時效：出貨後2-4日

『簡體書』Spark数据分析：基于Python语言

書城自編碼： 3341376
分類：簡體書→大陸圖書→教材→研究生/本科/专科教材
作者： [澳]杰夫瑞·艾文[Jeffrey，Aven]
國際書號(ISBN)： 9787111622727
出版社：机械工业出版社
出版日期： 2019-04-01

書度/開本： 16开

售價：NT$ 435

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《篡魏：司马懿和他的夺权同盟》
售價：NT$ 296.0

《狂飙年代：18世纪俄国的新文化和旧文化（第三卷）》
售價：NT$ 806.0

《协和专家大医说：医话肿瘤》
售價：NT$ 500.0

《潜水指南全彩图解第4版》
售價：NT$ 602.0

《超大规模集成电路设计——从工具到实例》
售價：NT$ 403.0

《村上春树·旅（一本充满村上元素的旅行指南，带你寻访电影《挪威的森林》拍摄地，全彩印刷；200余幅摄影作品）》
售價：NT$ 301.0

《智能驾驶硬件在环仿真测试与实践》
售價：NT$ 709.0

《都铎王朝时期英格兰海事法庭研究》
售價：NT$ 398.0

建議一齊購買：

NT$ 498
《 Spark数据分析：基于Python语言（英文版）》

NT$ 449
《 Spark机器学习：核心技术与实践》

NT$ 353
《 PySpark实战指南：利用Python和Spark构建数据密集型应用并规模化部署》

NT$ 767
《数据挖掘：商业数据分析技术与实践》

NT$ 1210
《深度学习》

NT$ 514
《跟老齐学Python：数据分析》

內容簡介：

本书重点关注Spark项目的基本知识，从Spark核心开始，然后拓展到各种Spark扩展、Spark相关项目、Spark子项目，以及Spark所处的丰富的生态系统里各种别的开源技术，比如Hadoop、Kafka、Cassandra等。

译者序
前言
引言
第一部分　Spark基础
第1章　大数据、Hadoop、Spark介绍2
1.1　大数据、分布式计算、Hadoop简介2
1.1.1　大数据与Hadoop简史2
1.1.2　Hadoop简介3
1.2　Spark简介8
1.2.1　Spark背景9
1.2.2　Spark的用途9
1.2.3　Spark编程接口9
1.2.4　Spark程序的提交类型10
1.2.5　Spark应用程序的输入输出类型11
1.2.6　Spark中的RDD11
1.2.7　Spark与Hadoop11
1.3　Python函数式编程12
1.3.1　Python函数式编程中的数据结构12
1.3.2　Python对象序列化15
1.3.3　Python函数式编程基础17
1.4　本章小结19
第2章　部署Spark20
2.1　Spark部署模式20
2.1.1　本地模式21
2.1.2　Spark独立集群21
2.1.3　基于YARN运行Spark22
2.1.4　基于Mesos运行Spark22
2.2　准备安装Spark23
2.3　获取Spark23
2.4　在Linux或Mac OS X上安装Spark25
2.5　在Windows上安装Spark26
2.6　探索Spark安装目录28
2.7　部署多节点的Spark独立集群29
2.8　在云上部署Spark30
2.8.1　AWS30
2.8.2　GCP32
2.8.3　Databricks32
2.9　本章小结34
第3章　理解Spark集群架构35
3.1　Spark应用中的术语35
3.1.1　Spark驱动器36
3.1.2　Spark工作节点与执行器38
3.1.3　Spark主进程与集群管理器40
3.2　使用独立集群的Spark应用41
3.3　在YARN上运行Spark应用42
3.3.1　ResourceManager作为集群管理器42
3.3.2　ApplicationMaster作为Spark主进程42
3.4　在YARN上运行Spark应用的部署模式42
3.4.1　客户端模式42
3.4.2　集群模式43
3.4.3　回顾本地模式45
3.5　本章小结45
第4章　Spark编程基础46
4.1　RDD简介46
4.2　加载数据到RDD48
4.2.1　从文件创建RDD48
4.2.2　从文本文件创建RDD49
4.2.3　从对象文件创建RDD52
4.2.4　从数据源创建RDD52
4.2.5　从JSON文件创建RDD54
4.2.6　通过编程创建RDD56
4.3　RDD操作57
4.3.1　RDD核心概念57
4.3.2　基本的RDD转化操作61
4.3.3　基本的RDD行动操作65
4.3.4　键值对RDD的转化操作69
4.3.5　MapReduce与单词计数练习75
4.3.6　连接操作78
4.3.7　在Spark中连接数据集82
4.3.8　集合操作85
4.3.9　数值型RDD的操作87
4.4　本章小结89
第二部分　基础拓展
第5章　Spark核心API高级编程92
5.1　Spark中的共享变量92
5.1.1　广播变量92
5.1.2　累加器96
5.1.3　练习：使用广播变量和累加器99
5.2　Spark中的数据分区100
5.2.1　分区概述100
5.2.2　掌控分区101
5.2.3　重分区函数102
5.2.4　针对分区的API方法104
5.3　RDD的存储选项106
5.3.1　回顾RDD谱系106
5.3.2　RDD存储选项107
5.3.3　RDD缓存109
5.3.4　持久化RDD109
5.3.5　选择何时持久化或缓存RDD112
5.3.6　保存RDD检查点112
5.3.7　练习：保存RDD检查点114
5.4　使用外部程序处理RDD115
5.5　使用Spark进行数据采样117
5.6　理解Spark应用与集群配置118
5.6.1　Spark环境变量118
5.6.2　Spark配置属性121
5.7　Spark优化124
5.7.1　早过滤，勤过滤124
5.7.2　优化满足结合律的操作124
5.7.3　理解函数和闭包的影响126
5.7.4　收集数据的注意事项127
5.7.5　使用配置参数调节和优化应用127
5.7.6　避免低效的分区128
5.7.7　应用性能问题诊断130
5.8　本章小结133
第6章　使用Spark进行SQL与NoSQL编程134
6.1　Spark SQL简介134
6.1.1　Hive简介134
6.1.2　Spark SQL架构138
6.1.3　DataFrame入门141
6.1.4　使用DataFrame150
6.1.5　DataFrame缓存、持久化与重新分区157
6.1.6　保存DataFrame输出158
6.1.7　访问Spark SQL161
6.1.8　练习：使用Spark SQL163
6.2　在Spark中使用NoSQL系统165
6.2.1　NoSQL简介165
6.2.2　在Spark中使用HBase166
6.2.3　练习：在Spark中使用HBase169
6.2.4　在Spark中使用Cassandra170
6.2.5　在Spark中使用DynamoDB172
6.2.6　其他NoSQL平台174
6.3　本章小结174
第7章　使用Spark处理流数据与消息175
7.1　Spark Streaming简介175
7.1.1　Spark Streaming架构176
7.1.2　DStream简介177
7.1.3　练习：Spark Streaming入门183
7.1.4　状态操作184
7.1.5　滑动窗口操作185
7.2　结构化流处理188
7.2.1　结构化流处理数据源188
7.2.2　结构化流处理的数据输出池189
7.2.3　输出模式190
7.2.4　结构化流处理操作190
7.3　在Spark中使用消息系统192
7.3.1　Apache Kafka192
7.3.2　KafkaUtils195
7.3.3　练习：在Spark中使用Kafka196
7.3.4　亚马逊Kinesis199
7.4　本章小结203
第8章　Spark数据科学与机器学习简介204
8.1　Spark与R语言204
8.1.1　R语言简介204
8.1.2　通过R语言使用Spark210
8.1.3　练习：在RStudio中使用SparkR215
8.

內容試閱：

Spark在这场由大数据与开源软件掀起的颠覆性革命中处于核心位置。不论是尝试Spark的意向还是实际用例的数量都在以几何级数增长，而且毫无衰退的迹象。本书将手把手引导你在大数据分析领域中收获事业上的成功。
本书重点
本书重点关注Spark项目的基本知识，从Spark核心技术开始，然后拓展到各种Spark扩展技术、Spark相关项目及子项目，以及Spark所处的丰富的生态系统里各种别的开源技术，比如Hadoop、Kafka、Cassandra等。
本书所介绍的Spark基本概念（包括运行环境、集群架构、应用架构等）与编程语言无关且非常基础，而大多数示例程序和练习是用Python实现的。Spark的Python API（PySpark）为数据分析师、数据工程师、数据科学家等提供了易用的编程环境，让开发者能在获得Python语言的灵活性和可扩展性的同时，获得Spark的分布式处理能力和伸缩性。
本书所涉及的范围非常广泛，涵盖了从基本的Spark核心编程到Spark SQL、Spark Streaming、机器学习等方方面面的内容。本书对于每个主题都给出了良好的介绍和概览，足以让你以Spark项目为基础构建出针对任何特定领域或学科的平台。
目标读者
本书是为有志进入大数据领域或已经入门想要进一步巩固大数据领域知识的数据分析师和工程师而写的。当前市场非常需要具备大数据技能、懂得大数据领域优秀处理框架Spark的工程师。本书的目标是针对这一不断增长的市场需求培训读者，使得读者获得雇主急需的技能。
对于阅读本书来说，有Python使用经验是有帮助的，没有的话也没关系，毕竟Python对于任何有编程经验的人来说都非常直观易懂。读者最好对数据分析和数据处理有一定了解。这本书尤其适合有兴趣进入大数据领域的数据仓库技术人员阅读。
如何使用本书
本书分为两大部分共8章。第一部分“Spark基础”包括4章，会使读者深刻理解Spark是什么，如何部署Spark，如何使用Spark进行基本的数据处理操作。
第1章概要介绍大数据生态圈，包括Spark项目的起源和演进过程。讨论Spark项目的关键属性，包括Spark是什么，用起来如何，以及Spark与Hadoop项目之间的关系。
第2章展示如何部署一个Spark集群，包括Spark集群的各种部署模式，以及调用Spark的各种方法。
第3章讨论Spark集群和应用是如何运作的，让读者深刻理解Spark是如何工作的。
第4章介绍使用弹性分布式数据集（RDD）进行Spark初级编程的基础知识。
第二部分“基础拓展”包括后4章的内容，扩展到Spark的core模块以外，包括SQL和NoSQL系统、流处理应用、数据科学与机器学习中Spark的使用。
第5章讲解用来扩展、加速和优化常规Spark例程的高级元件，包括各种共享变量和RDD存储，以及分区的概念及其实现。
第6章讨论Spark与SQL的整合，还有Spark与非关系型数据库的整合。
第7章介绍Spark的Streaming子项目，以及Streaming中最基本的DStream对象。该章还涵盖Spark对于Apache Kafka这样的常用消息系统的使用。
第8章介绍通过R语言使用Spark建立预测模型，以及Spark中用来实现机器学习的子项目MLlib。
本书代码
本书中各个练习的示例数据和源代码可以从http：sparkusingpython.com下载。也可以从https：github.comsparktrainingspark_using_python查看或者下载。

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	台灣用户　\|　香港/海外用户

megBook.com.tw
Copyright (C) 2013 - 2024 （香港）大書城有限公司　All Rights Reserved.