新書推薦:
《
我从何来:自我的心理学探问
》
售價:NT$
545.0
《
失败:1891—1900 清王朝的变革、战争与排外
》
售價:NT$
390.0
《
送你一匹马(“我不求深刻,只求简单。”看三毛如何拒绝内耗,为自己而活)
》
售價:NT$
295.0
《
秦汉史讲义
》
售價:NT$
690.0
《
万千心理·我的精神分析之道:复杂的俄狄浦斯及其他议题
》
售價:NT$
475.0
《
荷马:伊利亚特(英文)-西方人文经典影印21
》
售價:NT$
490.0
《
我的心理医生是只猫
》
售價:NT$
225.0
《
股权控制战略:如何实现公司控制和有效激励(第2版)
》
售價:NT$
449.0
|
內容簡介: |
全书分为10章。第1章介绍Spark学习环境的搭建。第2章介绍Spark的基本知识和架构。第3章介绍Spark内核底层的基础设施。第4章介绍SparkContext的初始化。第5章介绍Spark执行环境SparkEnv。第6章介绍Spark自身的存储体系。本章不同于其他书籍将存储的各个组件视为不同内容,而是将存储体系的内容凝聚起来。第7章介绍Spark的调度系统。第8章介绍Spark的计算引擎。第9章介绍Spark的部署模式。第10章介绍Spark的API。Spark从表面上看与之前版本大的不同是API,所以本章拿个别API的实现作为例子,分析其源码实现,让读者理解新老API之间的异同。
|
關於作者: |
耿嘉安,艺龙大数据平台架构师,前阿里巴巴高级开发工程师,11年开发经验,对Spark有深入研究,精通大数据业务、Java架构设计,擅长J2EE,有9年Java相关开发经验,关注Spark、Storm、ODPS。
|
目錄:
|
目录Contents
本书赞誉
前言
第1章 环境准备 1
1.1 运行环境准备 2
1.1.1 安装JDK 2
1.1.2 安装Scala 2
1.1.3 安装Spark 3
1.2 Spark初体验 4
1.2.1 运行spark-shell 4
1.2.2 执行word count 5
1.2.3 剖析spark-shell 9
1.3 阅读环境准备 14
1.3.1 安装SBT 15
1.3.2 安装Git 15
1.3.3 安装Eclipse Scala IDE插件 15
1.4 Spark源码编译与调试 17
1.5 小结 23
第2章 设计理念与基本架构 24
2.1 初识Spark 25
2.1.1 Hadoop MRv1的局限25
2.1.2 Spark的特点 26
2.1.3 Spark使用场景 28
2.2 Spark基础知识 29
2.3 Spark基本设计思想 31
2.3.1 Spark模块设计 32
2.3.2 Spark模型设计 34
2.4 Spark基本架构 36
2.5 小结 38
第3章 Spark基础设施 39
3.1 Spark配置 40
3.1.1 系统属性中的配置 40
3.1.2 使用SparkConf配置的API 41
3.1.3 克隆SparkConf配置 42
3.2 Spark内置RPC框架 42
3.2.1 RPC配置TransportConf 45
3.2.2 RPC客户端工厂Transport- ClientFactory 47
3.2.3 RPC服务端TransportServer 53
3.2.4 管道初始化 56
3.2.5 TransportChannelHandler详解 57
3.2.6 服务端RpcHandler详解 63
3.2.7 服务端引导程序Transport-ServerBootstrap 68
3.2.8 客户端TransportClient详解 71
3.3 事件总线 78
3.3.1 ListenerBus的继承体系 79
3.3.2 SparkListenerBus详解 80
3.3.3 LiveListenerBus详解 83
3.4 度量系统 87
3.4.1 Source继承体系 87
3.4.2 Sink继承体系 89
3.5 小结 92
第4章 SparkContext的初始化 93
4.1 SparkContext概述 94
4.2 创建Spark环境 97
4.3 SparkUI的实现 100
4.3.1 SparkUI概述 100
4.3.2 WebUI框架体系 102
4.3.3 创建SparkUI 107
4.4 创建心跳接收器 111
4.5 创建和启动调度系统112
4.6 初始化块管理器BlockManager 114
4.7 启动度量系统 114
4.8 创建事件日志监听器115
4.9 创建和启动ExecutorAllocation-Manager 116
4.10 ContextCleaner的创建与启动 120
4.10.1 创建ContextCleaner 120
4.10.2 启动ContextCleaner 120
4.11 额外的SparkListener与启动事件总线 122
4.12 Spark环境更新 123
4.13 SparkContext初始化的收尾 127
4.14 SparkContext提供的常用方法 128
4.15 SparkContext的伴生对象130
4.16 小结 131
第5章 Spark执行环境 132
5.1 SparkEnv概述 133
5.2 安全管理器SecurityManager 133
5.3 RPC环境 135
5.3.1 RPC端点RpcEndpoint 136
5.3.2 RPC端点引用RpcEndpointRef 139
5.3.3 创建传输上下文TransportConf 142
5.3.4 消息调度器Dispatcher 142
5.3.5 创建传输上下文Transport-Context 154
5.3.6 创建传输客户端工厂Transport-ClientFactory 159
5.3.7 创建TransportServer 160
5.3.8 客户端请求发送 162
5.3.9 NettyRpcEnv中的常用方法 173
5.4 序列化管理器SerializerManager 175
5.5 广播管理器BroadcastManager 178
5.6 map任务输出跟踪器 185
5.6.1 MapOutputTracker的实现 187
5.6.2 MapOutputTrackerMaster的实现原理 191
5.7 构建存储体系 199
5.8 创建度量系统 201
5.8.1 MetricsCon?g详解 203
5.8.2 MetricsSystem中的常用方法 207
5.8.3 启动MetricsSystem 209
5.9 输出提交协调器 211
5.9.1 OutputCommitCoordinator-Endpoint的实现 211
5.9.2 OutputCommitCoordinator的实现 212
5.9.3 OutputCommitCoordinator的工作原理 216
5.10 创建SparkEnv 217
5.11 小结 217
第6章 存储体系 219
6.1 存储体系概述 220
6.1.1 存储体系架构 220
6.1.2 基本概念 222
6.2 Block信息管理器 227
6.2.1 Block锁的基本概念 227
6.2.2 Block锁的实现 229
6.3 磁盘Block管理器 234
6.3.1 本地目录结构 234
6.3.2 DiskBlockManager提供的方法 236
6.4 磁盘存储DiskStore 239
6.5 内存管理器 242
6.5.1 内存池模型 243
6.5.2 StorageMemoryPool详解 244
6.5.3 MemoryManager模型 247
6.5.4 Uni?edMemoryManager详解 250
6.6 内存存储MemoryStore 252
6.6.1 MemoryStore的内存模型 253
6.6.2 MemoryStore提供的方法 255
6.7 块管理器BlockManager 265
6.7.1 BlockManager的初始化 265
6.7.2 BlockManager提供的方法 266
6.8 BlockManagerMaster对Block-Manager的管理 285
6.8.1 BlockManagerMaster的职责 285
6.8.2 BlockManagerMasterEndpoint详解 286
6.8.3 BlockManagerSlaveEndpoint详解 289
6.9 Block传输服务 290
6.9.1 初始化NettyBlockTransfer-Service 291
6.9.2 NettyBlockRpcServer详解 292
6.9.3 Shuf?e客户端 296
6.10 DiskBlockObjectWriter详解 305
6.11 小结 308
第7章 调度系统 309
7.1 调度系统概述 310
7.2 RDD详解 312
7.2.1 为什么需要RDD 312
7.2.2 RDD
|
內容試閱:
|
Preface前 言为什么写这本书给本书写前言时,让我想起了两年前给《深入理解Spark:核心思想与源码分析》一书写前言的经历。我不禁想起崔护的《题都城南庄》这首诗,诗的内容是:
去年今日此门中,人面桃花相映红。
人面不知何处去,桃花依旧笑春风。
从核心思想和架构来看,Spark依然是那个Spark,但是我已经找了一个新的“东家”。我的年龄不知不觉中又长了两岁,Spark也在大数据领域从“新贵”变成了“老人”。Spark的版本从0.x.x到2.x.x基本上也是用了两年时间。
自从《深入理解Spark:核心思想与源码分析》一书出版后,引起了一些市场反响,更难得的是得到了很多读者的反馈。一些热心的读者通过微信或者邮件向我指出了书中内容的很多不足之处,包括错别字、错误的描述、代码分析有点像流水账、提纲挈领的内容偏少、代码版本过低等。一些错误在修订的版本中得到了解决,有些修正的内容则通过单独写博客来补充。在与读者的沟通过程中,也纠正了我对一些问题的理解偏差。再次深深地感谢广大读者的支持与帮助!
一些读者对《深入理解Spark:核心思想与源码分析》一书的内容非常肯定,希望能够出第2版,高婧雅编辑也一再“怂恿”我,但是我一直没有写第2版的打算。我当时希望有人能够以更好的方式写一本介绍和分析Spark 2.0版本的源码分析书籍,因为我感觉之前的写作方式的确不是很好。在我心中一直有个矛盾:如果源码太少,源码分析的书籍将退化成单纯讲原理的书籍,对于想深入理解Spark实现的读者来说这是不够的;如果源码太多,又让人有堆砌代码或者“混”篇幅的感觉。很多源码分析的书只是简单说说接口或者方法的功能,让人始终有种“雾里看花”的感觉。所以我一直很期待能有更好的方式来写作源码分析类的书。
在一年多的等待中,我始终没有发现类似书籍的出现,于是我打算再做一次尝试。这次摈弃了《深入理解Spark:核心思想与源码分析》一书中按照代码执行流程分析的方式,改为先从整体上介绍一个系统,然后逐个分析每个组件的功能,最后将这些组件之间的关系用流程图的方式串联起来。本书的写作方式依然犯有代码过多的“毛病”,但我还是期待本书能带来一些新的气象。
本书的主要特色按照源码分析的习惯设计,从脚本分析到初始化,再到核心内容。整个过程遵循由浅入深的基本思路。
每一章先对本章的内容有个总体介绍,然后深入分析各个组件的实现原理,最后将各个组件之间的关系通过执行流程来展现。
本书尽可能地用图来展示原理,以加速读者对内容的掌握。
本书讲解的很多实现及原理都值得借鉴,可以帮助读者提升架构设计、程序设计等方面的能力。
本书尽可能保留较多的源码,以便于初学者能够在脱离办公环境的地方(如地铁、公交等),也能轻松阅读。
读者对象源码阅读是一项苦差事,人力和时间成本都很高,尤其对于刚刚接触Spark的人来说更是如此。本书尽可能保留源码,使得分析过程不至于产生跳跃感,目的是降低大多数人的学习门槛。如果你是从事IT工作1~3年的新人或者希望开始学习Spark的核心知识,本书非常适合你。如果你已经对Spark有所了解或者已经使用它,还想进一步提高自己,那么本书更适合你。如果你是一个开发新手,对Java、Linux等基础知识还不是很了解的话,本书可能不太适合你。如果你已经对Spark有深入的研究,本书也许可以作为你的参考资料。
总体来说,本书适合以下人群:
已经了解过Spark,但还想深入理解Spark实现原理的人;大数据技术爱好者;对性能优化和部署方案感兴趣的运维工程师与架构师;开源代码爱好者,喜欢研究源码的同学可以通过本书学到一些阅读源码的方式、方法。
本书不会教你如何开发Spark应用程序,而只拿word count的经典例子做演示。本书会简单介绍Hadoop MapReduce、Hadoop YARN、Mesos、Alluxio(Tachyon)、ZooKeeper、HDFS、Akka、Jetty、Netty,但不会过多介绍这些框架的使用,因为市场上已经有丰富的书籍供读者挑选。本书也不会过多介绍Scala、Java、Shell的语法,读者可以在市场上选择适合自己的书籍阅读。本书将无比适合那些想要破解“潘多拉魔盒”的人!
如何阅读本书本书一共有10章内容,主要包括以下部分。
准备部分(第1~2章):简单介绍了Spark的环境搭建和基本原理,帮助读者了解一些背景知识。
基础部分(第3~5章):介绍Spark的基础设施、SparkContext的初始化、Spark执行环境等内容。
核心部分(第6~9章):这是Spark最为核心的部分,包括存储体系、调度系统、计算引擎、部署模式等。
API部分(第10章):这部分主要对Spark的新旧API进行对比,对新API进行介绍。
本书最后的附录中还包括一些内容:附录A介绍的是Spark中最常用的工具类Utils;附录B是Akka的简介;附录C为Jetty的简介和工具类JettyUtils的介绍;附录D为Metrics库的简介和Metrics中部分API的介绍;附录E演示了Hadoop 1.0版本中的word count例子;附录F
|
|