新書推薦:
《
全球城市案例研究2023:基于网络的合作与竞争国际经验借鉴
》
售價:NT$
908.0
《
引爆:炸药、硝酸盐和现代世界的形成
》
售價:NT$
388.0
《
人类星球:我们如何创造了人类世(企鹅·鹈鹕丛书013)
》
售價:NT$
418.0
《
伏候圣裁:中国古代的君主与政治
》
售價:NT$
449.0
《
艺术图像学研究(第一辑)
》
售價:NT$
857.0
《
摆脱强迫的人生(修订版)
》
售價:NT$
403.0
《
知宋·宋代之司法
》
售價:NT$
454.0
《
空间与政治
》
售價:NT$
398.0
|
內容簡介: |
適用:從事安防監控領域的應用開發和工程施工的技術人員。
名人推薦:
隨著大數據時代的到來,企業資料每天都在急劇快速膨脹,如何發掘這些資料的價值,需要一種高效而穩定的分散式運算框架和模型。Spark恰逢其時,應運而生。本書對Spark進行詳細的闡述,包括核心模組和各個子系統,能讓Spark初學者快速瞭解和上手,是學習Spark的敲門磚,希望此書能讓更多的讀者去深入發掘Spark之美。~~淘寶技術部資料採擷與計算團隊負責人黃明(明風)
ApacheSpark由於其基於記憶體的高性能計算模式以及豐富靈活的程式設計介面,得到廣泛的支援和應用,大有逐漸取代HadoopMapReduce成為新一代大數據計算引擎的趨勢。本書從原始程式碼角度深入淺出地分析了ApacheSpark及相關大數據技術的設計及實現,包含很多實戰經驗和使用心得。相信本書對於進行大數據、記憶體計算及分散式系統研究,ApacheSpark的深入理解以及實際應用,都有很好的參考價值。~~英特爾亞太研發有限公司技術總監段建剛
|
關於作者: |
夏俊鸞
現任阿里巴巴資料平台部高級技術專家,ApacheSpark項目Committer,曾就職於英特爾亞太研發中心,微博帳號@Andrew-Xia。
劉旭暉
現任蘑菇街資料平台資深架構師(花名天火),曾就職於英特爾亞太研發中心大資料軟體部,SparkHadoopHbasePhoenix等眾多大資料相關開源專案的積極貢獻者。
邵賽賽
英特爾亞太研發有限公司開發工程師,專注于大資料領域,現從事Spark相關工作,Spark代碼貢獻者。
程浩
英特爾大資料技術團隊軟體工程師,Shark和SparkSQL活躍開發者,致力於SQLonBigData的性能最佳化。
史鳴飛
英特爾亞太研發有限公司大資料軟體部工程師,專注于大資料領域,現在主要投身於Tachyon項目的開發。
黃潔
目前就職於英特爾亞太研發中心大資料技術中心,擔任高級軟體工程師,是ApacheChukwa專案的PMC成員和Committer。
|
目錄:
|
前言
Chapter01 Spark系統概述
1.1大數據處理架構
1.2Spark大數據處理架構
1.3小結
Chapter02 SparkRDD及程式設計介面
2.1Spark程式"HelloWorld"
2.2SparkRDD
2.3建立操作
2.4轉換操作
2.5控制操作(controloperation)
2.6行動操作(actionoperation)
2.7小結
Chapter03 Spark執行模式及原理
3.1Spark執行模式概述
3.2Local模式
3.3Standalone模式
3.4Localcluster模式
3.5Mesos模式
3.6YARNstandaloneYARNcluster模式
3.7YARNclient模式
3.8各種模式的實現細節比較
3.9Spark1.0版本之後的變化
3.10小結
Chapter04 Spark排程管理原理
4.1Spark作業排程管理概述
4.2Spark排程相關基本概念
4.3作業排程模組頂層邏輯概述
4.4作業排程實際工作流程
4.5工作集管理模組詳解
4.6排程池和排程模式分析
4.7其他排程相關內容
4.8小結
Chapter05 Spark的儲存管理
5.1儲存管理模組整體架構
5.2RDD持久化
5.3Shuffle資料持久化
5.4廣播(Broadcast)變數持久化
5.5小結
Chapter06 Spark監控管理
6.1UI管理
6.2Metrics管理
6.3小結
Chapter07 Shark架構與安裝設定
7.1Shark架構淺析
7.2HiveShark各功能元件比較
7.3Shark安裝設定與使用
7.4SharkSQL命令列工具(CLI)
7.5使用SharkShell指令
7.6啟動SharkServer
7.7SharkServer2設定與啟動
7.8快取資料表
7.9常見問題分析
7.10小結
Chapter08 SQL程式擴充
8.1程式擴充平行執行模式
8.2Evaluator和ObjectInspector
8.3自訂函數擴充
8.4自訂資料存取格式
8.5小結
Chapter09 SparkSQL
9.1SparkSQL邏輯架構
9.2Catalyst上下文(Context)
9.3SQLDSLAPI
9.4JavaAPI
9.5PythonAPI
9.6SparkSQLCLI
9.7Thrift服務
9.8小結
Chapter10 SparkStreaming串流資料處理架構
10.1快速入門
10.2SparkStreaming基本概念
10.3效能最佳化
10.4容錯處理
10.5DStream作業的產生和排程
10.6DStream與RDD關係
10.7資料接收原理
10.8自訂資料登錄源
10.9自訂監控介面(StreamingListener)
10.10SparkStreaming案例分析
10.11小結
Chapter11 GraphX計算架構
11.1圖型平行計算
11.2GraphX模型設計
11.3GraphX模型實現
11.4GraphX應用
11.5小結
Chapter12 Tachyon儲存系統
12.1設計原理
12.2架構設計
12.3Tachyon的部署
12.4Tachyon應用
12.5相關專案討論
12.6小結
|
|