新書推薦:
《
怪谈百物语:不能开的门(“日本文学史上的奇迹”宫部美雪重要代表作!日本妖怪物语集大成之作,系列累销突破200万册!)
》
售價:NT$
296.0
《
罗马政治观念中的自由
》
售價:NT$
230.0
《
中国王朝内争实录:宠位厮杀
》
售價:NT$
281.0
《
凡事发生皆有利于我(这是一本读了之后会让人运气变好的书”治愈无数读者的心理自助经典)
》
售價:NT$
203.0
《
未来特工局
》
售價:NT$
254.0
《
高术莫用(十周年纪念版 逝去的武林续篇 薛颠传世之作 武学尊师李仲轩家世 凸显京津地区一支世家的百年沉浮)
》
售價:NT$
250.0
《
英国简史(刘金源教授作品)
》
售價:NT$
449.0
《
便宜货:廉价商品与美国消费社会的形成
》
售價:NT$
352.0
|
編輯推薦: |
本书系统、全面、深入地解析了Spark MLlib机器学习的相关知识,着力于探索分布式机器学习的底层实现。以源码为基础,兼顾算法、理论与实战,帮助读者在实际工作中进行MLlib的应用开发和定制开发。适合大数据、Spark、数据挖掘领域的从业人员阅读。
|
內容簡介: |
本书以Spark 1.4.1版本源码为切入点,全面并且深入地解析Spark MLlib模块,着力于探索分布式机器学习的底层实现。 本书循序渐进,首先解析MLlib的底层实现基础:数据操作及矩阵向量计算操作,该部分是MLlib实现的基础;其次再对各个机器学习算法的理论知识进行讲解,并且解析机器学习算法如何在MLlib中实现分布式计算;然后对MLlib源码进行详细的讲解;最后进行MLlib实例的讲解。相信通过本书的学习,读者可全面掌握Spark MLlib机器学习,能够进行MLlib实战、MLlib定制开发等。
|
目錄:
|
第一部分 Spark MLlib基础第1章 Spark机器学习简介21.1 机器学习介绍21.2 Spark介绍31.3 Spark MLlib介绍4第2章 Spark数据操作62.1 Spark RDD操作62.1.1 Spark RDD创建操作62.1.2 Spark RDD转换操作72.1.3 Spark RDD行动操作142.2 MLlib Statistics统计操作152.2.1 列统计汇总152.2.2 相关系数162.2.3 假设检验182.3 MLlib数据格式182.3.1 数据处理182.3.2 生成样本22第3章 Spark MLlib矩阵向量263.1 Breeze介绍263.1.1 Breeze创建函数273.1.2 Breeze元素访问及操作函数293.1.3 Breeze数值计算函数343.1.4 Breeze求和函数353.1.5 Breeze布尔函数363.1.6 Breeze线性代数函数373.1.7 Breeze取整函数393.1.8 Breeze常量函数403.1.9 Breeze复数函数403.1.10 Breeze三角函数403.1.11 Breeze对数和指数函数403.2 BLAS介绍413.2.1 BLAS向量-向量运算423.2.2 BLAS矩阵-向量运算423.2.3 BLAS矩阵-矩阵运算433.3 MLlib向量433.3.1 MLlib向量介绍433.3.2 MLlib Vector接口443.3.3 MLlib DenseVector类463.3.4 MLlib SparseVector类493.3.5 MLlib Vectors伴生对象503.4 MLlib矩阵573.4.1 MLlib矩阵介绍573.4.2 MLlib Matrix接口573.4.3 MLlib DenseMatrix类593.4.4 MLlib SparseMatrix类643.4.5 MLlib Matrix伴生对象713.5 MLlib BLAS773.6 MLlib分布式矩阵933.6.1 MLlib分布式矩阵介绍933.6.2 行矩阵(RowMatrix)943.6.3 行索引矩阵(IndexedRowMatrix)963.6.4 坐标矩阵(CoordinateMatrix)973.6.5 分块矩阵(BlockMatrix)98第二部分 Spark MLlib回归算法第4章 Spark MLlib线性回归算法1024.1 线性回归算法1024.1.1 数学模型1024.1.2 最小二乘法1054.1.3 梯度下降算法1054.2 源码分析1064.2.1 建立线性回归1084.2.2 模型训练run方法1114.2.3 权重优化计算1144.2.4 线性回归模型1214.3 实例1234.3.1 训练数据1234.3.2 实例代码123第5章 Spark MLlib逻辑回归算法1265.1 逻辑回归算法1265.1.1 数学模型1265.1.2 梯度下降算法1285.1.3 正则化1295.2 源码分析1325.2.1 建立逻辑回归1345.2.2 模型训练run方法1375.2.3 权重优化计算1375.2.4 逻辑回归模型1445.3 实例1485.3.1 训练数据1485.3.2 实例代码148第6章 Spark MLlib保序回归算法1516.1 保序回归算法1516.1.1 数学模型1516.1.2 L2保序回归算法1536.2 源码分析1536.2.1 建立保序回归1546.2.2 模型训练run方法1566.2.3 并行PAV计算1566.2.4 PAV计算1576.2.5 保序回归模型1596.3 实例1646.3.1 训练数据1646.3.2 实例代码164第三部分 Spark MLlib分类算法第7章 Spark MLlib贝叶斯分类算法1707.1 贝叶斯分类算法1707.1.1 贝叶斯定理1707.1.2 朴素贝叶斯分类1717.2 源码分析1737.2.1 建立贝叶斯分类1737.2.2 模型训练run方法1767.2.3 贝叶斯分类模型1797.3 实例1817.3.1 训练数据1817.3.2 实例代码182第8章 Spark MLlib SVM支持向量机算法1848.1 SVM支持向量机算法1848.1.1 数学模型1848.1.2 拉格朗日1868.2 源码分析1898.2.1 建立线性SVM分类1918.2.2 模型训练run方法1948.2.3 权重优化计算1948.2.4 线性SVM分类模型1968.3 实例1998.3.1 训练数据1998.3.2 实例代码199第9章 Spark MLlib决策树算法2029.1 决策树算法2029.1.1 决策树2029.1.2 特征选择2039.1.3 决策树生成2059.1.4 决策树生成实例2069.1.5 决策树的剪枝2089.2 源码分析2099.2.1 建立决策树2119.2.2 建立随机森林2169.2.3 建立元数据2209.2.4 查找特征的分裂及划分2239.2.5 查找最好的分裂顺序2289.2.6 决策树模型2319.3 实例2349.3.1 训练数据2349.3.2 实例代码234第四部分 Spark MLlib聚类算法第10章 Spark MLlib KMeans聚类算法23810.1 KMeans聚类算法23810.1.1 KMeans算法23810.1.2 演示KMeans算法23910.1.3 初始化聚类中心点23910.2 源码分析24010.2.1 建立KMeans聚类24210.2.2 模型训练run方法24710.2.3 聚类中心点计算24810.2.4 中心点初始化25110.2.5 快速距离计算25410.2.6 KMeans聚类模型25510.3 实例25810.3.1 训练数据25810.3.2 实例代码259第11章 Spark MLlib LDA主题模型算法26111.1 LDA主题模型算法26111.1.1 LDA概述26111.1.2 LDA概率统计基础26211.1.3 LDA数学模型26411.2 GraphX基础26711.3 源码分析27011.3.1 建立LDA主题模型27211.3.2 优化计算27911.3.3 LDA模型28311.4 实例28811.4.1 训练数据28811.4.2 实例代码288第五部分 Spark MLlib关联规则挖掘算法第12章 Spark MLlib FPGrowth关联规则算法29212.1 FPGrowth关联规则算法29212.1.1 基本概念29212.1.2 FPGrowth算法29312.1.3 演示FP树构建29412.1.4 演示FP树挖掘29612.2 源码分析29812.2.1 FPGrowth类29812.2.2 关联规则挖掘30012.2.3 FPTree类30312.2.4 FPGrowthModel类30612.3 实例30612.3.1 训练数据30612.3.2 实例代码306第六部分 Spark MLlib推荐算法第13章 Spark MLlib ALS交替最小二乘算法31013.1 ALS交替最小二乘算法31013.2 源码分析31213.2.1 建立ALS31413.2.2 矩阵分解计算32213.2.3 ALS模型32913.3 实例33413.3.1 训练数据33413.3.2 实例代码334第14章 Spark MLlib协同过滤推荐算法33714.1 协同过滤推荐算法33714.1.1 协同过滤推荐概述33714.1.2 用户评分33814.1.3 相似度计算33814.1.4 推荐计算34014.2 协同推荐算法实现34114.2.1 相似度计算34414.2.2 协同推荐计算34814.3 实例35014.3.1 训练数据35014.3.2 实例代码350第七部分 Spark MLlib神经网络算法第15章 Spark MLlib神经网络算法综述35415.1 人工神经网络算法35415.1.1 神经元35415.1.2 神经网络模型35515.1.3 信号前向传播35615.1.4 误差反向传播35715.1.5 其他参数36015.2 神经网络算法实现36115.2.1 神经网络类36315.2.2 训练准备37015.2.3 前向传播37515.2.4 误差反向传播37715.2.5 权重更新38115.2.6 ANN模型38215.3 实例38415.3.1 测试数据38415.3.2 测试函数代码38715.3.3 实例代码388
|
|