登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入   新用戶註冊
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / 物流,時效:出貨後2-4日

2024年10月出版新書

2024年09月出版新書

2024年08月出版新書

2024年07月出版新書

2024年06月出版新書

2024年05月出版新書

2024年04月出版新書

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

2023年09月出版新書

『簡體書』PySpark大数据分析与应用

書城自編碼: 3971952
分類: 簡體書→大陸圖書→教材研究生/本科/专科教材
作者: 戴刚,张良均
國際書號(ISBN): 9787115634900
出版社: 人民邮电出版社
出版日期: 2024-04-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:NT$ 356

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
英雄之旅:把人生活成一个好故事
《 英雄之旅:把人生活成一个好故事 》

售價:NT$ 398.0
分析性一体的涌现:进入精神分析的核心
《 分析性一体的涌现:进入精神分析的核心 》

售價:NT$ 556.0
火枪与账簿:早期经济全球化时代的中国与东亚世界
《 火枪与账簿:早期经济全球化时代的中国与东亚世界 》

售價:NT$ 352.0
《全面与进步跨太平洋伙伴关系协定》国有企业条款研究
《 《全面与进步跨太平洋伙伴关系协定》国有企业条款研究 》

售價:NT$ 449.0
银行业架构网络BIAN(全球数字化时代金融服务业框架)(数字化转型与创新管理丛书)
《 银行业架构网络BIAN(全球数字化时代金融服务业框架)(数字化转型与创新管理丛书) 》

售價:NT$ 449.0
金托邦:江湖中的沉重正义
《 金托邦:江湖中的沉重正义 》

售價:NT$ 275.0
易经今解:释疑·解惑·见微
《 易经今解:释疑·解惑·见微 》

售價:NT$ 403.0
东欧史(全二册)-“中间地带”的困境
《 东欧史(全二册)-“中间地带”的困境 》

售價:NT$ 1010.0

建議一齊購買:

+

NT$ 556
《 会计学:企业决策的基础(财务会计分册)(英文版·原书第19版) 简·R.威廉姆斯 》
+

NT$ 296
《 宋代点茶文化与艺术 》
+

NT$ 1144
《 刑法学(第六版 上下册) 》
+

NT$ 356
《 数据库系统原理(微课版) 》
+

NT$ 250
《 毛泽东思想概论(高校思想政治理论课重点教材) 》
+

NT$ 500
《 射频等离子体物理基础 》
編輯推薦:
1.理论叙述由浅入深,循序渐进,表达通俗易懂。本书的知识点章节从基本概念入手,介绍相关的基础理论,并结合介绍的知识点进行操作实践,再通过应用实例介绍如何运用具体方法解决实际问题。
2.强化基础,突出知识的应用性。结合高校教学特点和学生的情况,突出PySpark大数据分析的重点内容,强调PySpark在实际问题中的应用性,充分体现了理论知识与应用的紧密结合。
3.从实践出发,重点突出可操作性。本书从构建PySpark的开发环境入手,详细介绍了单机模式的PySpark开发环境搭建(基于Windows系统搭建,搭建过程简单,易于操作)和分布式模式的PySpark开发环境搭建(基于Linux系统搭建,贴近实际应用场景,处理高效),帮助读者构建一个可操作的实践环境,实践本书各章节的内容。且本书大部分章节附有实训和课后习题,便于读者进行上机实验,巩固所学知识,真正理解并应用所学知识。
4.通过典型的案例完整展示PySpark数据分析的过程,强化知识的实际应用。本书最后介绍了两个案例,以应用为导向,从需求分析入手,再设计解决方案,最终运用所需知识实现基于PySpark的数据分析过程。
5.体
內容簡介:
本书以Python作为开发语言,系统介绍PySpark开发环境搭建流程及基于PySpark进行大数据分析的 相关知识。本书条理清晰、重点突出,理论叙述循序渐进、由浅入深。本书共7章,第1?5章包括PySpark 大数据分析概述、PySpark安装配置、基于PySpark的DataFrame操作、基于PySpark的流式数据处理、 基于PySpark的机器学习库,内容介绍注重理论与实践相结合,通过典型示例强化PySpark在大数据分析 中的实际应用;第6、7章通过基于PySpark的网络招聘信息的职业类型划分和基于PySpark的信用贷款 风险分析两个完整的案例实战,结合前5章的PySpark编程知识,实现完整的大数据分析过程。本书大部 分章包含实训和课后习题,读者通过练习和操作实践,能够巩固所学的内容。
本书可作为高校数据科学或大数据相关专业的教材,也可作为机器学习爱好者的自学用书。
關於作者:
戴刚,重庆大学计算机科学与技术博士,美国匹兹堡大学访问学者,重庆交通大学经济与管理学院副教授,硕士生导师。主持1项产学研合作项目,主研国家自然科学基金2项,国家科技支持计划1项目,中国移动(重庆分公司)科技公关项目1项,省部级科研项目2项,在国际期刊、国际会议及国内权威学术期刊发辫学术论文7篇。熟悉Java、Python、大数据及相关软件架构,具有丰富的软件开发经验。从事教育教学工作十多年,有扎实的专业素养和丰富的教学经验。
目錄
第 1章PySpark大数据分析概述 1
1.1 大数据分析概述 1
1.1.1 大数据的概念 2
1.1.2 大数据分析的概念 3
1.1.3 大数据分析的流程 4
1.1.4 大数据分析的应用场景 6
1.1.5 大数据技术体系 6
1.2 Spark大数据技术框架 10
1.2.1 Spark 简介 10
1.2.2 Spark 特点 11
1.2.3 Spark运行架构与流程 11
1.2.4 Spark RDD 14
1.2.5 Spark 生态圈 20
1.3 PySpark大数据分析 21
1.3.1 PySpark 简介 21
1.3.2 PySpark 子模块 22
小结 25
课后习题 26
第 2章 PySpark安装配置 27
2.1 搭建单机模式的PySpark开发
环境 28
2.1.1 安装 JDK 28
2.1.2 安装 Anaconda 28
2.1.3 安装 Hadoop 30
2.1.4 安装 MySQL 36
2.1.5 安装 Hive 37
2.1.6 配置 PySpark 模块 43
2.1.7 运行 Jupyter Notebook 44
2.2 搭建分布式模式的PySpark开发
环境 45
2.2.1 安装配置虚拟机 46
2.2.2 安装 Java 53
2.2.3 搭建Hadoop分布式集群 58
2.2.4 安装MySQL数据库 62
2.2.5 安装Hive数据仓库工具 63
2.2.6 搭建Spark完全分布式集群 66
2.2.7 安装 PyCham 69
2.2.8 安装Python解释器及PySpark 模块 69
2.3 Python函数式编程 69
2.3.1 Python常用数据结构 70
2.3.2 Python函数式编程基础 75
小结 76
课后习题 76
第 3 章 基于 PySpark 的 DataFrame 操作 78
3.1 Spark SQL 概述 78
3.1.1 Spark SQL起源与发展历程 79
3.1.2 Spark SQL 主要功能 79
3.1.3 Spark SQL数据核心抽象 DataFrame 80
3.2 pyspark.sql 模块 82
3.2.1 pyspark. sql 模块简介 82
3.2.2 pyspark. sql 模块核心类 83
3.3 DataFrame 基础操作 85
3.3.1 创建 DataFrame 对象 86
332 DataFrame 操作 93
3.3.3 DataFrame 输出操作 113
小结 114
实训 114
实训1网站搜索热词统计分析 114
实训2大数据岗位招聘信息统计分析 …115
课后习题 116
第4章 基于PySpark的流式数据
处理 118
4.1 Spark Streaming 概述 119
4.1.1 流计算简介 119
4.1.2 Spark Streaming 基本概念 121
4.1.3 Spark Streaming 工作原理 121
4.1.4 Spark Streaming 运行机制 122
4.2 pyspark.streaming 模块 123
4.2.1 pyspark. streaming 模块简介 123
4.2.2 pyspark. streaming 模块核心类 124
4.2.3 DStream 基础操作 126
4.3 Structured Streaming 结构化流 处理 146
4.3.1 Structured Streaming 概述 146
4.3.2 Structured Streaming 编程模型 147
4.3.3 Structured Streaming 基础操作 148
4.3.4 Structured Streaming 编程步骤 152
小结 155
实训 155
实训1使用Spark Streaming实现菜品价格
实时计算 155
实训2使用Spark Streaming实时判别车辆 所属地 156
课后习题 156
第5章 基于PySpark的机器
学习库 158
5.1 MLlib 算法 159
5.1.1 机器学习 159
5.1.2 MLlib 159
5.1.3 pyspark.ml 模块 159
5.2 使用pyspark.ml模块的转换器处理
和转换数据 162
5.2.1 数据加载及数据集划分 162
5.2.2 数据降维 164
5.2.3 数据标准化 166
5.2.4 数据类型转换 171
5.3 pyspark.ml模块的评估器和模型 评估 175
5.3.1 使用PySpark构建并评估分类 模型 175
5.3.2 使用PySpark构建并评估回归 模型 182
5.3.3 使用PySpark构建并评估聚类 模型 186
5.3.4 使用PySpark构建并评估智能推荐
模型 189
小结 195
实训 195
实训1使用随机森林模型预测是否批准 用户申请 195
实训2使用回归模型实现房价预测………196
课后习题 197
第6章 案例分析:基于PySpark的网络 招聘信息的职业类型划分 ……199
6.1 需求与架构分析 200
6.1.1 业务需求分析与技术选型 200
6.1.2 系统架构分析 200
6.2 数据探索 201
6.2.1 数据说明 202
6.2.2 数据读取 202
6.2.3 重复数据与空值探索 204
6.2.4 异常数据探索 205
6.3 数据预处理 207
6.3.1 数据清洗 207
6.3.2 中文分词与去停用词 208
6.3.3 词特征向量化 210
6.4 模型构建与评估 213
6.4.1 LDA算法简介 214
6.4.2 LDA模型构建与评估 215
6.4.3 构建LDA模型 217
6.5 制作词云图 220
小结 225
第7章 案例分析:基于PySpark的
信用贷款风险分析 226
7.1 需求与架构分析 227
7.1.1 业务需求分析 227
7.1.2 系统架构分析 227
7.2 数据探索 228
7.2.1 数据说明 228
7.2.2 建立数据仓库并导入数据 230
7.2.3 用户信息完善情况与逾期率的关系
探索 233
7.2.4 用户信息修改情况与逾期率的关系
探索 236
7.2.5 用户借款月份与逾期率的关系
探索 240
7.3 数据预处理 243
7.3.1 计算用户信息缺失个数及借款月份
构建新特征 243
7.3.2 用户更新信息重建 245
7.3.3 用户登录信息重建 250
7.3.4 分类数据预处理 255
7.3.5 字符串字段编码处理 259
7.3.6 分类数据重编码 263
7.3.7 缺失值处理 265
7.4 模型构建与评估 267
7.4.1 了解 GBTs 算法 267
7.4.2 构建 GBTs 模型 268
7.4.3 评估 GBTs 模型 271
7.5 部署和提交PySpark应用程序…271
7.5.1 打包PySpark应用程序 271
7.5.2 提交PySpark应用程序 274
小结 275
参考文献 276

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 台灣用户 | 香港/海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.