登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入   新用戶註冊
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / 物流,時效:出貨後2-4日

2024年11月出版新書

2024年10月出版新書

2024年09月出版新書

2024年08月出版新書

2024年07月出版新書

2024年06月出版新書

2024年05月出版新書

2024年04月出版新書

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

『簡體書』基于PySpark的高级数据分析

書城自編碼: 4044521
分類: 簡體書→大陸圖書→計算機/網絡數據庫
作者: Akash Tandon,Sandy Ryza,Uri La
國際書號(ISBN): 9787519891862
出版社: 中国电力出版社
出版日期: 2024-10-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:NT$ 398

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
经纬度丛书:出祁山:诸葛亮北伐得与失
《 经纬度丛书:出祁山:诸葛亮北伐得与失 》

售價:NT$ 440.0
心理治疗中的真意:心理治疗师的心灵之旅
《 心理治疗中的真意:心理治疗师的心灵之旅 》

售價:NT$ 440.0
心理咨询与治疗技术经典入门(第3版)
《 心理咨询与治疗技术经典入门(第3版) 》

售價:NT$ 650.0
无冕之王:齐桓公与齐国崛起
《 无冕之王:齐桓公与齐国崛起 》

售價:NT$ 290.0
中国涉外法治蓝皮书(2024)
《 中国涉外法治蓝皮书(2024) 》

售價:NT$ 484.0
黄庭经详解(全2册)
《 黄庭经详解(全2册) 》

售價:NT$ 660.0
台北故宫博物院典藏大系·绘画卷(全十册)
《 台北故宫博物院典藏大系·绘画卷(全十册) 》

售價:NT$ 47400.0
姑苏繁华图
《 姑苏繁华图 》

售價:NT$ 3190.0

編輯推薦:
编辑推荐
时至今日产生的数据量已经达到令人惊人的地步,而且还在不断增长。Apache Spark已经成为分析大数据的实际工具,并且也是数据科学工具箱的关键部分。本书针对Spark最z新版本进行了更新,将Spark、统计方法和真实数据集结合在一起,教你如何运用 PySpark、Spark Python API和Spark编程中的其他最z佳实践来解决分析问题。
数据科学家Akash Tandon、Sandy Ryza、Uri Laserson、Sean Owen和Josh Wills介绍了Spark生态系统,然后深入研究将常用技术(包括分类、聚类、协同过滤和异常检测)应用于以下的领域:基因组学、安全工作和金融。此更新版本还涵盖图像处理和Spark NLP库。
如果你对机器学习和统计学有基本的了解,并且能够使用Python进行编程,那么本书将帮助你开始进行大规模的数据分析。
內容簡介:
本书的主要内容有:熟悉Spark的编程模型和生态系统。学习数据科学的一般方法。检查分析大型公共数据集执行步骤的完整性。发现哪些机器学习工具对特定问题有帮助。探索可适应多种用途的代码。
關於作者:
Akash Tandon是Looppanel的联合创始人兼首席技术官。曾在Atlan担任高级数据工程师。Sandy Ryza是Apache Spark的核心贡献人,领导了Dagster项目的开发。Uri Laserson是Patch Biosciences 的创始人兼首席技术官。曾在Cloudera从事大数据和基因组学的研究。Sean Owen是Apache Spark的核心贡献人和PMC(项目管理委员会)的成员,同时也是Databricks专注于机器学习和数据科学的首席解决方案架构师。Josh Wills是WeaveGrid的软件工程师,也是Slack的前数据工程主管。
目錄
目录
前言 1
第1 章 大数据分析 7
11 使用大数据 8
12 Apache Spark 和PySpark10
121 组件 10
122 PySpark 12
123 生态系统 13
13 Spark 30 14
14 PySpark 处理数据科学问题 15
15 本章小结16
第2 章 PySpark 数据分析简介 17
21 Spark 架构 19
22 安装PySpark 21
23 设置我们的数据 24
24 使用DataFrame API 分析数据 31
25 DataFrames 的快速汇总统计 35
26 DataFrame 的透视和重塑 37
27 关联DataFrame 并选择特征40
28 评分和模型评估 42
29 本章小结44
第3 章 音乐推荐和音频编码器的数据集 47
31 设置数据48
32 我们对推荐系统的要求 51
33 数据准备55
34 构建第一个模型 58
35 算法筛查推荐 62
36 推荐质量评估 64
37 计算AUC 66
38 选择超参数 68
39 给出推荐71
310 本章小结 72
第4 章 使用决策树和决策森林进行预测 75
41 决策树和决策森林 76
42 准备数据79
43 第一颗决策树 84
44 决策树超参数 92
45 调试决策树 94
46 重温分类特征 98
47 随机森林102
48 进行预测105
49 本章小结105
第5 章 异常检测与K-means 聚类算法 107
51 K-means 聚类 108
52 识别异常网络流量 109
53 初次尝试聚类 112
54 选择K 值 114
55 利用SparkR 实现可视化 118
56 特征归一化 123
57 分类变量124
58 使用熵(Entropy)标签 126
59 聚类实战128
510 本章小结 130
第6 章 通过LDA、Spark NLP 了解维基百科 133
61 隐含狄利克雷分布 134
62 获取数据135
63 Spark NLP 137
64 解析数据139
65 使用Spark NLP 准备数据 141
66 TF-IDF 146
67 计算TF-IDF 147
68 创建LDA 模型 148
69 本章小结151
第7 章 基于出租车行程数据的时空序列数据分析 153
71 数据准备155
711 将日期格式字符串转换为时间戳 157
712 处理无效记录 159
72 地理空间分析 161
721 介绍GeoJSON 161
722 GeoPandas 163
73 PySpark 会话化 166
74 本章小结170
第8 章 金融风险评估 171
81 金融术语172
82 VaR 的计算方法 173
821 方差与协方差 173
822 历史模拟法 173
823 蒙特卡罗模拟 174
83 我们的模型 174
84 获取数据175
85 准备数据177
86 决定因子权重 180
87 抽样 184
88 试验运行187
89 可视化收益分布 191
810 本章小结 192
第9 章 分析基因组学数据和BDG 项目 193
91 从建模中解耦存储 194
92 设置ADAM 197
93 介绍如何使用ADAM 处理基因组数据 198
931 使用ADAM CLI 进行文件格式转换 199
932 使用PySpark 和ADAM 采集基因组学数据 200
94 预测转录因子结合位点 206
95 本章小结212
第10 章 基于深入学习和PySpark LSH 的图像相似度
检测 215
101 PyTorch 216
102 准备数据 217
103 图像矢量表示的深度学习模型 219
1031 图像嵌入 219
1032 将图像嵌入导入 PySpark 222
104 使用PySpark LSH 进行图像相似搜索 223
105 本章小结 228
第11 章 使用MLflow 管理机器学习生命周期 229
111 机器学习生命周期 229
112 MLflow 231
113 实验跟踪 232
114 管理和服务ML 模型 236
115 创建并使用MLflow 项目 239
116 本章小结 243
內容試閱
前言Apache Spark 从MPI(消息传递接口)到MapReduce 的过程源远流长,使其可以写出利用大量资源的同时分离出分布式系统基本细节的程序。尽管数据处理需求推动了这些框架的发展,但在某种程度上,大数据领域已经与它们息息相关,其范围由这些框架可以处理的内容定义。Spark 最初的承诺是让这个过程更进一步,让编写分布式程序感觉就像编写常规程序一样。Spark 的普及与Python 数据(PyData)生态系统的日益风行同步发展。因此,Spark 的Python API(PySpark)在过去几年中的流行速度明显增长是有道理的。尽管PyData 生态系统最近兴起了一些分布式程序的选项,但Apache Spark 仍是处理跨行业领域的大型数据集最受欢迎的选择之一。归因于PySpark 其他PyData 工具的整合,该框架可以帮助数据科学从业者显著提高生产力。我们一致认为教授数据科学的最佳方式是通过示例。为此,我们整理了一本关于应用程序的书籍,涉及大规模数据分析中最常见的算法、数据集和设计模式之间的交互。这本书并不是要从头到尾阅读,它看起来只是像你极力需要完成的事情,或是为了激发你开始学习的兴趣。为何写这本书Apache Spark 在2020 年经历了一次主要版本的升级——版本30。最大的改进之一是引入了Spark 自适应执行优化系统。此功能消除了大部分调试和优化的复杂性。因为它在 Spark 32 及更高版本中默认打开,所以我们在书中并未提及到它,你将自然而然的获益。生态系统的变化,结合Spark 最新的主要版本,使这个版本成为一个与时俱进的版本。与以前选择Scala 版本的Advanced Analytics with Spark 不同,我们将使用Python 作为主要工具。本书将包含与更广泛的Python 数据科学生态系统相结合的最佳实践。所有章节都已更新为使用最新版本的PySpark API,并增加了两个新章节和对多个章节进行改写,不会对Spark 的流处理和图像处理库进行介绍。随着Spark 进入成熟和稳定的新时代,我们希望这些变化将在未来几年把本书作为有用的分析资料保存下来。本书的组织结构第1 章把Spark 和PySpark 置于更广泛的数据科学和大数据分析的背景下。之后,每章都将使用PySpark 对数据进行了独立的分析。第2 章通过一个数据清洗实例介绍PySpark 和Python 中数据处理的基础知识。接下来的几章将深入探讨如何使用Spark 进行机器学习,并在经典应用中应用一些最常用的算法。剩下的几章则是一些零散的应用,比如通过文本中的潜在语义关系查询维基百科、分析基因组学数据、识别相似图像等。本书不讨论PySpark 的优点和缺点以及一些其他内容。本书介绍了Spark 编程模型和Spark 的Python API PySpark 的基础知识。不过,本书并不打算成为Spark 的参考资料或提供全面的Spark 使用指南。本书不打算成为机器学习、统计学或线性代数的参考资料,尽管很多章节在使用这些内容之前都会提供一些背景知识。相反,本书将通过涵盖整个流程来帮助读者感受使用PySpark 对大型数据集进行复杂分析的感觉,不仅是构建和评估模型,还包括清洗、预处理和探索数据,并注重将结果转化为生产应用程序的过程。我们相信,最好的教学方式是通过实践。以下是本书要处理的一些任务示例:预测森林覆盖我们使用决策树,并利用位置和土壤类型等相关特征预测森林覆盖类型(见第4 章)。查询维基百科相似条目我们通过使用NLP(自然语言处理)技术识别条目之间的关系并查询维基百科语料库(见第6 章)。了解纽约出租车的使用情况我们通过执行时间和地理空间分析,计算出租车的平均等待时间作为位置函数(见第7 章)。降低投资组合风险我们使用蒙特卡罗模拟估计投资组合的财务风险(见第9 章)。如果可能,我们不仅尝试提供“解决方案”,还试图展示完整的数据科学工作流程,包括所有的迭代(iterations)、终结点(dead ends)以及重新运行(restarts)。本书将有助于你更加熟悉Python、Spark、机器学习和数据分析。然而,这些都是为了一个更大的目标,我们希望本书的大部分内容将教会你如何处理前面描述的任务。每章大约有几十页的篇幅,将尽可能地演示如何构建一个数据应用程序。排版约定本书采用以下排版约定。斜体(Italic)表示新术语、URL、电子邮件地址、文件名和文件扩展名。等宽字体(Constant Width)表示程序清单,在段落内表示程序元素,例如变量、函数名称、数据库、数据类型、环境变量、语句和关键字。粗体等宽字体(Constant width bold)表示应由用户原封不动输入的命令或其他文本。斜体等宽字体(Constant width italic)表示应该替换成用户提供值的文本,或者由上下文决定的值。使用代码示例补充材料(代码示例、练习等)可以通过网址下载:https://githubcom/sryza/aas。与本书相关的技术问题,或者在使用代码示例上有疑问,请发电子邮件到errata@oreillycomcn。本书的目的是帮助你完成工作。一般来说,本书提供的示例代码,你可以在自己的程序或文档中使用而无需联系我们获取许可,除非你需要复制大量代码。例如,使用本书中的代码片段编写程序无需授权许可,但销售或发行O’Reilly图书中的示例则需要获得许可。引用本书中的示例代码回答问题无需获得许可。但在产品文档中本书中使用大量示例代码则需要获得许可。我们很希望但并不强制要求你在引用本书内容时加上引用说明。引用说明一般包括书名、作者、出版社和ISBN,例如:“Advanced Analytics with PySpark by Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, and Josh Wills (O’Reilly) Copyright 2022 Akash Tandon, 978-1-098-10365-1”。如果你觉得自己对示例代码的使用超出了上述许可范围, 请通过permissions@oreillycom 与我们联系。O’Reilly 在线学习平台(O’Reilly Online Learning)近40 年来,O’Reilly Media 致力于提供技术和商业培训、知识和卓越见解,来帮助众多公司取得成功。公司独有的专家和改革创新者网络通过O’Reilly 书籍、文章以及在线学习平台,分享他们的专业知识和实践经验。O’Reilly 在线学习平台按照您的需要提供实时培训课程、深入学习渠道、交互式编程环境以及来自O’Reilly 和其他200 多家出版商的大量书籍与视频资料。更多信息,请访问网站:https://wwworeillycom/。联系我们任何有关本书的意见或疑问,请按照以下地址联系出版社。美国:O’Reilly Media, Inc1005 Gravenstein Highway NorthSebastopol, CA 95472中国:北京市西城区西直门南大街2 号成铭大厦C 座807 室(100035)奥莱利技术咨询(北京)有限公司勘误、示例和其他信息可访问https://oreilly/adv-analytics-pyspark 获取。对本书的评论或技术疑问,可以发电子邮件到errata@oreillycomcn。欲了解本社图书和课程的新闻和信息,请访问我们的网站http://oreillycom。我们的LinkedIn:https://linkedincom/company/oreilly-media。我们的Twitter:http://twittercom/oreillymedia。我们的YouTube:http://youtubecom/oreillymedia。致谢毫无疑问,如果没有Apache Spark 和MLlib 的存在,就不会有本书。我们都应该感谢构建和它的开源团队,以及为它添加内容的数百名贡献者。我们要感谢每一位花了大量时间并以专业角度审阅本书前几版内容的人:Michael Bernico、Adam Breindel、Ian Buss、Parviz Deyhim、Jeremy Freeman、Chris Fregly、Debashish Ghosh、Juliet Hougland、Jonathan Keebler、Nisha Muktewar、Frank Nothaft、Nick Pentreath、Kostas Sakellis、Tom White、Marcelo Vanzin 和Juliet Hougland。感谢大家! 这极大地改善了本书最终版本的结构和质量。Sandy 还要感谢Jordan Pinkus 和Richard Wang,感谢他们在风险这一章的理论方面给予帮助。感谢Jeff Bleiel 和O’Reilly 为本书的出版提供了宝贵的经验和大力支持。

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 台灣用户 | 香港/海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.