登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入 新註冊 | 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / EMS,時效:出貨後2-3日

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

2023年09月出版新書

2023年08月出版新書

2023年07月出版新書

2023年06月出版新書

2023年05月出版新書

2023年04月出版新書

2023年03月出版新書

2023年02月出版新書

『簡體書』Python无监督机器学习最佳实践

書城自編碼: 3547579
分類: 簡體書→大陸圖書→計算機/網絡人工智能
作者: [美]本杰明·约翰斯顿 等 著,唐盛 译
國際書號(ISBN): 9787302557685
出版社: 清华大学出版社
出版日期: 2020-07-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:NT$ 774

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
弗吉尼亚·伍尔夫传:作家的一生
《 弗吉尼亚·伍尔夫传:作家的一生 》

售價:NT$ 493.0
不胜欢喜
《 不胜欢喜 》

售價:NT$ 296.0
现代欧洲史:1500—1815
《 现代欧洲史:1500—1815 》

售價:NT$ 493.0
高颜值创意饮品:咖啡 茶饮 鸡尾酒 气泡水
《 高颜值创意饮品:咖啡 茶饮 鸡尾酒 气泡水 》

售價:NT$ 335.0
慢慢来,好戏都在烟火里
《 慢慢来,好戏都在烟火里 》

售價:NT$ 279.0
一间自己的房间
《 一间自己的房间 》

售價:NT$ 223.0
波段交易的高级技术:股票和期权交易者的资金管理、规则、策略和程序指南
《 波段交易的高级技术:股票和期权交易者的资金管理、规则、策略和程序指南 》

售價:NT$ 442.0
人,为什么需要存在感:罗洛·梅谈死亡焦虑
《 人,为什么需要存在感:罗洛·梅谈死亡焦虑 》

售價:NT$ 381.0

建議一齊購買:

+

NT$ 594
《 自然语言处理实战 利用Python理解、分析和生成文本 》
+

NT$ 894
《 机器学习实战:基于Scikit-Learn Keras和TensorFlow(原书第2版) 》
+

NT$ 474
《 Python无监督学习 》
+

NT$ 466
《 手把手构建人工智能产品:产品经理的AI实操手册 》
+

NT$ 632
《 智能硬件产品:从0到1的方法与实践 》
+

NT$ 894
《 微纳机器人:从个体到集群 》
編輯推薦:
在没有标签数据的情况下,无监督学习是一种有效且实用的解决方案。
本书将指导读者完成使用Python进行无监督学习的*实践,以结合使用无监督学习技术和Python库从非结构化数据中提取有意义的信息。本书首先说明了基本聚类如何在数据集中查找相似的数据点。精通k均值算法及其操作原理后,读者将了解什么是降维(Dimensionality Reduction)以及在哪里应用。随着学习的深入,读者还将掌握各种神经网络技术以及了解如何通过它们改善自己的模型。在研究无监督学习的应用程序时,我们还将学习如何挖掘Twitter上流行的主题。开发人员可以通过进行各种有趣的活动来挑战自己(例如,进行购物篮分析以确定不同产品之间的关系),从而完成本书的学习。
学习完本书,读者将具备使用Python自信地构建自己的模型所需的技能。
內容簡介:
本书详细阐述了与无监督机器学习开发相关的基本解决方案,主要包括聚类、分层聚类、邻域聚类方法和DBSCAN、降维和PCA、自动编码器、t分布随机邻域嵌入算法、主题建模、购物篮分析、热点分析等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。 本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学教材和参考手册。
目錄
第1章 聚类 1
1.1 简介 1
1.2 无监督学习与有监督学习 1
1.3 聚类的识别 3
1.3.1 识别聚类 3
1.3.2 二维数据 4
1.3.3 练习1:识别数据中的聚类 5
1.4 关于k均值聚类 8
1.4.1 无数学k均值演练 8
1.4.2 对于k均值聚类的深度演练 9
1.4.3 替代距离度量曼哈顿距离 10
1.4.4 更深的维度 10
1.4.5 练习2:用Python计算欧几里得距离 11
1.4.6 练习3:以距离的概念形成聚类 12
1.4.7 练习4:从头开始实现k均值 13
1.4.8 练习5:通过优化实现k均值 15
1.4.9 聚类性能:轮廓分数 18
1.4.10 练习6:计算轮廓分数 19
1.4.11 活动1:实现k均值聚类 21
1.5 小结 22
第2章 分层聚类 23
2.1 介绍 23
2.2 聚类刷新 23
2.3 分层的组织结构 24
2.4 分层聚类简介 25
2.4.1 执行分层聚类的步骤 26
2.4.2 分层聚类的演练示例 27
2.4.3 练习7:建立分层结构 30
2.5 链接 33
2.5.1 链接概述 33
2.5.2 活动2:应用链接标准 34
2.6 凝聚分层聚类与分裂分层聚类 36
2.6.1 练习8:使用scikit-learn实现凝聚分层聚类 37
2.6.2 活动3:比较k均值和分层聚类 39
2.7 关于k均值与分层聚类 41
2.8 小结 42
第3章 邻域聚类方法和DBSCAN 43
3.1 介绍 43
3.1.1 聚类方法 43
3.1.2 作为邻域的聚类 44
3.2 关于DBSCAN 45
3.2.1 DBSCAN深度 46
3.2.2 DBSCAN算法的演练 47
3.2.3 练习9:评估邻域半径大小的影响 48
3.2.4 DBSCAN属性邻域半径 51
3.2.5 活动4:从头开始实现DBSCAN 52
3.2.6 DBSCAN属性最少点 53
3.2.7 练习10:评估最少点阈值的影响 54
3.2.8 活动5:比较DBSCAN与k均值和分层聚类 57
3.3 DBSCAN与k均值和分层聚类 58
3.4 小结 58
第4章 降维和PCA 61
4.1 介绍 61
4.1.1 降维的定义 61
4.1.2 降维的应用 62
4.1.3 维数的诅咒 64
4.2 降维技术 66
4.2.1 概述 66
4.2.2 降维和无监督学习 67
4.3 主成分分析 68
4.3.1 均值 68
4.3.2 标准偏差 68
4.3.3 协方差 68
4.3.4 协方差矩阵 69
4.3.5 练习11:理解统计的基本概念 69
4.3.6 特征值和特征向量 73
4.3.7 练习12:计算特征值和特征向量 74
4.3.8 主成分分析的过程 77
4.3.9 练习13:手动执行PCA 78
4.3.10 练习14:scikit-learn PCA 83
4.3.11 活动6:手动PCA与scikit-learn的比较 87
4.3.12 恢复压缩的数据集 89
4.3.13 练习15:可视化通过手动PCA减少方差的效果 89
4.3.14 练习16:可视化通过scitkit-learn减少方差的效果 94
4.3.15 练习17:在matplotlib中绘制三维图 98
4.3.16 活动7:使用扩展的Iris数据集执行PCA 100
4.4 小结 102
第5章 自动编码器 103
5.1 介绍 103
5.2 人工神经网络基础 105
5.2.1 神经元 106
5.2.2 sigmoid函数 106
5.2.3 线性整流函数(ReLU) 107
5.2.4 练习18:对人工神经网络的神经元建模 108
5.2.5 活动8:使用ReLU激活函数建模神经元 111
5.2.6 神经网络:架构定义 112
5.2.7 练习19:定义Keras模型 113
5.2.8 神经网络:训练 115
5.2.9 练习20:训练Keras神经网络模型 116
5.2.10 活动9:MNIST神经网络 123
5.3 自动编码器 124
5.3.1 练习21:简单的自动编码器 125
5.3.2 活动10:简单的MNIST自动编码器 129
5.3.3 练习22:多层自动编码器 130
5.3.4 卷积神经网络 134
5.3.5 练习23:卷积自动编码器 134
5.3.6 活动11:MNIST卷积自动编码器 139
5.4 小结 141
第6章 t分布随机邻域嵌入算法 143
6.1 介绍 143
6.2 随机邻域嵌入 144
6.3 关于t分布式SNE 146
6.3.1 练习24:在MNIST数据集上实现t-SNE 146
6.3.2 活动12:在葡萄酒数据集上实现t-SNE 155
6.4 解释t-SNE图 157
6.4.1 困惑度 157
6.4.2 练习25:MNIST数据集的t-SNE和困惑度 157
6.4.3 活动13:葡萄酒数据集的t-SNE和困惑度 161
6.4.4 迭代 162
6.4.5 练习26:MNIST数据集的t-SNE和迭代 162
6.4.6 活动14:葡萄酒数据集的t-SNE和迭代 165
6.4.7 关于可视化的最终思考 166
6.5 小结 167
第7章 主题建模 169
7.1 介绍 169
7.1.1 主题模型概述 170
7.1.2 练习27:设置环境 170
7.1.3 主题模型的高级概述 172
7.1.4 商业应用 175
7.1.5 练习28:数据加载 176
7.2 清理文本数据 179
7.2.1 数据清理技术 180
7.2.2 练习29:逐步清理数据 180
7.2.3 练习30:完整的数据清理操作 184
7.2.4 活动15:加载和清理Twitter数据 187
7.3 潜在狄利克雷分配 188
7.3.1 变分推断 190
7.3.2 词袋 191
7.3.3 练习31:使用CountVectorizer创建词袋模型 192
7.3.4 困惑度 193
7.3.5 练习32:选择主题数 193
7.3.6 练习33:运行潜在狄利克雷分配 195
7.3.7 练习34:可视化LDA 199
7.3.8 练习35:尝试4个主题 203
7.3.9 活动16:潜在狄利克雷分配和与健康相关的Twitter贴文 206
7.3.10 其他词袋模型 208
7.3.11 练习36:使用TF-IDF创建词袋 208
7.4 非负矩阵分解 209
7.4.1 关于Frobenius范数 210
7.4.2 乘法更新 211
7.4.3 练习37:非负矩阵分解 212
7.4.4 练习38:可视化NMF 214
7.4.5 活动17:非负矩阵分解 216
7.5 小结 217
第8章 购物篮分析 219
8.1 介绍 219
8.2 关于购物篮分析 219
8.2.1 用例 222
8.2.2 重要概率度量标准 223
8.2.3 练习39:创建示例交易数据 223
8.2.4 支持度 225
8.2.5 置信度 225
8.2.6 提升度和杠杆率 226
8.2.7 确信度 226
8.2.8 练习40:计算度量标准 227
8.3 交易数据的特征 229
8.3.1 练习41:加载数据 230
8.3.2 数据清理和格式化 232
8.3.3 练习42:数据清理和格式化 233
8.3.4 数据编码 237
8.3.5 练习43:数据编码 238
8.3.6 活动18:加载和准备完整的在线零售数据 240
8.4 关于Apriori算法 241
8.4.1 计算修正 244
8.4.2 练习44:执行Apriori算法 244
8.4.3 活动19:对完整在线零售数据集运行Apriori算法 249
8.5 关联规则 251
8.5.1 练习45:推导关联规则 252
8.5.2 活动20:在完整的在线零售数据集上查找关联规则 257
8.6 小结 258
第9章 热点分析 259
9.1 介绍 259
9.1.1 空间统计 260
9.1.2 概率密度函数 260
9.1.3 在业务中使用热点分析 262
9.2 核密度估计 262
9.2.1 带宽值 263
9.2.2 练习46:带宽值的影响 263
9.2.3 选择最佳带宽 266
9.2.4 练习47:使用网格搜索选择最佳带宽 267
9.2.5 核函数 269
9.2.6 练习48:核函数的影响 271
9.2.7 核密度估计推导 272
9.2.8 练习49:模拟核密度估计的推导 273
9.2.9 活动21:估算一维密度 275
9.3 关于热点分析 277
9.3.1 练习50:使用seaborn加载数据和建模 277
9.3.2 练习51:使用基础地图 283
9.3.3 活动22:分析伦敦的犯罪数据 289
9.4 小结 291
附录 293
第1章 聚类 293
活动1:实现k均值聚类 293
第2章 分层聚类 296
活动2:应用链接标准 296
活动3:比较k均值和分层聚类 299
第3章 邻域聚类方法和DBSCAN 302
活动4:从头开始实现DBSCAN 302
活动5:比较DBSCAN与k均值和分层聚类 306
第4章 降维和PCA 310
活动6:手动PCA与scikit-learn的比较 310
活动7:使用扩展的Iris数据集执行PCA 314
第5章 自动编码器 319
活动8:使用ReLU激活函数建模神经元 319
活动9:MNIST神经网络 322
活动10:简单的MNIST自动编码器 325
活动11:MNIST卷积自动编码器 327
第6章 t分布随机邻域嵌入算法 331
活动12:在葡萄酒数据集上实现t-SNE 331
活动13:葡萄酒数据集的t-SNE和困惑度 335
活动14:葡萄酒数据集的t-SNE和迭代 339
第7章 主题建模 342
活动15:加载和清理Twitter数据 342
活动16:潜在狄利克雷分配和与健康相关的Twitter贴文 346
活动17:非负矩阵分解 351
第8章 购物篮分析 352
活动18:加载和准备完整的在线零售数据 352
活动19:对完整在线零售数据集运行Apriori算法 354
活动20:在完整的在线零售数据集上查找关联规则 357
第9章 热点分析 360
活动21:估算一维密度 360
活动22:分析伦敦的犯罪数据 362
內容試閱
本部分内容
本部分将简要介绍作者、本书讨论的主题、入门所需的技能,以及完成本书包含的所有活动和练习所需的硬件和软件要求等。
关于本书
在没有标签数据的情况下,无监督学习是一种有效且实用的解决方案。
本书将指导读者完成使用Python进行无监督学习的最佳实践,以结合使用无监督学习技术和Python库从非结构化数据中提取有意义的信息。本书首先说明了基本聚类如何在数据集中查找相似的数据点。精通k均值算法及其操作原理后,读者将了解什么是降维(Dimensionality Reduction)以及在哪里应用。随着学习的深入,读者还将掌握各种神经网络技术以及了解如何通过它们改善自己的模型。在研究无监督学习的应用程序时,我们还将学习如何挖掘Twitter上流行的主题。开发人员可以通过进行各种有趣的活动来挑战自己(例如,进行购物篮分析以确定不同产品之间的关系),从而完成本书的学习。
学习完本书,读者将具备使用Python自信地构建自己的模型所需的技能。
关于作者
Benjamin Johnston是全球领先的数据驱动医疗技术公司之一的高级数据科学家,并参与了从问题定义到解决方案的研究与开发,再到最终部署的整个产品开发路径的创新数字解决方案的开发。他目前正在攻读机器学习的博士学位,专门研究图像处理和深度卷积神经网络。他在医疗设备设计和开发方面拥有十多年的经验,担任过各种技术职务,并拥有澳大利亚悉尼大学工程和医学科学的一等荣誉学士学位。
Aaron Jones是美国最大零售商之一的全职高级数据科学家,也是统计顾问。在零售、媒体和环境科学领域工作期间,他建立了预测模型和推论模型以及众多数据产品。Aaron工作的总部位于华盛顿州西雅图,他对因果建模、聚类算法、自然语言处理和贝叶斯统计特别感兴趣。
Christopher Kruger曾在广告领域担任高级数据科学家。他为各种行业的客户设计了可伸缩的聚类解决方案。Christopher曾获得康奈尔大学的计算机科学硕士学位,目前在计算机视觉领域工作。
学习目标
? 了解聚类的基本知识和重要性。
? 使用内置包从头开始构建k均值、分层聚类和DBSCAN算法。
? 探索降维技术及其应用。
? 使用scikit-learn(sklearn)在Iris数据集上实现和分析主成分分析(Principal Component Analysis,PCA)。
? 使用Keras为CIFAR-10数据集构建自动编码器模型。
? 将Apriori算法与机器学习扩展(Mlxtend)结合使用,以分析交易数据。
本书读者
本书是为对无监督学习感兴趣的开发人员、数据科学家和机器学习爱好者而设计的。对于读者来说,熟悉Python编程以及一些数学概念的基础知识(包括指数、平方根、均值和中位数等)将有助于对本书内容的理解和学习。
学习方法
本书采用了Python开发实例来揭示非结构化数据中的隐藏模式,包含多个使用实际业务场景的活动,可让开发人员在高度相关的环境中练习和应用新技能。
硬件需求
为了获得最佳的学习体验,我们建议使用以下硬件配置。
? 处理器:Intel Core i5或同等计算能力的处理器。
? 内存:4GB RAM。
? 存储:5GB可用空间。
软件需求
我们建议开发人员预先安装以下软件。
? 操作系统:Windows 7 SP1 64位、Windows 8.1 64位或Windows 10 64位;Linux(Ubuntu、Debian、Red Hat或Suse)或最新版本的OS X。
? Python(3.6.5或更高版本,最好是3.7),可通过以下网址获得:
https:www.python.orgdownloadsreleasepython-371
? Anaconda(用于mlp_toolkits的basemap模块),开发人员可访问以下网址下载3.7版,然后按照说明进行安装:
https:www.anaconda.comdistribution
本书约定
本书包含许多区分不同类型信息的文本样式。以下是这些样式的一些示例以及对它们含义的解释。
(1)文本中的数据库表名称、文件夹名称、文件名、文件扩展名、路径名、虚拟URL、用户输入等均以粗体显示,以下段落就是一个示例:
我们将使用NumPy和Math软件包。NumPy是用于Python的科学计算程序包,它以高度优化的格式预打包了常见的数学函数。通过使用NumPy或Math之类的包,我们可以减少从头开始创建自定义数学函数的时间,而专注于开发解决方案。
(2)代码块显示如下:
import math
import numpy as np
def dista, b:
return math.sqrtmath.powa[0]-b[0],2 math.powa[1]-b[1],2
(3)当我们希望引起读者对代码块特定部分的注意时,则采用了下列方式将相关的行或项目以粗体显示:
variable_name = pd.read_csv''file_name.csv'', header = None
(4)采用了下列方式将新术语和重要单词以粗体显示,并提供了中英文对照的形式:
数据集中的维度(Dimension)是另一种简单计算可用特征数量的方法。在大多数组织的数据表中,你可以将特征(Feature)的数量视为列的数量。因此,在使用大小为 10002 的1000行数据集示例时,我们将在两个维度上获得1000个观测值。
安装和设置
不积跬步,无以至千里,伟大的长征需从坚实的第一步开始。我们即将在无监督学习世界中的冒险也不例外。在可以对数据进行有效处理之前,开发人员需要准备最有生产力的环境。本书将讨论如何做到这一点。
在Windows上安装Anaconda
Anaconda是一个Python包管理器,开发人员可以轻松地安装和使用本书所需的库。要在Windows上安装Anaconda,请按照以下步骤操作。
(1)Windows的Anaconda安装对用户非常友好。开发人员可以通过以下网址访问下载页面,以获取安装的可执行文件:
https:www.anaconda.comdistribution#download-section
(2)双击计算机上的安装程序。
(3)按照屏幕上的提示完成Anaconda的安装。
(4)在安装完成之后,开发人员可以访问Anaconda Navigator,它将与其他应用程序一样正常使用。
在Linux上安装Anaconda
要将Anaconda安装在Linux上,请按照以下步骤操作。
(1)开发人员可以通过以下网址访问Anaconda下载页面,以获取安装Shell脚本:
https:www.anaconda.comdistribution#download-section
(2)要将Shell脚本直接下载到Linux实例中,请使用curl或wget检索库。此处的示例显示了如何使用curl来检索位于Anaconda下载页面中的URL的文件:
curl -O https:repo.anaconda.com
archiveAnaconda3-2019.03-Linux-x86_64.SH
(3)下载完Shell脚本后,可以使用以下命令将其运行:
bash Anaconda3-2019.03-Linux-x86_64.sh
(4)运行上述命令将使开发人员进入对用户非常友好的安装过程。系统将显示有关安装位置以及Anaconda工作方式的提示。在这种情况下,应该只保留所有标准设置。
(5)在安装Anaconda之后,必须创建用于安装要使用的包的环境。Anaconda环境的优点在于,开发人员可以为正在处理的特定项目构建单独的环境!要创建新环境,请使用以下命令:
conda create --name my_packt_env python = 3.7
(6)创建环境后,可以使用名称明确的activate命令将其激活:
conda activate my_env
这样就可以了!开发人员现在处于自定义环境中,该环境将允许开发人员根据项目需要安装包。要退出环境,只需使用conda deactivate命令即可。
在macOS上安装Anaconda
要将Anaconda安装在macOS上,请按照以下步骤操作。
(1)在macOS上安装Anaconda对用户非常友好。开发人员可以通过以下网址访问下载页面,以获取安装的可执行文件:
https:www.anaconda.comdistribution#download-section
(2)确保选择了macOS,然后双击Python 3安装程序的Download(下载)按钮。
(3)按照屏幕上的提示完成Anaconda的安装。
(4)在安装完成之后,开发人员可以访问Anaconda Navigator,它将与其他应用程序一样正常使用。
在Windows上安装Python
要在Windows上安装Python,请执行以下操作。
(1)在官方安装页面上找到所需的Python版本,对应的网址如下:
https:www.python.orgdownloadswindows
(2)确保根据开发人员自己的计算机系统(32位或64位)安装正确的32位或64位版本。开发人员可以在操作系统的System Properties(系统属性)窗口中找到此信息。
(3)下载安装程序后,只需双击该文件并按照屏幕上的提示进行操作。
在Linux上安装Python
要在Linux上安装Python,请执行以下操作。
(1)打开命令提示符,并通过运行python3 --version验证尚未安装Python 3。
(2)要安装Python 3,请运行以下命令:
sudo apt-get update
sudo apt-get install python3.6
(3)如果遇到问题,则线上有许多资源可以帮助开发人员解决问题。
在macOS X上安装Python
要在macOS X上安装Python,请执行以下操作。
(1)按住CMD空格键,在打开的搜索框中输入terminal,然后按Enter键,以打开终端。
(2)运行xcode-select --install,通过命令行安装Xcode。
(3)安装Python 3最简单的方法是使用Homebrew,它是通过运行以下命令行安装的:
ruby -e "$curl -fsSL https:raw.githubusercontent.comHomebrewinstall
masterinstall"
(4)将homebrew添加到PATH环境变量中。通过运行sudo nano ~ .profile并在底部插入export PATH =" usrlocaloptpythonlibexecbin:$ PATH",在命令行中打开配置文件。
(5)在命令行中运行brew install python,完成Python的安装。
请注意,如果安装Anaconda,则将会自动安装最新版本的Python。
其他资源
本书的代码包托管在GitHub上,其网址如下:
https:github.comTrainingByPacktApplied-Unsupervised-Learning-with-Python
由于黑白印刷的缘故,本书部分图片难以辨识颜色差异,为此,我们还提供了一个PDF文件,其中包含本书中使用的屏幕截图图表的彩色图像,可通过以下地址下载:
https:www.packtpub.comsitesdefaultfilesdownloads9781789952292_ColorImages.pdf

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.