新書推薦:
《
分析性一体的涌现:进入精神分析的核心
》
售價:NT$
556.0
《
火枪与账簿:早期经济全球化时代的中国与东亚世界
》
售價:NT$
352.0
《
《全面与进步跨太平洋伙伴关系协定》国有企业条款研究
》
售價:NT$
449.0
《
银行业架构网络BIAN(全球数字化时代金融服务业框架)(数字化转型与创新管理丛书)
》
售價:NT$
449.0
《
金托邦:江湖中的沉重正义
》
售價:NT$
275.0
《
易经今解:释疑·解惑·见微
》
售價:NT$
403.0
《
东欧史(全二册)-“中间地带”的困境
》
售價:NT$
1010.0
《
虚拟资本:金融怎样挪用我们的未来
》
售價:NT$
352.0
|
編輯推薦: |
通过使用Python开发用例,全面理解监督学习算法。读者将学习监督学习概念、Python编码、数据集、上佳实践、常见问题和陷阱的解决方案,以及为结构化数据和文本、图像数据集实现算法的实用知识。
《Python监督学习》首先介绍机器学习,重点区分监督、半监督和无监督学习的特点与不同。接下来讲解回归和分类问题,包括背景数学知识,算法(线性回归、逻辑回归、决策树、KNN、 朴素贝叶斯),高级算法(随机森林、支持向量机、梯度增强),以及神经网络。所有的算法都提供了Python代码实现。本书后讲述完整的端到端模型开发过程,其中包括模型的部署和维护。
阅读《Python监督学习》之后,读者将对监督学习及其具体实现有一个广泛的理解,并能够以创新的方式运行代码并进行扩展。
|
內容簡介: |
主要内容 ● 综述使用Python完成监督学习的基本构造块和概念 ● 为结构化数据以及文本和图像开发监督学习的解决方案 ● 解决过拟合、特征工程、数据清理和交叉验证等问题,构建**拟合模型 ● 了解从业务问题定义到模型部署和模型维护的端到端模型开发周期 ● 使用Python创建监督学习模型时,避免常见的陷阱并遵循**实践
|
關於作者: |
Vaibhav Verdhan在数据科学、机器学习和人工智能方面拥有12年以上的经验。他是一位具有工程背景的工商管理硕士,也是一位善于实践的技术专家,具有敏锐的透彻理解和分析数据的能力。他曾在跨地理区域和零售、电信、制造、能源和公用事业领域引领多个机器学习和人工智能项目。目前和家人居住在爱尔兰,担任首席数据科学家。
|
目錄:
|
第1章 监督学习简介 1
1.1 什么是机器学习 2
1.1.1 数据分析、数据挖掘、机器学习和人工智能之间的关系 2
1.1.2 数据、数据类型和数据源 4
1.2 机器学习与软件工程的差异 6
1.3 机器学习的统计和数学概念 9
1.4 监督学习算法 15
1.4.1 回归与分类问题 17
1.4.2 监督学习算法步骤 18
1.5 无监督学习算法 20
1.5.1 聚类分析 20
1.5.2 PCA 21
1.6 半监督学习算法 22
1.7 技术栈 22
1.8 机器学习的普及性 23
1.9 机器学习使用案例 24
1.10 小结 26
第2章 回归分析监督学习 28
2.1 所需技术工具包 29
2.2 回归分析及案例 29
2.3 什么是线性回归 30
2.4 度量回归问题的有效性 34
2.4.1 案例1:创建简单线性回归 40
2.4.2 案例2:住宅数据集简单线性回归 42
2.4.3 案例3:住宅数据集多元线性回归 47
2.5 非线性回归分析 52
2.6 识别非线性关系 55
2.7 回归模型面临的挑战 57
2.8 回归的基于树方法 59
2.9 案例分析:使用决策树解决油耗问题 61
2.10 回归的集成方法 64
2.11 案例分析:使用随机森林解决油耗问题 66
2.12 基于树方法的特征选择 69
2.13 小结 71
第3章 分类问题监督学习 73
3.1 所需技术工具包 74
3.2 假设检验及p值 74
3.3 分类算法 76
3.4 评估解决方案准确度 81
3.5 案例分析:信用风险 84
3.6 分类的朴素贝叶斯方法 95
3.7 案例分析:人口普查数据的收入预测 97
3.8 分类的k近邻方法 104
3.9 案例分析:k近邻 107
3.9.1 数据集 108
3.9.2 业务目标 108
3.10 分类的基于树算法 114
3.11 决策树算法类型 117
3.12 小结 120
第4章 监督学习高级算法 123
4.1 所需技术工具 124
4.2 提升算法 124
4.3 支持向量机(SVM) 135
4.3.1 二维空间的SVM 136
4.3.2 KSVM 137
4.3.3 使用SVM的案例分析 139
4.4 非结构化数据的监督学习算法 144
4.5 文本数据 144
4.5.1 文本数据案例 145
4.5.2 文本数据面临的挑战 146
4.5.3 文本分析建模过程 147
4.5.4 文本数据提取及管理 149
4.5.5 文本数据预处理 150
4.5.6 从文本数据提取特征 152
4.6 案例分析:采用自然语言处理的客户投诉分析 156
4.7 案例分析:采用词嵌入的客户投诉分析 160
4.8 图像数据 163
4.8.1 图像数据案例 164
4.8.2 图像数据面临的挑战 165
4.8.3 图像数据管理过程 166
4.8.4 图像数据建模过程 167
4.9 深度学习基础 167
4.9.1 人工神经网络 167
4.9.2 激活函数 169
4.9.3 神经网络的损失函数 171
4.9.4 神经网络优化 172
4.9.5 神经网络训练过程 173
4.10 案例分析1:在结构化数据上建立分类模型 176
4.11 案例分析2:图像分类模型 180
4.12 小结 185
第5章 端到端模型开发 187
5.1 所需技术工具 188
5.2 机器学习模型开发 188
5.3 步骤1:定义业务问题 189
5.4 步骤2:数据发现阶段 190
5.5 步骤3:数据清理和准备 193
5.5.1 数据集中的重复值 194
5.5.2 数据集的分类变量处理 195
5.5.3 数据集中存在的缺失值 197
5.6 数据集中的不平衡 202
5.7 数据集中的离群值 205
5.8 数据集中其他常见问题 207
5.9 步骤4:EDA 209
5.10 步骤5:机器学习模型构建 215
5.10.1 数据训练/测试集分割 215
5.10.2 为分类算法找到阈值 219
5.10.3 过拟合与欠拟合问题 219
5.10.4 关键利益相关人讨论并迭代 223
5.10.5 提交终模型 223
5.11 步骤6:模型部署 223
5.12 步骤7:文档化 229
5.13 步骤8:模型更新和维护 229
5.14 小结 230
|
內容試閱:
|
“做推测很难,对未来的预测更难。”
——Yogi Berra
2019年,麻省理工学院的Katie Bouman在处理了5PB(5×250字节)数据后制作出有史以来的张黑洞图像。数据科学、机器学习和人工智能在这一非凡的发现中发挥了核心作用。
数据是新的能源。根据哈佛商业评论(HBR),数据科学家是21世纪“性感”的职业。数据助长业务决策,其影响力遍及各行各业,使我们能够创造智能产品、随机应变营销策略、创新业务策略、提升安全机制、阻止欺诈行为、减少环境污染并研制开拓性药物,让我们的日常生活变得充实,让我们的社交媒体互动更加有条理,也让我们能够降低成本、提高利润并优化操作。数据为未来提供惊人的增长空间、推动事业发展,但该领域却缺乏人才。
《Python监督学习》尝试在机器学习分支之一、被称为“监督学习”的方面培养读者,涵盖了一系列监督学习算法和各种算法的Python实现。全书讨论算法的构建块、基本原理、数学基础和背景过程,通过从零开始开发实际Python代码并按步骤解释代码对学习加以补充。
《Python监督学习》第1章简要介绍机器学习,讨论机器学习概念、监督、半监督和无监督学习方法的差异和各种实际案例。第2章研究回归算法,如线性回归、多项式回归、决策树、随机森林等。第3章是关于分类算法的,使用的方法有逻辑回归、朴素贝叶斯、k近邻、决策树和随机森林。第4章将介绍梯度提升机(GBM)、支持向量机(SVM)和神经网络。在《Python监督学习》中将处理结构化数据及文本和图像数据,通过实用的Python实现予以补充说明,使理解更为透彻。第5章是关于端到端模型开发的,你能获得Python代码、数据集、实践、常见问题和缺陷的解决方案及有关实现算法的手实用知识。你将能够运行代码并以创新方式扩展代码,理解如何解决监督学习问题。你作为数据科学爱好者的非凡才能将得到极大的提升,请做好准备加入这富有成效的教程!
《Python监督学习》适用于想用Python实现对监督学习概念进行探索的研究人员和学生,推荐那些渴望紧跟技术前沿、透彻了解各种高级概念、获取常见挑战问题的实践和解决方案的在职专业人员使用,也可供希望获得手知识、与团队和客户无障碍沟通的商业领袖使用。《Python监督学习》尤其是面向那些试图对监督学习算法工作原理进行探索并尝试使用Python的各类求知若渴的人士。
祝幸福安康!
——Vaibhav Verdhan
|
|