新書推薦:
《
小麦文明:“黄金石油”争夺战
》
售價:NT$
445.0
《
悬壶杂记全集:老中医多年临证经验总结(套装3册) 中医医案诊疗思路和处方药应用
》
售價:NT$
614.0
《
无法忍受谎言的人:一个调查记者的三十年
》
售價:NT$
290.0
《
战争社会学专论
》
售價:NT$
540.0
《
剑桥意大利戏剧史(剑桥世界戏剧史译丛)
》
售價:NT$
740.0
《
教育何用:重估教育的价值
》
售價:NT$
299.0
《
理想城市:环境与诗性
》
售價:NT$
390.0
《
逆风翻盘 危机时代的亿万赢家 在充满危机与风险的世界里,学会与之共舞并找到致富与生存之道
》
售價:NT$
625.0
|
編輯推薦: |
国内*本讲解自动机器学习工具与方法的书。
|
內容簡介: |
AutoML可以将部分机器学习过程自动化,减轻数据科学从业者的工作负担,深受高级分析人员的喜爱。本书介绍搭建AutoML模块的基础知识,并通过练习帮助读者消化这些知识。读者将学习使用机器学习流水线自动实现数据预处理、特征选择、模型训练、模型优化等任务,学习应用auto-sklearn和MLBox等已有的自动化库,并且创建和扩展自定义的AutoML环节。阅读本书,你将对AutoML有更清晰的认识,能利用真实数据集完成自动化任务。书中知识可运用到实际的机器学习项目中,或者在机器学习竞赛中助你一臂之力。
|
關於作者: |
Sibanjan Das是业界资深数据科学顾问,是广获好评的《Data Science Using Oracle Data Miner and Oracle R Enterprise》一书作者。
|
目錄:
|
第1章 AutoML简介 1
1.1 机器学习的范围 2
1.2 什么是AutoML 4
1.3 为什么和怎么用AutoML 10
1.4 何时需要将机器学习自动化 11
1.5 能学到什么 11
1.6 AutoML库概述 13
1.7 总结 23
第2章 Python机器学习简介 25
2.1 技术要求 26
2.2 机器学习 26
2.3 线性回归 28
2.4 重要评估指标回归算法 37
2.5 逻辑回归 39
2.6 重要评估指标分类算法 44
2.7 决策树 46
2.8 支持向量机 49
2.9 K近邻算法 52
2.10 集成方法 54
2.11 分类器结果对比 59
2.12 交叉验证 60
2.13 聚类 61
2.14 总结 66
第3章 数据预处理 67
3.1 技术要求 68
3.2 数据转换 68
3.3 特征选择 97
3.4 特征生成 103
3.5 总结 105
第4章 自动化算法选择 107
4.1 技术要求 108
4.2 计算复杂度 108
4.3 训练时间和推理时间的区别 110
4.4 线性与非线性 119
4.5 必要特征转换 124
4.6 监督机器学习 125
4.7 无监督AutoML 132
4.8 总结 157
第5章 超参数优化 159
5.1 技术要求 160
5.2 超参数 161
5.3 热启动 173
5.4 贝叶斯超参数优化 174
5.5 示例系统 175
5.6 总结 178
第6章 创建AutoML流水线 179
6.1 技术要求 180
6.2 机器学习流水线简介 180
6.3 简单的流水线 182
6.4 函数转换器 184
6.5 复杂流水线 187
6.6 总结 190
第7章 深度学习探究 191
7.1 技术要求 192
7.2 神经网络概览 192
7.3 使用Keras的前馈神经网络 198
7.4 自编码器 201
7.5 卷积神经网络 205
7.6 总结 210
第8章 机器学习和数据科学项目的重点 211
8.1 机器学习搜索 211
8.2 机器学习的权衡 221
8.3 典型数据科学项目的参与模型 222
8.4 参与模型的阶段 223
8.5 总结 228
作者简介 230
索引 231
|
內容試閱:
|
自动机器学习(AutoML)将特征预处理、模型选择和超参数优化等常用步骤自动化,以简化机器学习的建模流程。接下来的章节会详细介绍这些步骤,并且会教读者动手构建一套AutoML系统,从而对AutoML工具和库有更深刻的理解。
在开始之前,有必要回顾一下什么是机器学习模型,以及如何训练模型。
机器学习算法对数据进行处理,识别特定的模式,这一学习过程称为模型训练(model training)。模型训练的结果是机器学习模型。有了机器学习模型,你不用制定明确的规则,它就可针对数据提出见解或解答。
在实际应用机器学习模型时,需要输入大量数据,用于算法训练。训练后的成果是可用于预测的机器学习模型。这种预测可根据服务器当前状态来确定它未来四个小时是否需要维护,或者判断客户会不会投向竞争对手。
有时待解决的问题本身都没有明确定义,甚至我们都不知道需要什么样的答案。在这种情况下,机器学习模型可帮助探索数据集,比如识别行为相似的客户群,或者根据不同股票之间的关联关系发现股票的层级结构。
模型划分出客户群后,有什么用?至少可以知道:同一群体的客户有哪些相似的特征,比如年龄、职业、婚姻状况、性别、喜好、日常消费习惯、总消费额等。不同群体的客户是彼此不同的。有了这些信息,我们就可以针对每个群体推送不同的广告。
可以使用简单的数学术语说明这一流程。设有数据集 ,包含 个样本。样本可代表客户或不同的动物。通常,每个样本都是一个实数集,称为特征(feature),比如,一位35岁的女性客户在商店消费了12000美元,可以用向量(0.0,35.0,12000.0)表示。注意,这里性别是用 表示的,男性客户可以用 表示。向量的大小称为维度,通常用 表示。这是一个大小为3的向量,即三维数据集。
|
|