新書推薦:
《
股权控制战略:如何实现公司控制和有效激励(第2版)
》
售價:NT$
449.0
《
汉译名著·哲学经典十种
》
售價:NT$
3460.0
《
成吉思汗传:看历代帝王将相谋略 修炼安身成事之根本
》
售價:NT$
280.0
《
爱丁堡古罗马史-罗马城的起源和共和国的崛起
》
售價:NT$
349.0
《
自伤自恋的精神分析
》
售價:NT$
240.0
《
大宋悬疑录:貔貅刑
》
售價:NT$
340.0
《
不被大风吹倒
》
售價:NT$
300.0
《
人生解忧:佛学入门四十讲
》
售價:NT$
490.0
|
編輯推薦: |
通过“特征工程”技术,可优化训练数据,提升机器学习流程的输出效果!“特征工程”基于现有数据设计相关的输入变量,由此简化训练过程,增强模型性能。调整超参数或模型的效果都不如特征工程;特征工程通过改变数据流程,大幅提升了性能。
|
內容簡介: |
《特征工程训练营》将列举6个实践项目,引导你利用特征工程优化训练数据。每章探讨一个代码驱动的新案例,涉及金融、医疗等行业。你将学会清洗和转换数据,减轻偏见。本书呈现各种性能提升技巧,涵盖从自然语言处理到时间序列分析等所有主要机器学习子领域。
主要内容
● 识别和实现特征转换
● 用非结构化数据构建ML(机器学习)流程
● 量化并尽量避免ML流程中的偏见
● 使用特征存储构建实时ML流程
● 通过操纵输入数据来增强现有ML流程
|
關於作者: |
Sinan Ozdemir是Shiba公司的创始人兼首席技术官,他曾在约翰·霍普金斯大学担任数据科学讲师,迄今已出版了多本关于数据科学和机器学习的教材。
|
目錄:
|
第1 章 特征工程简介 1
1.1 特征工程是什么,为什么它如此重要 2
1.1.1 谁需要特征工程 4
1.1.2 特征工程的局限性 4
1.1.3 出色的数据,出色的模型 5
1.2 特征工程流程 6
1.3 本书的编排方式 10
1.3.1 特征工程的五种类型 11
1.3.2 本书案例研究的概述 12
1.4 本章小结 14
第2 章 特征工程基础知识 17
2.1 数据类型 18
2.1.1 结构化数据 18
2.1.2 非结构化数据 18
2.2 数据的四个层次 20
2.2.1 定性数据与定量数据 20
2.2.2 名义层次 21
2.2.3 序数层次 23
2.2.4 区间层次 24
2.2.5 比率层次 26
2.3 特征工程的类型 31
2.3.1 特征改进 31
2.3.2 特征构建 32
2.3.3 特征选择 34
2.3.4 特征提取 35
2.3.5 特征学习 36
2.4 如何评估特征工程的成果 38
2.4.1 评估指标1:机器学习度量标准 38
2.4.2 评估指标2:可解释性 39
2.4.3 评估指标3:公平性和偏见 39
2.4.4 评估指标4:机器学习复杂性和
速度 40
2.5 本章小结 41
第3 章 医疗服务:COVID-19的诊断 43
3.1 COVID 流感诊断数据集 45
3.2 探索性数据分析 49
3.3 特征改进 52
3.3.1 补充缺失的定量数据 52
3.3.2 填充缺失的定性数据 58
3.4 特征构建 61
3.4.1 数值特征的转换 61
3.4.2 构建分类数据 68
3.5 构建特征工程流程 75
3.6 特征选择 84
3.6.1 互信息 84
3.6.2 假设检验 85
3.6.3 使用机器学习 87
3.7 练习与答案 90
3.8 本章小结 90
第4 章 偏见与公平性:再犯率建模 93
4.1 COMPAS 数据集 93
4.2 探索性数据分析 97
4.3 测量偏见和公平性 101
4.3.1 不同对待与不同影响 102
4.3.2 公平的定义 102
4.4 构建基准模型 105
4.4.1 特征构建 105
4.4.2 构建基准流程 106
4.4.3 测量基准模型的偏见 108
4.5 偏见缓解 115
4.5.1 模型训练前 116
4.5.2 模型训练中 116
4.5.3 模型训练后 116
4.6 构建偏见感知模型 117
4.6.1 特征构建:使用Yeo-Johnson 转换器处理不同的影响 117
4.6.2 特征提取:使用aif360 学习公平表示实现 123
4.7 练习与答案 129
4.8 本章小结 130
第5 章 自然语言处理:社交媒体情感分类 131
5.1 推文情感数据集 134
5.2 文本向量化 138
5.2.1 特征构建:词袋模型 138
5.2.2 计数向量化 139
5.2.3 TF-IDF向量化 146
5.3 特征改进 149
5.3.1 清理文本中的噪声 150
5.3.2 对token 进行标准化 152
5.4 特征提取 155
5.5 特征学习 158
5.5.1 自动编码器简介 159
5.5.2 训练自动编码器以学习特征 160
5.5.3 迁移学习简介·· 165
5.5.4 使用BERT 的迁移学习 166
5.5.5 使用BERT 的预训练特征 169
5.6 文本向量化回顾 172
5.7 练习与答案 173
5.8 本章小结 174
第6 章 计算机视觉:对象识别 175
6.1 CIFAR-10 数据集 176
6.2 特征构建:像素作为特征 178
6.3 特征提取:梯度方向直方图 181
6.4 使用VGG-11 进行特征学习 190
6.4.1 使用预训练的VGG-11 作为特征提取器 191
6.4.2 微调VGG-11 196
6.4.3 使用经过微调的VGG-11 特征进行逻辑回归 201
6.5 图像矢量化总结 203
6.6 练习与答案 204
6.7 本章小结 205
第7 章 时间序列分析:利用机器学习进行短线交易 207
7.1 TWLO 数据集 208
7.2 特征构建 213
7.2.1 日期/时间特征 213
7.2.2 滞后特征 215
7.2.3 滚动/扩展窗口特征 216
7.2.4 领域特定特征 229
7.3 特征选择 238
7.3.1 使用机器学习选择特征 238
7.3.2 递归特征消除 240
7.4 特征提取 242
7.5 结论 248
7.6 练习与答案 249
7.7 本章小结 251
第8 章 特征存储 253
8.1 MLOps 和特征存储 254
8.1.1 使用特征存储的收益 255
8.1.2 维基百科、MLOps和特征存储 260
8.2 使用Hopsworks 设置特征存储 262
8.2.1 使用HSFS API 连接到Hopsworks 263
8.2.2 特征组 265
8.2.3 使用特征组来选择数据 273
8.3 在Hopsworks 中创建训练数据 275
8.3.1 训练数据集 276
8.3.2 数据溯源 280
8.4 练习与答案 281
8.5 本章小结 281
第9 章 汇总 283
9.1 重新审视特征工程流程 283
9.2 主要收获 284
9.2.1 特征工程与机器学习模型的选择同样至关重要 285
9.2.2 特征工程并非一劳永逸的解决方案 286
9.3 特征工程回顾 286
9.3.1 特征改进 286
9.3.2 特征构建 286
9.3.3 特征选择 287
9.3.4 特征提取 287
9.3.5 特征学习 289
9.4 数据类型特定的特征工程技术 290
9.4.1 结构化数据 290
9.4.2 非结构化数据 293
9.5 常见问题解答 295
9.5.1 何时应将分类变量进行虚拟化,而不是将它们保留为单独的列 295
9.5.2 如何确定是否需要处理数据中的偏见 297
9.6 其他特征工程技术 298
9.6.1 分类虚拟桶化 298
9.6.2 将学到的特征与传统特征结合 300
9.6.3 其他原始数据向量化器 305
9.7 扩展阅读 306
9.8 本章小结 307
|
內容試閱:
|
本书旨在介绍流行的特征工程技术,讨论何时以及如何运用这些技术的框架。我发现,有些书籍只关注其中一方面,有时可能显得有些单薄。专注于概述的书籍往往忽略了实际应用的一面,而专注于框架的书籍可能让读者产生疑问:“为什么这样做有效呢?”我希望读者在理解和应用这些技术方面都能充满信心。
本书目标读者
本书面向已经踏入机器学习领域并寻求提升能力与技能的机器学习工程师和数据科学家。假设读者已经掌握机器学习、交叉验证、参数调优以及使用Python 和scikit-learn 进行模型训练的基础知识。
本书在此基础上进一步拓展,将特征工程流程直接融入现有的机器学习框架中,以提供更深入的学习体验。
本书的学习路线图
本书包含两个导论性章节(第1~2 章),涵盖了特征工程的基础知识,包括如何识别不同类型的数据以及特征工程的不同类别。第3~8 章的每一章都专注于一个具体的案例研究,使用不同的数据集和目标。每章都为读者提供一个新的视角、一个新的数据集以及特定于我们处理的数据类型的新的特征工程技术。本书的目标是提供关于特征工程技术种类的广泛而全面的知识,同时展示各种数据集和数据类型。
关于代码
本书涵盖了许多源代码示例,它们以编号的代码清单和正常文本行的形式呈现。在两种情况下,源代码都采用等宽字体的格式,以便与普通文本区分开来。有时,代码也以粗体显示,用于突出显示在相应章中与之前步骤不同的代码,例如当新特性添加到现有代码行时。
许多情况下,源代码经过重新格式化;我们添加了换行符并重新调整了缩进,以适应书中可用的页面空间。某些情况下,这样做仍不够,代码清单中会包含续行标记(?)。代码清单中附带了许多注释,用于突出显示重要的概念。
可扫描封底二维码下载代码。
|
|