新書推薦:
《
英国商业500年(见证大国崛起与企业兴衰,启迪未来商业智慧。)
》
售價:NT$
367.0
《
万千心理·儿童心理治疗中的心智化:临床实践指导
》
售價:NT$
398.0
《
自我囚禁的人:完美主义的心理成因与自我松绑(破除你对完美主义的迷思,尝试打破自我评价过低与焦虑的恶性循环)
》
售價:NT$
301.0
《
周易
》
售價:NT$
203.0
《
东南亚的传统与发展
》
售價:NT$
306.0
《
乾隆制造
》
售價:NT$
398.0
《
资治通鉴臣光曰辑存 资治通鉴目录(司马光全集)(全二册)
》
售價:NT$
1316.0
《
明代社会变迁时期生活质量研究
》
售價:NT$
1367.0
|
編輯推薦: |
1.本书内容属于前沿科学技术、机器学习范畴,是机器学习领域学者应学的新技术;
2.本书是集成学习国内首本引进版图书;
3.本书内容精炼,全书都是干货,没有冗余的铺垫,读者可以轻松阅读;
4.本书附有代码和算法逻辑框图;
5.本书包含集成学习的基础知识,集成学习技术、集成学习库和实战应用。
|
內容簡介: |
《集成学习入门与实战:原理、算法与应用》通过6章内容全面地解读了集成学习的基础知识、集成学习技术、集成学习库和实践应用。其中集成学习技术包括采样、Bagging、投票集成、Boosting、AdaBoost、梯度提升、XGBoost、Stacking、随机森林、决策树等,从混合训练数据到混合模型,再到混合组合,逻辑严谨、逐步讲解;同时也对ML-集成学习、Dask、LightGBM、AdaNet等集成学习库相关技术进行了详细解读;后通过相关实践对集成学习进行综合性应用。本书配有逻辑框图、关键代码及代码分析,使读者在阅读中能够及时掌握算法含义和对应代码。
本书适合集成学习的初学者和机器学习方向的从业者和技术人员阅读学习,也适合开设机器学习等算法课程的高等院校师生使用。
|
目錄:
|
第1章 为什么需要集成学习 001
1.1 混合训练数据 003
1.2 混合模型 004
1.3 混合组合 008
1.4 本章小结 009
第2章 混合训练数据 011
2.1 决策树 013
2.2 数据集采样 018
2.2.1 不替换采样(WOR) 018
2.2.2 替换采样(WR) 019
2.3 Bagging(装袋算法) 021
2.3.1 k重交叉验证 024
2.3.2 分层的k重交叉验证 026
2.4 本章小结 028
第3章 混合模型 029
3.1 投票集成 030
3.2 硬投票 031
3.3 均值法/软投票 033
3.4 超参数调试集成 036
3.5 水平投票集成 038
3.6 快照集成 044
3.7 本章小结 046
第4章 混合组合 047
4.1 Boosting(提升算法) 048
4.1.1 AdaBoost(自适应提升算法) 049
4.1.2 Gradient Boosting(梯度提升算法) 051
4.1.3 XGBoost(梯度提升算法) 053
4.2 Stacking(堆叠算法) 055
4.3 本章小结 058
第5章 集成学习库 059
5.1 ML-集成学习 060
5.1.1 多层集成 063
5.1.2 集成模型的选择 064
5.2 通过Dask扩展XGBoost 069
5.2.1 Dask数组与数据结构 071
5.2.2 Dask-ML 076
5.2.3 扩展XGBoost 079
5.2.4 微软LightGBM 082
5.2.5 AdaNet 088
5.3 本章小结 090
第6章 实践指南 092
6.1 基于随机森林的特征选择 093
6.2 基于集成树的特征转换 096
6.3 构建随机森林分类器预处理程序 103
6.4 孤立森林进行异常点检测 110
6.5 使用Dask库进行集成学习处理 114
6.5.1 预处理 115
6.5.2 超参数搜索 117
6.6 本章小结 121
致谢 122
|
內容試閱:
|
集成学习正迅速成为数据科学界机器学习模型的热门选择。集成方法通过多种有趣方式组合了机器学习模型的输出。即使从事机器学习工作多年的工程师,仍然有可能认识不到集成方法的强大之处,因为在大多数机器学习课程和书籍中,这个主题通常被忽略或仅给出简短的概述。
Kaggle是一个有竞争性的机器学习平台,对机器学习技术进行了公正的评价。在过去的几年里,集成方法始终优于其他学习方法,这本身就诠释了集成学习技术所带来的好处。本书目的在于帮助读者了解集成学习技术,并在实际工作中有效地应用它。
本书第1章首先解释为什么需要集成学习,并对各种集成技术形成基本的理解。第2章、第3章和第4章涵盖了各种集成技术,并按照混合训练数据、混合模型和混合组合的顺序分别进行了阐述。在这些章节中,将认识到一些重要的集成学习技术,如随机森林、Bagging、Stacking和交叉验证方法等。第5章介绍了集成学习库,这些数据库有利于加快训练速度。第6章介绍了将集成技术融入实际机器学习工作流的方法。
本书提出了一个简明、易于理解的方法来学习集成学习技术实际应用案例,无需数据模型初学者进行反复的学习。本书中的代码(Python脚本)可以作为程序的延伸和参考。
|
|