新書推薦:
《
治盗之道:清代盗律的古今之辨
》
售價:NT$
556.0
《
甲骨文丛书·剑桥世界暴力史(第一卷):史前和古代世界(套装全2册)
》
售價:NT$
959.0
《
甲骨文丛书·中华早期帝国:秦汉史的重估
》
售價:NT$
1367.0
《
欲望与家庭小说
》
售價:NT$
449.0
《
惜华年(全两册)
》
售價:NT$
320.0
《
甲骨文丛书·古代中国的军事文化
》
售價:NT$
454.0
《
中国王朝内争实录(套装全4册):从未见过的王朝内争编著史
》
售價:NT$
1112.0
《
半导体纳米器件:物理、技术和应用
》
售價:NT$
806.0
|
編輯推薦: |
内容深入浅出,既有对基础知识点的讲解,也涉及关键问题和重点、难点的分析和解决。
具有超强的实用性,实例丰富。前11章理论部分都提供了一个小的实例,后8章提供了综合项目实例,让读者理解概念、原理和算法。
以理论与实践相结合为出发点,介绍Python机器学习实战中的相关内容,使零基础读者也可以快速上手。
|
內容簡介: |
本书以机器学习算法为主题,详细介绍算法的理论细节与应用方法。全书共19章,分别介绍了逻辑回归与*熵模型、k-近邻模型、决策树模型、朴素贝叶斯模型、支持向量机模型、集成学习框架、EM算法、降维算法、聚类算法、神经网络模型等基础模型或算法,以及8个综合项目实例:汽车运动学片段分类、垃圾信息识别、乳腺癌识别、波士顿房价预测、生成动漫人物、鸢尾花分类、人脸识别、保险行为数据用户分类器。本书重视理论与实践相结合,希望为读者提供全面而细致的学习指导。 本书适合机器学习初学者、相关行业从业人员以及高等院校计算机科学、软件工程等相关专业的师生阅读。
|
關於作者: |
吕云翔,1986-1992: 北方交通大学讲师; 1992-1994: 比利时VUB大学应用信息技术硕士; 1994-1996: 比利时VUB大学MBA; 1996-2003: IT公司项目经理 2003-至今: 北航软件学院副教授。已出版二十几本教材(其中“计算机导论实践教程”一书获北航2010年教学成果三等奖;
|
目錄:
|
第1章机器学习概述
资源下载
1.1机器学习的组成
1.2分类问题及回归问题
1.3监督学习、半监督学习和无监督学习
1.4生成模型及判别模型
1.5模型评估
1.5.1训练误差及泛化误差
1.5.2过拟合及欠拟合
1.6正则化
1.7Scikitlearn模块
1.7.1数据集
1.7.2模型选择
第2章逻辑回归及熵模型
2.1线性回归
2.1.1一元线性回归
2.1.2多元线性回归
2.2广义线性回归
2.2.1逻辑回归
2.2.2多分类逻辑回归
2.2.3交叉熵损失函数
2.3熵模型
2.3.1熵模型的导出
2.3.2熵模型与逻辑回归之间的关系
2.4评价指标
2.4.1混淆矩阵
2.4.2准确率
2.4.3精确率与召回率
2.4.4PR曲线
2.4.5ROC曲线与AUC曲线
2.5实例: 基于逻辑回归实现乳腺癌预测
第3章k近邻算法
3.1k值的选取
3.2距离的度量
3.3快速检索
3.4实例: 基于k近邻算法实现鸢尾花分类
第4章决策树
4.1特征选择
4.1.1信息增益
4.1.2信息增益比
4.2决策树生成算法CART
4.3决策树剪枝
4.3.1预剪枝
4.3.2后剪枝
4.4实例: 基于决策树实现葡萄酒分类
第5章朴素贝叶斯分类器
5.1极大似然估计
5.2朴素贝叶斯分类
5.3拉普拉斯平滑
5.4朴素贝叶斯分类器的极大似然估计解释
5.5实例: 基于朴素贝叶斯实现垃圾短信分类
第6章支持向量机
6.1间隔及超平面
6.2线性可分支持向量机
6.3线性支持向量机
6.4合页损失函数
6.5核技巧
6.6二分类问题与多分类问题
6.6.1一对一
6.6.2一对多
6.6.3多对多
6.7实例: 基于支持向量机实现葡萄酒分类
第7章集成学习
7.1偏差与方差
7.2Bagging及随机森林
7.2.1Bagging
7.2.2随机森林
7.3Boosting及AdaBoost
7.3.1Boosting
7.3.2AdaBoost
7.4提升树
7.4.1残差提升树
7.4.2GBDT
7.4.3XGBoost
7.5Stacking
7.6实例: 基于梯度下降树实现波士顿房价预测
第8章EM算法及其应用
8.1Jensen不等式
8.2EM算法
8.3高斯混合模型GMM
8.4隐马尔可夫模型
8.4.1计算观测概率的输出
8.4.2估计隐马尔可夫模型的参数
8.4.3隐变量序列预测
8.5实例: 基于高斯混合模型实现鸢尾花分类
第9章降维
9.1主成分分析
9.1.1方差即协方差的无偏估计
9.1.2实例: 基于主成分分析实现鸢尾花数据降维
9.2奇异值分解
9.2.1奇异值分解的构造
9.2.2奇异值分解用于数据压缩
9.2.3SVD与PCA的关系
9.2.4奇异值分解的几何解释
9.2.5实例: 基于奇异值分解实现图片压缩
第10章聚类
10.1距离度量
10.1.1闵可夫斯基距离
10.1.2余弦相似度
10.1.3马氏距离
10.1.4汉明距离
10.2层次聚类
10.3KMeans聚类
10.4KMedoids聚类
10.5DBSCAN
10.6实例: 基于KMeans实现鸢花聚类
第11章神经网络与深度学习
11.1神经元模型
11.2多层感知机
11.3损失函数
11.4反向传播算法
11.4.1梯度下降法
11.4.2梯度消失及梯度爆炸
11.5卷积神经网络
11.5.1卷积
11.5.2池化
11.5.3网络架构
11.6循环神经网络
11.7生成对抗网络
11.8图卷积神经网络
11.9深度学习发展
11.10实例: 基于卷积神经网络实现手写数字识别
11.10.1MNIST数据集
11.10.2基于卷积神经网络的手写数字识别
第12章实战: 基于KMeans算法的汽车行驶运动学片段的分类
12.1样本聚类
12.1.1SSE
12.1.2轮廓分析
12.2汽车行驶运动学片段的提取
12.3基于KMeans的汽车行驶运动学片段分类
第13章实战: 从零实现朴素贝叶斯分类器用于垃圾信息识别
13.1算法流程
13.2数据集载入
13.3朴素贝叶斯模型
13.3.1构造函数设计
13.3.2数据预处理
13.3.3模型训练
13.3.4测试集预测
13.3.5主函数实现
第14章实战: 基于逻辑回归算法进行乳腺癌的识别
14.1数据集加载
14.2Logistic模块
14.3模型评价
第15章实战: 基于线性回归、决策树和SVM进行鸢尾花分类
15.1使用Logistic实现鸢尾花分类
15.2使用决策树实现鸢尾花分类
15.3使用SVM实现鸢尾花分类
第16章实战: 基于多层感知机模型和随机森林模型的波士顿房价预测
16.1使用MLP实现波士顿房价预测
16.2使用随机森林模型实现波士顿房价预测
第17章实战: 基于生成式对抗网络生成动漫人物
17.1生成动漫人物任务概述
17.2反卷积网络
17.3DCGAN
17.4基于DCGAN的动漫人物生成
第18章实战: 基于主成分分析法、随机森林算法和SVM算法的人脸识别问题
18.1数据集介绍与分析
18.2LBP算子
18.3提取图片特征
18.4基于随机森林算法的人脸识别问题
18.5基于SVM算法的人脸识别问题
第19章实战: 使用多种机器学习算法实现基于用户行为数据的用户分类器
19.1基于机器学习的分类器的技术概述
19.2工程数据的提取聚合和存储
19.2.1数据整合的逻辑流程
19.2.2Sqoop数据同步
19.2.3基于Hive的数据仓库
19.2.4基于Azkaban的数据仓库的调度任务
19.2.5数据仓库的数据集成和数据清洗
19.2.6整合后的数据表
19.3数据展示和分析
19.3.1数据集的选取和业务背景的描述
19.3.2各维度信息详细说明
19.3.3各维度数据的描述性统计
19.3.4各维度数据的可视化
19.4特征工程
19.4.1标准化
19.4.2区间缩放
19.4.3归一化
19.4.4对定性特征进行onehot编码
19.4.5缺失值填补
19.4.6数据倾斜
19.5模型训练和结果评价
19.5.1构造模型思路
19.5.2模型训练的流程
19.5.3KFold交叉验证
19.6各分类器模型的训练和结果评价
19.6.1利用Python的sklearn包进行模型训练的过程梳理
19.6.2逻辑斯谛分类模型的训练和结果评价
19.6.3小近邻算法模型的训练和结果评价
19.6.4线性判别分析模型的训练和结果评价
19.6.5朴素贝叶斯算法的模型的训练和结果评价
19.6.6决策树模型的训练和结果评价
19.6.7支持向量机模型的训练和结果评价
19.7模型提升——集成分类器
19.7.1Boosting提升算法
19.7.2AdaBoost提升算法
19.7.3AdaBoost实现过程及实验结果
附录A用户历史充值情况数据表
附录B用户各类订单余额情况
附录C各省用户收到公示消息后的充值情况
参考文献
|
內容試閱:
|
从计算机被发明的那一刻起,人们便一直在尝试打造一台可以思考的计算机,人工智能应运而生。机器学习技术作为人工智能的核心,不断发展,成为目前前沿的研究领域之一。与此同时,人脸美颜、智能语音助手、商品推荐系统、自动驾驶等众多智能产品也在悄然间改变着我们的生活。可以说,人类社会正被机器学习带领着,迎来信息技术的一次新的革命。
为了帮助读者深入理解机器学习原理,本书以机器学习算法为主题,详细介绍了算法中涉及的数学理论。此外,本书注重机器学习的实际应用,在理论介绍中穿插项目实例,帮助读者掌握机器学习研究的方法。
本书共分为19章。第1章为概述,主要介绍了机器学习的概念、组成、分类、模型评估方法,以及sklearn模块的基础知识。第2~6章分别介绍了分类和回归问题的常见模型,包括逻辑回归与熵模型、k近邻模型、决策树模型、朴素贝叶斯模型、支持向量机模型。每章后均以一个实例结尾,使用sklearn模块实现。第7章介绍集成学习框架,包括Bagging、Boosting以及Stacking的基本思想和具体算法。第8~10章主要介绍无监督算法,包括EM算法、降维算法以及聚类算法。第11章介绍神经网络与深度学习,包括卷积神经网络、循环神经网络、生成对抗网络、图卷积神经网络等基础网络。第7~11章均以一个实例结尾。第12~18章包含7个综合项目实战,帮助读者理解前面各章所讲内容。第19章使用多种机器学习算法实现了一个用户行为分类器,通过算法间的对比帮助读者深入掌握算法细节。
第12~19章提供视频讲解,可扫描对应章节二维码进行观看。数据集、源代码可扫描目录处二维码下载。
机器学习是一门交叉学科,涉及概率论、统计学、凸优化等多个学科或分支,发展过程中还受到了生物学、经济学的启发,这样的特性决定了机器学习具有广阔的发展前景。但也正因如此,想要在短时间内“速成”机器学习几乎是不现实的。本书希望带领读者从基础出发,由浅入深,逐步掌握机器学习的常见算法。在此基础上,读者将有能力根据实际问题决定使用何种算法,甚至可以查阅有关算法的文献,为产品研发或项目研究铺平道路。
为了更好地专注于机器学习的介绍,书中涉及的数学和统计学基础理论(如矩阵论、概率分布等)不会过多介绍。因此,如果读者希望完全理解书中的理论推导,还需要对统计学、数学相关知识有一定的了解。书中的项目实例全部使用Python实现,需要读者在阅读以前对Python编程语言及其科学计算模块(如NumPy、SciPy等)有一定的了解。
本书的作者为吕云翔、王渌汀、袁琪、张凡、韩雪婷,曾洪立参与了部分内容的编写及资料整理工作。
由于我们的水平和能力有限,书中难免有疏漏之处。恳请各位同仁和广大读者给予批评指正。
编者2021年5月于北京
|
|