新書推薦:
《
失败:1891—1900 清王朝的变革、战争与排外
》
售價:NT$
390.0
《
万千心理·我的精神分析之道:复杂的俄狄浦斯及其他议题
》
售價:NT$
475.0
《
荷马:伊利亚特(英文)-西方人文经典影印21
》
售價:NT$
490.0
《
我的心理医生是只猫
》
售價:NT$
225.0
《
股权控制战略:如何实现公司控制和有效激励(第2版)
》
售價:NT$
449.0
《
成吉思汗传:看历代帝王将相谋略 修炼安身成事之根本
》
售價:NT$
280.0
《
爱丁堡古罗马史-罗马城的起源和共和国的崛起
》
售價:NT$
349.0
《
人生解忧:佛学入门四十讲
》
售價:NT$
490.0
|
內容簡介: |
本书是数据挖掘和机器学习领域的经典畅销教材,被国内外众多名校选用。第4版新增了关于深度学习和概率方法的重要章节,同时,备受欢迎的机器学习软件Weka也再度升级。书中全面覆盖了该领域的实用技术,致力于帮助读者理解不同技术的工作方式和应用方式,从而学会在工程实践和商业项目中解决真实问题。本书适合作为高等院校相关课程的教材,同时也适合业内技术人员阅读参考。
|
目錄:
|
目录
Data Mining: Practical Machine Learning Tools and Techniques, Fourth Edition
译者序
前言
致谢
第一部分 数据挖掘基础
第1章 绪论2
1.1 数据挖掘和机器学习2
1.1.1 描述结构模式3
1.1.2 机器学习5
1.1.3 数据挖掘6
1.2 简单的例子:天气问题和其他问题6
1.2.1 天气问题6
1.2.2 隐形眼镜:一个理想化的问题8
1.2.3 鸢尾花:一个经典的数值型数据集9
1.2.4 CPU性能:引入数值预测10
1.2.5 劳资协商:一个更真实的例子11
1.2.6 大豆分类:一个经典的机器学习的成功例子12
1.3 应用领域14
1.3.1 Web挖掘14
1.3.2 包含判断的决策15
1.3.3 图像筛选15
1.3.4 负载预测16
1.3.5 诊断17
1.3.6 市场和销售17
1.3.7 其他应用18
1.4 数据挖掘过程19
1.5 机器学习和统计学20
1.6 将泛化看作搜索21
1.6.1 枚举概念空间22
1.6.2 偏差22
1.7 数据挖掘和道德问题24
1.7.1 再识别24
1.7.2 使用个人信息25
1.7.3 其他问题26
1.8 拓展阅读及参考文献26
第2章 输入:概念、实例和属性29
2.1 概念29
2.2 实例31
2.2.1 关系31
2.2.2 其他实例类型34
2.3 属性35
2.4 输入准备36
2.4.1 数据收集37
2.4.2 ARFF格式37
2.4.3 稀疏数据39
2.4.4 属性类型40
2.4.5 缺失值41
2.4.6 不正确的值42
2.4.7 非均衡数据42
2.4.8 了解数据43
2.5 拓展阅读及参考文献43
第3章 输出:知识表达44
3.1 表44
3.2 线性模型44
3.3 树46
3.4 规则49
3.4.1 分类规则49
3.4.2 关联规则52
3.4.3 包含例外的规则53
3.4.4 表达能力更强的规则54
3.5 基于实例的表达56
3.6 聚类58
3.7 拓展阅读及参考文献59
第4章 算法:基本方法60
4.1 推断基本规则60
4.2 简单概率模型63
4.2.1 缺失值和数值属性65
4.2.2 用于文档分类的朴素贝叶斯67
4.2.3 讨论68
4.3 分治法:创建决策树69
4.3.1 计算信息量71
4.3.2 高度分支属性73
4.4 覆盖算法:建立规则74
4.4.1 规则与树75
4.4.2 一个简单的覆盖算法76
4.4.3 规则与决策列表79
4.5 关联规则挖掘79
4.5.1 项集80
4.5.2 关联规则81
4.5.3 高效地生成规则84
4.6 线性模型86
4.6.1 数值预测:线性回归86
4.6.2 线性分类:logistic回归87
4.6.3 使用感知机的线性分类89
4.6.4 使用Winnow的线性分类90
4.7 基于实例的学习91
4.7.1 距离函数92
4.7.2 高效寻找最近邻92
4.7.3 讨论96
4.8 聚类96
4.8.1 基于距离的迭代聚类97
4.8.2 更快的距离计算98
4.8.3 选择簇的个数99
4.8.4 层次聚类100
4.8.5 层次聚类示例101
4.8.6 增量聚类102
4.8.7 分类效用104
4.8.8 讨论106
4.9 多实例学习107
4.9.1 聚集输入107
4.9.2 聚集输出107
4.10 拓展阅读及参考文献108
4.11 Weka实现109
第5章 可信度:评估学习结果111
5.1 训练和测试111
5.2 预测性能113
5.3 交叉验证115
5.4 其他评估方法116
5.4.1 留一交叉验证法116
5.4.2 自助法116
5.5 超参数选择117
5.6 数据挖掘方法比较118
5.7 预测概率121
5.7.1 二次损失函数121
5.7.2 信息损失函数122
5.7.3 讨论123
5.8 计算成本123
5.8.1 成本敏感分类125
5.8.2 成本敏感学习126
5.8.3 提升图126
5.8.4 ROC曲线129
5.8.5 召回率–精确率曲线130
5.8.6 讨论131
5.8.7 成本曲线132
5.9 评估数值预测134
5.10 最小描述长度原理136
5.11 将MDL原理应用于聚类138
5.12 使用验证集进行模型选择138
5.13 拓展阅读及参考文献139
第二部分 高级机器学习方案
第6章 树和规则144
6.1 决策树144
6.1.1 数值属性144
6.1.2 缺失值145
6.1.3 剪枝146
6.1.4 估计误差率147
6.1.5 决策树归纳法的复杂度149
6.1.6 从决策树到规则150
6.1.7 C4.5:选择和选项150
6.1.8 成本–复杂度剪枝151
6.1.9 讨论151
6.2 分类规则152
6.2.1 选择测试的标准152
6.2.2 缺失值和数值属性153
6.2.3 生成好的规则153
6.2.4 使用全局优化155
6.2.5 从局部决策树中获得规则157
6.2.6 包含例外的规则158
6.2.7 讨论160
6.3 关联规则161
6.3.1 建立频繁模式树161
6.3.2 寻找大项集163
6.3.3 讨论166
6.4 Weka 实现167
第7章 基于实例的学习和线性模型的扩展168
7.1 基于实例的学习168
7.1.1 减少样本集的数量168
7.1.2 对噪声样本集剪枝169
7.1.3 属性加权170
7.1.4 泛化样本集170
7.1.5 用于泛化样本集的距离函数171
7.1.6 泛化的距离函数172
7.1.7 讨论172
7.2 扩展线性模型173
7.2.1 最大间隔超平面173
7.2.2 非线性类边界
|
內容試閱:
|
前言
Data Mining: Practical Machine Learning Tools and Techniques, Fourth Edition
计算和通信的结合建立了一个以信息为基础的新领域。但绝大多数信息尚处于原始状态,即以数据形式存在的状态。假如我们将数据定义为被记录下来的事实,那么“信息”就是隐藏于这些记录事实的数据中的一系列模式或预期。在数据库中蕴藏了大量具有潜在重要性的信息,这些信息尚未被发现和利用,我们的任务就是将这些信息释放出来。
数据挖掘是将隐含的、尚不为人知的同时又是潜在有用的信息从数据中提取出来。为此我们编写计算机程序,自动在数据库中筛选有用的规律或模式。如果能发现一些明显的模式,则可以将其归纳出来,以对未来的数据进行准确预测。当然,数据挖掘结果中肯定会出现一些问题,比如许多模式可能是价值不大的或者没有实际意义的,还有一些可能是虚假的,或者是由于某些具体数据集的巧合而产生的。在现实世界中,数据是不完美的:有些被人为篡改,有些会丢失。我们观察到的所有东西都不是完全精确的:任何规律都有例外,并且总会出现不符合任何一个规律的实例。算法必须具有足够的健壮性以应付不完美的数据,并能提取出不精确但有用的规律。
机器学习为数据挖掘提供了技术基础,能够将信息从数据库的原始数据中提取出来,以可以理解的形式表达,并可用于多种用途。这是一种抽象化过程:如实地全盘接收现有数据,然后在此基础上推导出所有隐藏在这些数据中的结构。本书将介绍在数据挖掘实践中为了发现和描述数据中的结构模式而采用的机器学习工具与技术。
就像所有新兴技术都会受到商界的强烈关注一样,关于数据挖掘应用的报道可谓是铺天盖地。夸张的报道宣称通过设立学习算法就能从浩瀚的数据汪洋中发现那些神秘的规律,其实机器学习绝没有什么魔法,也没有什么隐藏的力量,更没有什么巫术,有的只是一些能将有用信息从原始数据中提取出来的简单和实用的技术。本书将介绍这些技术,并展示它们是如何工作的。
在许多应用中,机器学习使得从数据样本中获取结构描述成为可能。这种结构描述可用于预测、解释和理解。有些数据挖掘应用侧重于预测,即从数据所描述的过去预测将来在新情况下会发生什么,通常是预测新的样本分类。但也许人们更感兴趣的是,“学习”的结果是一个可以用来对样本进行分类的真实结构描述。这种结构描述不仅支持预测,也支持解释和理解。根据经验,在绝大多数数据挖掘实践应用中,用户感兴趣的莫过于掌握样本的本质。事实上,这是机器学习优于传统统计模型的一个主要优点。
本书诠释了多种多样的机器学习方法。其中部分出于方便教学的目的而仅仅罗列了一些简单方案,以清楚解释基本思想如何实现。其他则更多考虑到具体实现而列举了很多应用于实际工作中的真实系统。在这些方法中,有很多都是近几年发展起来的。
我们创建了一套综合软件以说明书中的思想。软件名称是怀卡托智能分析环境(Waikato
Environment for Knowledge Analysis),简称Weka,它的Java源代码参见www.cs.waikato.ac.nzmlweka。Weka几乎可以完整地、产业化地实现本书中所包含的所有技术。它包括了机器学习方法的说明性代码以及具体实现。针对一些简单技术,它提供了清楚而简洁的实例,以帮助理解机器学习中的相关机理。Weka还提供了一个工作平台,完整、实用、高水准地实现了很多流行的学习方案,这些方案能够运用于实际的数据挖掘项目或学术研究。最后,它还包括了一个形如Java类库的框架,这个框架支持嵌入式机器学习的应用乃至新学习方案的实现。
本书旨在介绍用于数据挖掘领域的机器学习工具和技术。读完本书后,你将对这些技术有所了解,并能体会到它们的功效和实用价值。如果你希望用自己的数据进行实验,用Weka就能轻松做到。但Weka绝不是唯一的选择,例如,免费统计计算环境R就包含许多机器学习算法。Python编程语言的爱好者可能更喜欢流行的scikit-learn库。用于分布式计算的现代“大数据”框架也支持机器学习,如Apache Spark。在实际应用中,部署机器学习的选择有很多。本书仅讨论基本的学习算法,没有深入研究特定软件的实现细节,但会在恰当的位置指出所讨论的算法可以在Weka软件的什么位置找到。本书还简要介绍了其他机器学习软件,如用于高维数据的“深度学习”。不过,大多数具体软件的信息被归纳到了附录中。
提供数据挖掘案例研究的商业书籍中往往涉及一些非常实用的方法,这些方法与当前机器学习教材中出现的更理论化、更原则化的方法之间存在鸿沟,本书跨越了这个鸿沟。这个鸿沟相当大,为了让机器学习技术应用得到成果,需要理解它们是如何工作的。这不是一种可以盲目应用而后便期待好结果出现的技术。不同的问题需要用不同的技术解决,但是根据实际问题来选择合适的技术并非易事,你需要知道到底有多少种可能的解决方案。本书所论及的技术范围相当广泛,并不囿于某种特定的商业软件或方案。书中给出了大量实例,但是展示实例所采用的数据集却小得足以让你搞清楚实例的整个过程。真实的数据集太大,不能做到这一点(而且真实数据集的获取常受限于商业机密)。本书所选择的
|
|