新書推薦:
《
人工智能与大数据:采煤机智能制造
》
售價:NT$
440.0
《
新民说·逝去的盛景:宋朝商业文明的兴盛与落幕(上下册)
》
售價:NT$
790.0
《
我从何来:自我的心理学探问
》
售價:NT$
545.0
《
失败:1891—1900 清王朝的变革、战争与排外
》
售價:NT$
390.0
《
万千心理·我的精神分析之道:复杂的俄狄浦斯及其他议题
》
售價:NT$
475.0
《
荷马:伊利亚特(英文)-西方人文经典影印21
》
售價:NT$
490.0
《
我的心理医生是只猫
》
售價:NT$
225.0
《
股权控制战略:如何实现公司控制和有效激励(第2版)
》
售價:NT$
449.0
編輯推薦:
图书特色:
◆ 本书在详明实例的引导下,清晰阐述每个主题,将重点放在算法上;本书详细解释所涉及的数学基础知识,这样,即便你没有很强的数学或统计学背景,同样可理解本书的内容。
◆ 每章末尾提供练习题,供读者检验自己的知识掌握水平。附录中列出完整的术语表。
◆ 本书面向计算机科学、商业研究、市场营销、人工智能、生物信息学和法医学专业的学生,可用作本科和研究生教材。
內容簡介:
《数据挖掘原理第3版》深入探讨重要的数据挖掘技术。所谓数据挖掘,即从数据中自动提取隐含和潜在有用的信息;该技术正越来越多地用于商业、科学和其他应用领域。本书浓墨重彩地描述分类、关联规则挖掘和聚类。
普通读者可通过本书自学数据挖掘黑匣子内部的基本原理,并了解如何合理地选择商业数据挖掘包。学者和资深科研人员可通过本书了解*前沿技术并进一步推动该领域的发展。
《数据挖掘原理第3版》在第2版的基础上进行扩展,透彻讲解适用于平稳数据的H-Tree算法,以及适用于时间相关数据概念漂移的CDH-Tree算法。
關於作者:
Max Bramer是英国朴次茅斯大学信息技术系荣誉教授、IFIP副主席、英国计算机学会AI专家组主席。
自从 数据挖掘数据库中的知识发现大数据和预测分析等技术兴起以来,Max积极参与了多个数据挖掘项目,尤其是与数据自动分类相关的项目。
Max发表了大量技术文章,曾撰写Research and Development in Intelligent Systems等著作。Max具有多年的本科和研究生教学经验。
目錄 :
目录
第 1 章 数据挖掘简介1
1.1 数据爆炸1
1.2 知识发现2
1.3 数据挖掘的应用3
1.4 标签和无标签数据4
1.5 监督学习:分类4
1.6 监督学习:数值预测5
1.7 无监督学习:关联规则6
1.8 无监督学习:聚类7
第 2 章 用于挖掘的数据9
2.1 标准制定9
2.2 变量的类型10
2.3 数据准备11
2.4 缺失值13
2.4.1 丢弃实例13
2.4.2 用最频繁值平均值替换13
2.5 减少属性个数14
2.6 数据集的UCI存储库15
2.7 本章小结15
2.8 自我评估练习15
第 3 章 分类简介:朴素贝叶斯和最近邻算法17
3.1 什么是分类17
3.2 朴素贝叶斯分类器18
3.3 最近邻分类24
3.3.1 距离测量26
3.3.2 标准化28
3.3.3 处理分类属性29
3.4 急切式和懒惰式学习30
3.5 本章小结30
3.6 自我评估练习30
第 4 章 使用决策树进行分类31
4.1 决策规则和决策树31
4.1.1 决策树:高尔夫示例31
4.1.2 术语33
4.1.3 degrees数据集33
4.2 TDIDT算法36
4.3 推理类型38
4.4 本章小结38
4.5 自我评估练习39
第 5 章 决策树归纳:使用熵进行属性选择41
5.1 属性选择:一个实验41
5.2 替代决策树42
5.2.1 足球无板篮球示例42
5.2.2 匿名数据集44
5.3 选择要分裂的属性:使用熵46
5.3.1 lens24数据集46
5.3.2 熵47
5.3.3 使用熵进行属性选择48
5.3.4 信息增益最大化50
5.4 本章小结51
5.5 自我评估练习51
第 6 章 决策树归纳:使用频率表进行属性选择53
6.1 实践中的熵计算53
6.1.1 等效性证明55
6.1.2 关于零值的说明56
6.2 其他属性选择标准:多样性基尼指数56
6.3 2属性选择准则57
6.4 归纳偏好60
6.5 使用增益比进行属性选择61
6.5.1 分裂信息的属性62
6.5.2 总结63
6.6 不同属性选择标准生成的规则数63
6.7 缺失分支64
6.8 本章小结65
6.9 自我评估练习65
第 7 章 估计分类器的预测精度67
7.1 简介67
7.2 方法1:将数据划分为训练集和测试集68
7.2.1 标准误差68
7.2.2 重复训练和测试69
7.3 方法2:k-折交叉验证70
7.4 方法3:N -折交叉验证70
7.5 实验结果I71
7.6 实验结果II:包含缺失值的数据集73
7.6.1 策略1:丢弃实例73
7.6.2 策略2:用最频繁值平均值替换74
7.6.3 类别缺失75
7.7 混淆矩阵75
7.8 本章小结77
7.9 自我评估练习77
第 8 章 连续属性79
8.1 简介79
8.2 局部与全局离散化81
8.3 向TDIDT添加局部离散化81
8.3.1 计算一组伪属性的信息增益82
8.3.2 计算效率86
8.4 使用ChiMerge算法进行全局离散化88
8.4.1 计算期望值和290
8.4.2 查找阈值94
8.4.3 设置minIntervals和maxIntervals95
8.4.4 ChiMerge算法:总结96
8.4.5 对ChiMerge算法的评述96
8.5 比较树归纳法的全局离散化和局部离散化97
8.6 本章小结98
8.7 自我评估练习98
第 9 章 避免决策树的过度拟合99
9.1 处理训练集中的冲突99
9.2 关于过度拟合数据的更多规则103
9.3 预剪枝决策树104
9.4 后剪枝决策树106
9.5 本章小结111
9.6 自我评估练习111
第 10 章 关于熵的更多信息113
10.1 简介113
10.2 使用位的编码信息116
10.3 区分值117
10.4 对非等可能的值进行编码118
10.5 训练集的熵121
10.6 信息增益必须为正数或零122
10.7 使用信息增益来简化分类任务的特征123
10.7.1 示例1:genetics数据集124
10.7.2 示例2:bcst96数据集126
10.8 本章小结128
10.9 自我评估练习128
第 11 章 归纳分类的模块化规则129
11.1 规则后剪枝129
11.2 冲突解决130
11.3 决策树的问题133
11.4 Prism算法135
11.4.1 基本Prism算法的变化141
11.4.2 将Prism算法与TDIDT算法进行比较142
11.5 本章小结143
11.6 自我评估练习143
第 12 章 度量分类器的性能145
12.1 真假正例和真假负例146
12.2 性能度量147
12.3 真假正例率与预测精度150
12.4 ROC图151
12.5 ROC曲线153
12.6 寻找最佳分类器153
12.7 本章小结155
12.8 自我评估练习155
第 13 章 处理大量数据157
13.1 简介157
13.2 将数据分发到多个处理器159
13.3 案例研究:PMCRI161
13.4 评估分布式系统PMCRI的有效性163
13.5 逐步修改分类器167
13.6 本章小结171
13.7 自我评估练习171
第 14 章 集成分类173
14.1 简介173
14.2 估计分类器的性能175
14.3 为每个分类器选择不同的训练集176
14.4 为每个分类器选择一组不同的属性177
14.5 组合分类:替代投票系统177
14.6 并行集成分类器180
14.7 本章小结181
14.8 自我评估练习181
第 15 章 比较分类器183
15.1 简介183
15.2 配对t检验184
15.3 为比较评估选择数据集189
15.4 抽样191
15.5 无显著差异的结果有多糟糕?193
15.6 本章小结194
15.7 自我评估练习194
第 16 章 关联规则挖掘I195
16.1 简介195
16.2 规则兴趣度的衡量标准196
16.2.1 Piatetsky-Shapiro标准和RI度量198
16.2.2 规则兴趣度度量应用于chess数据集200
16.2.3 使用规则兴趣度度量来解决冲突201
16.3 关联规则挖掘任务202
16.4 找到最佳N条规则202
16.4.1 J-Measure:度量规则的信息内容203
16.4.2 搜索策略204
16.5 本章小结207
16.6 自我评估练习207
第 17 章 关联规则挖掘II209
17.1 简介209
17.2 事务和项目集209
17.3 对项目集的支持211
17.4 关联规则211
17.5 生成关联规则213
17.6 Apriori214
17.7 生成支持项目集:一个示例217
17.8 为支持项目集生成规则219
17.9 规则兴趣度度量:提升度和杠杆率220
17.10 本章小结222
17.11 自我评估练习222
第 18 章 关联规则挖掘III:频繁模式树225
18.1 简介:FP-growth225
18.2 构造FP-tree227
18.2.1 预处理事务数据库227
18.2.2 初始化229
18.2.3 处理事务1:f, c, a, m, p230
18.2.4 处理事务2:f, c, a, b, m231
18.2.5 处理事务3:f, b235
18.2.6 处理事务4:c, b, p236
18.2.7 处理事务5:f, c, a, m, p236
18.3 从FP-tree中查找频繁项目集238
18.3.1 以项目p结尾的项目集240
18.3.2 以项目m结尾的项目集248
18.4 本章小结254
18.5 自我评估练习254
第 19 章 聚类255
19.1 简介255
19.2 k-means聚类257
19.2.1 示例258
19.2.2 找到最佳簇集262
19.3 凝聚式层次聚类263
19.3.1 记录簇间距离265
19.3.2 终止聚类过程268
19.4 本章小结268
19.5 自我评估练习268
第 20 章 文本挖掘269
20.1 多重分类269
20.2 表示数据挖掘的文本文档270
20.3 停用词和词干271
20.4 使用信息增益来减少特征272
20.5 表示文本文档:构建向量空间模型272
20.6 规范权重273
20.7 测量两个向量之间的距离274
20.8 度量文本分类器的性能275
20.9 超文本分类275
20.9.1 对网页进行分类276
20.9.2 超文本分类与文本分类277
20.10 本章小结279
20.11 自我评估练习280
第 21 章 分类流数据281
21.1 简介281
21.2 构建H-Tree:更新数组283
21.2.1 currentAtts数组284
21.2.2 splitAtt数组284
21.2.3 将记录排序到适当的叶节点284
21.2.4 hitcount数组285
21.2.5 classtotals数组285
21.2.6 acvCounts阵列285
21.2.7 branch数组286
21.3 构建H-Tree:详细示例287
21.3.1 步骤1:初始化根节点0287
21.3.2 步骤2:开始读取记录287
21.3.3 步骤3:考虑在节点0处分裂288
21.3.4 步骤4:在根节点上拆分并初始化新的叶节点289
21.3.5 步骤5:处理下一组记录290
21.3.6 步骤6:考虑在节点2处分裂292
21.3.7 步骤7:处理下一组记录292
21.3.8 H-Tree算法概述293
21.4 分裂属性:使用信息增益295
21.5 分裂属性:使用Hoeffding边界297
21.6 H-Tree算法:最终版本300
21.7 使用不断进化的H-Tree进行预测302
21.8 实验:H-Tree与TDIDT304
21.8.1 lens24数据集304
21.8.2 vote数据集306
21.9 本章小结307
21.10 自我评估练习307
第 22 章 分类流数据II:时间相关数据309
22.1 平稳数据与时间相关数据309
22.2 H-Tree算法总结311
22.2.1 currentAtts数组312
22.2.2 splitAtt数组312
22.2.3 hitcount数组312
22.2.4 classtotals数组312
22.2.5 acvCounts数组313
22.2.6 branch数组313
22.2.7 H-Tree算法的伪代码313
22.3 从H-Tree到CDH-Tree:概述315
22.4 从H-Tree转换到CDH-Tree:递增计数315
22.5 滑动窗口法316
22.6 在节点处重新分裂320
22.7 识别可疑节点320
22.8 创建备用节点322
22.9 成长遗忘备用节点及其后代325
22.10 用备用节点替换一个内部节点327
22.11 实验:跟踪概念漂移333
22.11.1 lens24数据:替代模式335
22.11.2 引入概念漂移335
22.11.3 使用交替lens24数据的实验336
22.11.4 关于实验的评论343
22.12 本章小结343
22.13 自我评估练习343
附录 A 基本数学知识345
附录 B 数据集357
附录 C 更多信息来源371
附录 D 词汇表和符号373
附录 E 自我评估练习题答案391
参考文献419
內容試閱 :
前言
《数据挖掘原理第3版》面向计算机科学、商业研究、市场营销、人工智能、生物信息学和法医学专业的学生,可用作本科生或硕士研究生的入门教材。同时,对于那些希望进一步提高自身能力的技术或管理人员来说,《数据挖掘原理第3版》也是一本极佳的自学书籍。《数据挖掘原理第3版》所涉及的内容远超一般的数据挖掘入门书籍。与许多其他书籍不同的是,在学习过程中你不需要拥有太多的数学知识即可理解相关内容。
数学是一种可以表达复杂思想的语言。遗憾的是,99%的人都无法很好地掌握这门语言;很多人很早就开始在学校学习一些基础知识,但学习过程往往充满曲折。
《数据挖掘原理第3版》涉及数学公式较少,将重点介绍相关概念。但遗憾的是,完全不使用数学符号是不可能的。附录A给出开始学习《数据挖掘原理第3版》需要掌握的所有内容。对于那些在学校学习数学的人来说,这些内容应该是非常熟悉的。掌握这些内容后,其他内容就较好理解了。如果觉得某些数学符号难以理解,通常可放心地忽略它们,只需要关注结果和给出的详细示例即可。而对于那些希望更深入理解数据挖掘的数学基础知识的人来说,可参考附录C中列出的内容。
过去,没有一本关于数据挖掘的入门书可使你具备该领域的研究水平但现在,这样的日子已经过去了。 《数据挖掘原理第3版》的重点是介绍基本技术,而不是展示当今最新的数据挖掘技术,因为大多数情况下,当拿到一《数据挖掘原理第3版》时,书中介绍的技术可能已被其他更新的技术取代了。一旦掌握了基本技术,你可通过多种渠道来了解该领域的最新进展。附录C列出一些常用资源,而其他附录包括有关《数据挖掘原理第3版》示例中使用的主要数据集的信息,供你在自己的项目中使用。此外附录D包括技术术语表。
为便于检查对所学知识的掌握情况,每章都包含自我评估练习。参考答案见附录E。
另外说明一下,《数据挖掘原理第3版》涉及大量数据集、属性和值,也涉及不少数学公式,字母繁多,格式复杂。为保证全书的科学性和严谨性,中文书中,字母的正斜体与英文原书基本保持统一。
书末列出全书各章正文中引用的参考文献。读者在阅读正文时,会不时看到引用;引用的形式为[*],其中*为数字编号。遇到此类引用时,读者可跳转到书末,查阅相关信息。