新書推薦:
《
浪潮将至
》
售價:NT$
395.0
《
在虚无时代:与马克斯·韦伯共同思考
》
售價:NT$
260.0
《
日内交易与波段交易的资金风险管理
》
售價:NT$
390.0
《
自然信息图:一目了然的万物奇观
》
售價:NT$
640.0
《
女性史:古代卷(真正意义上的女性大历史)
》
售價:NT$
560.0
《
跨代伴侣治疗
》
售價:NT$
440.0
《
心理治疗中的真意:心理治疗师的心灵之旅
》
售價:NT$
440.0
《
无冕之王:齐桓公与齐国崛起
》
售價:NT$
290.0
編輯推薦:
● 数据挖据与分析的入门书,针对初学者阐述所有关键概念,包括探索性数据分析、频繁模式挖掘、聚类和分类。 ● 兼顾前沿话题,例如核方法、高维数据分析、复杂图和网络等。 ● 提供算法对应的开源实现方法。 ● 每章均有丰富示例和练习,帮助读者理解和巩固相关主题。 ● 配备丰富教辅资源,包括课程幻灯片、教学视频、数据集等,可从以下网址获取:http:www.dataminingbook.infopmwiki.phpMainBookResources。
內容簡介:
本书是专注于数据挖掘与分析的基本算法的入门图书,内容分为数据分析基础、频繁模式挖掘、聚类和分类四个部分,每一部分的各个章节兼顾基础知识和前沿话题,例如核方法、高维数据分析、复杂图和网络等。每一章*后均附有参考书目和习题。
關於作者:
【作者简介】 Mohammed J. Zaki 伦斯勒理工学院计算机科学系教授,ACM杰出科学家,IEEE会士,目前致力于研究新数据挖掘技术。曾获得谷歌教职研究奖等诸多奖项。 Wagner Meira Jr. 巴西米纳斯联邦大学计算机科学系教授,数据库专家。 【译者简介】 吴诚堃 博士,2014年毕业于英国曼彻斯特大学,博士论文题为《应用大规模文本挖掘实现疾病分子机理重构》。现担任国防科技大学计算机学院助理研究员,从事高性能计算应用研究。
目錄 :
第1章数据挖掘与分析1
1.1数据矩阵1
1.2属性2
1.3数据的几何和代数描述3
1.3.1距离和角度5
1.3.2均值与总方差8
1.3.3正交投影9
1.3.4线性无关与维数10
1.4数据:概率观点12
1.4.1二元随机变量17
1.4.2多元随机变量20
1.4.3随机抽样和统计量21
1.5数据挖掘22
1.5.1探索性数据分析23
1.5.2频繁模式挖掘24
1.5.3聚类24
1.5.4分类25
1.6补充阅读 26
1.7习题26
第一部分数据分析基础
第2章数值属性28
2.1一元变量分析28
2.1.1数据居中度度量29
2.1.2数据离散度度量32
2.2二元变量分析35
2.2.1位置和离散度的度量36
2.2.2相关性度量37
2.3多元变量分析40
2.4数据规范化44
2.5正态分布46
2.5.1一元正态分布46
2.5.2多元正态分布47
2.6补充阅读50
2.7习题51
第3章类别型属性53
3.1一元分析53
3.1.1伯努利变量(Bernoulli variable)53
3.1.2多元伯努利变量55
3.2二元分析61
3.3多元分析69
3.4距离和角度74
3.5离散化75
3.6补充阅读77
3.7习题78
第4章图数据79
4.1图的概念79
4.2拓扑属性83
4.3中心度分析86
4.3.1基本中心度86
4.3.2Web中心度88
4.4图的模型96
4.4.1Erd s-Rnyi随机图模型98
4.4.2Watts-Strogatz小世界图模型101
4.4.3Barabsi-Albert无标度模型104
4.5补充阅读111
4.6习题112
第5章核方法114
5.1核矩阵117
5.1.1再生核映射118
5.1.2Mercer核映射120
5.2向量核122
5.3特征空间中的基本核操作126
5.4复杂对象的核132
5.4.1字符串的谱核132
5.4.2图节点的扩散核133
5.5补充阅读137
5.6习题137
第6章高维数据139
6.1高维对象139
6.2高维体积141
6.3超立方体的内接超球面143
6.4薄超球面壳的体积144
6.5超空间的对角线145
6.6多元正态的密度146
6.7附录:球面体积的推导149
6.8补充阅读153
6.9习题153
第7章降维156
7.1背景知识156
7.2主成分分析160
7.2.1最优线近似160
7.2.2最优二维近似163
7.2.3最优r维近似167
7.2.4主成分分析的几何意义170
7.3核主成分分析172
7.4奇异值分解178
7.4.1奇异值分解的几何意义179
7.4.2奇异值分解和主成分分析之间的联系180
7.5补充阅读182
7.6习题182
第二部分频繁模式挖掘
第8章项集挖掘186
8.1频繁项集和关联规则186
8.2频繁项集挖掘算法189
8.2.1逐层的方法:Apriori算法191
8.2.2事务标识符集的交集方法:Eclat算法193
8.2.3频繁模式树方法:FPGrowth算法197
8.3生成关联规则201
8.4补充阅读203
8.5习题203
第9章项集概述208
9.1最大频繁项集和闭频繁项集208
9.2挖掘最大频繁项集:GenMax算法211
9.3挖掘闭频繁项集:Charm算法213
9.4非可导项集215
9.5补充阅读220
9.6习题221
第10章序列挖掘223
10.1频繁序列223
10.2挖掘频繁序列224
10.2.1逐层挖掘:GSP225
10.2.2垂直序列挖掘:Spade226
10.2.3基于投影的序列挖掘:PrefixSpan228
10.3基于后缀树的子串挖掘230
10.3.1后缀树230
10.3.2Ukkonen线性时间算法233
10.4补充阅读238
10.5习题239
第11章图模式挖掘242
11.1同形和支撑242
11.2候选生成245
11.3gSpan算法249
11.3.1扩展和支撑计算250
11.3.2权威性测试255
11.4补充阅读256
11.5习题257
第12章模式与规则评估260
12.1规则和模式评估的度量260
12.1.1规则评估度量260
12.1.2模式评估度量268
12.1.3比较多条规则和模式270
12.2显著性检验和置信区间273
12.2.1产生式规则的费希尔精确检验273
12.2.2显著性的置换检验277
12.2.3置信区间内的自助抽样282
12.3补充阅读284
12.4习题285
第三部分聚类
第13章基于代表的聚类288
13.1K-means 算法288
13.2核K-means292
13.3期望最大聚类295
13.3.1一维中的EM297
13.3.2d维中的EM300
13.3.3极大似然估计305
13.3.4EM方法309
13.4补充阅读311
13.5习题312
第14章层次式聚类315
14.1预备知识315
14.2聚合型层次式聚类317
14.2.1簇间距离317
14.2.2更新距离矩阵321
14.2.3计算复杂度322
14.3补充阅读322
14.4习题323
第15章基于密度的聚类325
15.1DBSCAN 算法325
15.2核密度估计328
15.2.1一元密度估计328
15.2.2多元密度估计331
15.2.3最近邻密度估计333
15.3基于密度的聚类:DENCLUE333
15.4补充阅读338
15.5习题339
第16章谱聚类和图聚类341
16.1图和矩阵341
16.2基于图的割的聚类347
16.2.1聚类目标函数:比例割与归割349
16.2.2谱聚类算法351
16.2.3最大化目标:平均割与模块度354
16.3马尔可夫聚类360
16.4补充阅读366
16.5习题367
第17章聚类的验证368
17.1外部验证度量368
17.1.1基于匹配的度量369
17.1.2基于熵的度量372
17.1.3成对度量375
17.1.4关联度量378
17.2内部度量381
17.3相对度量388
17.3.1分簇稳定性394
17.3.2聚类趋向性396
17.4补充阅读400
17.5习题401
第四部分分类
第18章基于概率的分类404
18.1贝叶斯分类器404
18.1.1估计先验概率404
18.1.2估计似然405
18.2朴素贝叶斯分类器409
18.3K最近邻分类器412
18.4补充阅读414
18.5习题415
第19章决策树分类器416
19.1决策树417
19.2决策树算法419
19.2.1分割点评估度量420
19.2.2评估分割点422
19.3补充阅读429
19.4习题429
第20章线性判别分析431
20.1最优线性判别431
20.2核判别分析437
20.3补充阅读443
20.4习题443
第21章支持向量机445
21.1支持向量和间隔445
21.2SVM:线性可分的情况450
21.3软间隔SVM:线性不可分的情况454
21.3.1铰链误损455
21.3.2二次误损458
21.4核SVM:非线性情况459
21.5SVM训练算法462
21.5.1对偶解法:随机梯度上升463
21.5.2原始问题解:牛顿优化467
21.6补充阅读473
21.7习题473
第22章分类的评估475
22.1分类性能度量475
22.1.1基于列联表的度量476
22.1.2二值分类:正类和负类479
22.1.3ROC分析482
22.2分类器评估487
22.2.1K折交叉验证487
22.2.2自助抽样488
22.2.3置信区间489
22.2.4分类器比较:配对t检验493
22.3偏置-方差分解495
22.4补充阅读503
22.5习题504