新書推薦:
《
石油帝国的兴衰:英国的工业化与去工业化
》
售價:NT$
445.0
《
古典的回響:溪客舊廬藏明清文人繪畫
》
售價:NT$
1990.0
《
根源、制度和秩序:从老子到黄老学(王中江著作系列)
》
售價:NT$
550.0
《
索恩丛书·北宋政治与保守主义:司马光的从政与思想(1019~1086)
》
售價:NT$
345.0
《
掌故家的心事
》
售價:NT$
390.0
《
农为邦本——农业历史与传统中国
》
售價:NT$
340.0
《
小麦文明:“黄金石油”争夺战
》
售價:NT$
445.0
《
悬壶杂记全集:老中医多年临证经验总结(套装3册) 中医医案诊疗思路和处方药应用
》
售價:NT$
614.0
|
內容簡介: |
本书系统地介绍了数据预处理、数据仓库和数据挖掘的原理、方法及应用技术, 以及采用Mahout 对相应的挖掘算法进行实际练习。本书共有11 章, 分为两大部分。第1 ~7 章为理论部分。第1 章为绪论, 介绍了数据挖掘与知识发现领域中的一些基本理论、研究方法等, 也简单介绍了Hadoop 生态系统中的Mahout; 第2 ~7 章按知识发现的过程, 介绍数据预处理的方法和技术、数据仓库的构建与OLAP 技术、数据挖掘原理及算法包括关联规则挖掘、聚类分析方法、分类规则挖掘、常见的数据挖掘工具与产品。第8 ~11 章为实验部分, 采用Mahout 对数据挖掘各类算法进行实际练习。
本书应用性较强, 与实践相结合, 以小数据集为例详细介绍各种挖掘算法, 使读者更易掌握挖掘算法的基本原理及过程; 使用广泛的大数据平台———Hadoop 生态系统中的Mahout 对各种挖掘算法进行实际练习, 实战性强, 也符合目前数据处理与挖掘的发展趋势。
本书既便于教师课堂讲授, 又便于自学者阅读, 可作为高等院校高年级学生“数据挖掘技术” “数据仓库与数据挖掘” “数据处理与智能决策”等课程的教材。
|
目錄:
|
目录
前 言
上篇 理论部分
第1 章 绪论2
1. 1 KDD 与数据挖掘2
1. 1. 1 KDD 的定义2
1. 1. 2 KDD 过程与数据挖掘3
1. 2 数据挖掘的对象4
1. 3 数据挖掘的任务8
1. 4 Mahout 简介12
1. 4. 1 Mahout 12
1. 4. 2 Mahout 算法库13
1. 4. 3 Mahout 应用16
1. 5 小结17
1. 6 习题17
第2 章 数据预处理18
2. 1 数据概述18
2. 1. 1 属性与度量19
2. 1. 2 数据集的类型23
2. 2 数据预处理27
2. 2. 1 数据预处理概述28
2. 2. 2 数据清理30
2. 2. 3 数据集成34
2. 2. 4 数据变换38
2. 2. 5 数据归约40
2. 2. 6 离散化与概念分层48
2. 3 小结52
2. 4 习题53
第3 章 数据仓库55
3. 1 数据仓库概述55
3. 1. 1 从数据库到数据仓库55
3. 1. 2 数据仓库56
3. 1. 3 数据仓库系统结构59
3. 1. 4 数据仓库中的名词59
3. 2 数据仓库的ETL 60
3. 2. 1 ETL 的基本概念60
3. 2. 2 ETL 的工具60
3. 3 元数据与外部数据62
3. 3. 1 元数据的定义62
3. 3. 2 元数据的存储与管理63
3. 3. 3 外部数据64
3. 4 数据仓库模型及数据仓库的建立65
3. 4. 1 多维数据模型65
3. 4. 2 多维数据模型的建立67
3. 5 联机分析处理OLAP 技术73
3. 5. 1 OLAP 概述73
3. 5. 2 OLAP 与数据仓库75
3. 5. 3 OLAP 的模型77
3. 5. 4 OLAP 的基本操作79
3. 6 数据仓库实例80
3. 6. 1 数据仓库的创建81
3. 6. 2 数据的提取、转换和加载83
3. 7 小结83
3. 8 习题83
第4 章 关联规则挖掘84
4. 1 问题定义85
4. 1. 1 购物篮分析85
4. 1. 2 基本术语85
4. 2 频繁项集的产生87
4. 2. 1 先验原理88
4. 2. 2 Apriori 算法的频繁项集产生90
4. 3 规则产生94
4. 3. 1 基于置信度的剪枝94
4. 3. 2 Apriori 算法中规则的产生94
4. 4 FP-growth 算法95
4. 5 多层关联规则和多维关联规则99
4. 5. 1 多层关联规则99
4. 5. 2 多维关联规则102
4. 6 非二元属性的关联规则103
4. 7 关联规则的评估104
4. 8 序列模式挖掘算法106
4. 8. 1 序列模式的概念106
4. 8. 2 Apriori 类算法———AprioriAll
算法109
4. 9 小结114
4. 10 习题115
第5 章 聚类分析方法118
5. 1 聚类分析概述118
5. 1. 1 聚类的定义118
5. 1. 2 聚类算法的要求119
5. 1. 3 聚类算法的分类120
5. 1. 4 相似性的测度121
5. 2 基于划分的聚类算法126
5. 2. 1 基于质心的Centroid-based
划分方法———基本K-means
聚类算法126
5. 2. 2 K-means 聚类算法的拓展128
5. 2. 3 基于中心的Medoid-based
划分方法———PAM 算法130
5. 3 层次聚类算法133
5. 3. 1 AGNES 算法136
5. 3. 3 改进算法———BIRCH 算法137
5. 3. 4 改进算法———CURE 算法141
5. 4 基于密度的聚类算法143
5. 5 聚类算法评价147
5. 6 离群点挖掘149
5. 6. 1 相关问题概述149
5. 6. 2 基于距离的方法150
5. 6. 3 基于相对密度的方法154
5. 7 小结158
5. 8 习题158
第6 章 分类规则挖掘160
6. 1 分类问题概述160
6. 2 最近邻分类法162
6. 2. 1 KNN 算法原理162
6. 2. 2 KNN 算法的特点及改进165
6. 2. 3 基于应用平台的KNN 算法应用
实例166
6. 3 决策树分类方法167
6. 3. 1 决策树概述167
6. 3. 2 信息论171
6. 3. 3 ID3 算法172
6. 3. 4 算法改进: C4. 5 算法176
6. 4 贝叶斯分类方法180
6. 4. 1 贝叶斯定理181
6. 4. 2 朴素贝叶斯分类器183
6. 4. 3 朴素贝叶斯分类方法的改进185
6. 5 神经网络算法188
6. 5. 1 前馈神经网络概述188
6. 5. 2 学习前馈神经网络189
6. 5. 3 BP 神经网络模型与学习算法191
6. 6 回归分析193
6. 7 小结196
6. 8 习题197
第7 章 数据挖掘工具与产品198
7. 1 评价数据挖掘产品的标准198
7. 2 数据挖掘工具简介200
7. 3 数据挖掘的可视化203
7. 3. 1 数据挖掘可视化的过程与方法203
7. 3. 2 数据挖掘可视化的分类204
7. 3. 3 数据挖掘可视化的工具206
7. 4 Weka 207
7. 4. 1 Weka Explorer 208
7. 4. 2 Weka Experimenter 216
7. 4. 3 KnowledgeFlow 219
7. 5 小结221
7. 6 习题221
下篇 实验部分
第8 章 Mahout 入门224
8. 1 Mahout 安装前的准备224
8. 1. 1 安装JDK 224
8. 1. 2 安装Hadoop 227
8. 2 Mahout 的安装237
8. 3 测试安装238
8. 4 小结239
第9 章 使用Mahout 实践关联规则
算法240
9. 1 FP 树关联规则算法240
9. 1. 1 Mahout 中Parallel Frequent Pattern
Mining 算法的实现原理240
9. 1. 2 Mahout 的Parallel F
|
內容試閱:
|
前言
现在的社会是一个高速发展的社会, 科技发达, 信息畅通, 人们之间的交流越来越密切, 生活也越来越方便, 大数据就是这个高科技时代的产物, 并且将会以更多、更复杂、更多样化的方式持续增长。大数据的复杂化和格式多样化, 决定了应用服务平台中针对大数据的服务场景和类型的多样化, 从而要求应用服务平台必须融合大数据技术来应对, 传统的数据存储和分析技术已无法满足应用的需求。
目前行业中使用最广泛的大数据平台是基于Apache 开源社区版本的Hadoop 生态体系,阿里巴巴、腾讯、百度、脸书Facebook 等国内外各大互联网公司的系统基本都采用Hadoop生态系统, 来完成数据存储和处理。事实上, 在未来2 ~3 年预计有超过50% 的大数据项目会在Hadoop 框架下运行。
在大数据时代, 大学生应具备一定的大数据处理能力。本书围绕大数据背景下的数据处理和知识发现问题, 从基本概念入手, 由浅入深、循序渐进地介绍了数据处理与知识发现过程中的数据预处理技术、数据仓库技术、数据挖掘的基本方法, 并在最后使用最广泛的大数据平台———Hadoop 生态系统中的Mahout 对各种挖掘算法进行实际练习, 实战性强, 也符合目前数据处理与挖掘的发展趋势。
目前, 数据处理与知识发现及应用方法逐渐成为各高校信息类和管理类本科专业的必修内容。本书作为立足于本科教学的教材, 具有如下特色:
1 在逻辑安排上循序渐进, 由浅入深, 便于读者系统学习。
2 内容丰富, 信息量大, 融入了大量本领域的新知识和新方法。
3 作为教材, 以小数据集为例详细介绍各种挖掘算法, 使读者更易掌握挖掘算法的基本原理及过程; 使用Mahout 实践各种挖掘算法, 符合大数据的发展趋势。
4 图文并茂, 形式生动, 可读性强。
本书的编写得到了武汉民办高校合作联盟、武昌首义学院信息科学与工程学院和机械工业出版社的大力支持和帮助, 在此深表谢意!
由于编者水平有限, 书中难免会出现不足之处, 欢迎读者批评指证。如果您有更多的宝贵意见, 欢迎发邮件至邮箱xuqin@ wsyu. edu. cn。
编 者
|
|