新書推薦:
《
人生解忧:佛学入门四十讲
》
售價:NT$
490.0
《
浪潮将至
》
售價:NT$
395.0
《
在虚无时代:与马克斯·韦伯共同思考
》
售價:NT$
260.0
《
日内交易与波段交易的资金风险管理
》
售價:NT$
390.0
《
自然信息图:一目了然的万物奇观
》
售價:NT$
640.0
《
女性史:古代卷(真正意义上的女性大历史)
》
售價:NT$
560.0
《
跨代伴侣治疗
》
售價:NT$
440.0
《
心理治疗中的真意:心理治疗师的心灵之旅
》
售價:NT$
440.0
|
編輯推薦: |
现代数据分析中,数据挖掘技术是其中一种重要的数据分析方法,可以说数据挖掘技术在各个领域的数据分析中都有应用。尤其在科学研究、未来预测等领域,数据挖掘技术是一种最常用的数据分析方法。人类社会的发展史,其实就是一部人类与自然灾难不断进行抗争的历史。在信息技术的加持下,我们对大多数自然灾害进行了数字化监测,如地震监测、滑坡和泥石流的监测、海啸监测、火山监测等,获取了大量关于自然灾害的信息资料。利用数据挖掘技术我们已经积累了大量的观测数据,有关学者和工程技术人员已经开始利用数据挖掘技术处理数据,并取得了若干成果,为防灾减灾救灾事业做出了巨大贡献。
|
內容簡介: |
本书介绍数据挖掘相关技术及其在防灾、减灾领域的应用。数据挖掘技术主要沿着分类、聚类和关联分析这三大任务展开,具体包括数据挖掘概念及发展史、数据及预处理方法、数据仓库、回归分析、数据分类和聚类、趋势预测、关联分析、异类挖掘等内容,并通过在灾害预防、安全评价等方面的实例来介绍每类技术的应用。 本书可作为高等院校计算机、信息科学、大数据科学、灾害防治、应急信息化、应急技术与管理、城市地下空间安全等相关专业的教材或参考书,也可为从事数据处理的科学工作者、技术人员提供参考。
|
目錄:
|
第1章 导论 1
1.1 数据挖掘的起源 1
1.2 数据挖掘的定义 3
1.3 数据挖掘的应用领域 4
1.4 数据挖掘的过程 5
1.4.1 CRISP-DM模型 5
1.4.2 SEMMA模型 6
1.5 数据挖掘的任务 7
1.6 数据挖掘工具和共享资源 9
1.6.1 数据挖掘软件 9
1.6.2 数据挖掘共享数据集 10
1.6.3 共享的数据挖掘算法软件包 10
1.7 数据挖掘发展趋势 10
1.8 本章小结 11
习题 11
第2章 数据、统计特征及数据预处理 12
2.1 数据与数据类型 12
2.1.1 数据集的特性 13
2.1.2 数据集类型 13
2.2 数据统计特征 15
2.2.1 频率和众数 15
2.2.2 百分位数 15
2.2.3 位置度量:均值和中位数 16
2.2.4 离散度量:极差和方差 16
2.2.5 多元汇总统计 17
2.3 数据预处理 18
2.3.1 数据清理 18
2.3.2 数据集成 19
2.3.3 数据变换 19
2.3.4 数据归约 20
2.3.5 离散化和概念分层 21
2.4 距离和相似性度量 24
2.4.1 对象之间的距离 24
2.4.2 数据集之间的距离 26
2.4.3 相似性度量 27
2.5 本章小结 29
习题 29
第3章 数据仓库及联机分析处理 30
3.1 数据仓库概念 30
3.1.1 数据仓库定义及关键特征 30
3.1.2 数据仓库与传统数据库系统的区别 31
3.1.3 数据仓库的体系结构 32
3.1.4 几种数据仓库模型 33
3.1.5 元数据库 33
3.2 数据仓库建模 34
3.2.1 数据立方体 34
3.2.2 多维数据模型的模式 35
3.3 数据仓库设计与实现 36
3.3.1 设计视图 36
3.3.2 设计方法 36
3.4 本章小结 37
习题 37
第4章 回归分析 38
4.1 线性回归分析 38
4.1.1 一元线性回归分析 38
4.1.2 多元线性回归分析 40
4.2 非线性回归分析 40
4.3 逻辑回归分析 42
4.4 本章小结 43
习题 44
第5章 数据分类与预测 45
5.1 分类定义 45
5.2 分类挖掘一般过程 46
5.3 决策树分类法 47
5.3.1 决策树概念 48
5.3.2 经典决策树分类方法 49
5.3.3 ID3算法 51
5.3.4 C4.5算法 55
5.3.5 C5.0算法 57
5.3.6 CART算法 58
5.3.7 决策树分类算法评估 61
5.3.8 案例分析:决策树算法应用于电信客户流失分析 63
5.4 贝叶斯分类方法 65
5.4.1 贝叶斯算法基本原理 65
5.4.2 朴素贝叶斯分类方法 65
5.5 k-近邻分类方法 67
5.5.1 k-近邻算法描述 67
5.5.2 k-近邻算法的优缺点 69
5.5.3 案例分析:乘坐式割草机分类销售 69
5.6 人工神经网络分类方法 71
5.6.1 神经元概念 71
5.6.2 神经网络模型 72
5.6.3 神经网络的应用 75
5.7 利用BP神经网络预测岩溶塌陷 75
5.7.1 确定BP神经网络拓扑结构 76
5.7.2 提取原始数据 77
5.7.3 数据预处理 77
5.7.4 建立岩溶塌陷预测的BP神经网络挖掘模型 78
5.7.5 岩溶塌陷预测 78
5.8 本章小结 79
习题 79
第6章 关联分析 81
6.1 相关概念 81
6.2 二元属性的关联规则挖掘 82
6.2.1 Apriori算法及效率分析 82
6.2.2 CARMA算法 86
6.2.3 两种算法的比较分析 86
6.3 非二元属性的关联规则挖掘 87
6.4 关联规则的合并 88
6.5 关联规则的优化 89
6.5.1 支持度与可信度的局限 89
6.5.2 兴趣度的引入 90
6.5.3 提升度的引入 90
6.6 洗浴时间与学习成绩的关联分析 91
6.6.1 数据提取与预处理 91
6.6.2 洗浴习惯与学习成绩的关联分析 93
6.7 本章小结 94
习题 94
第7章 聚类分析 96
7.1 聚类分析概述 96
7.2 基于划分的聚类分析 98
7.2.1 基本k-means聚类算法 99
7.2.2 二分k-means聚类算法 101
7.2.3 k-means 聚类算法 101
7.3 基于层次的聚类分析 103
7.3.1 BIRCH算法 104
7.3.2 CURE算法 106
7.3.3 ROCK算法 106
7.4 基于密度的聚类算法 107
7.5 一趟聚类算法 108
7.5.1 一趟聚类算法描述 109
7.5.2 半径阈值的选择 109
7.6 基于模型的聚类分析 111
7.6.1 SOFM自组织竞争算法 112
7.6.2 最大期望值算法 115
7.7 聚类算法评价 116
7.7.1 内部质量评价准则 116
7.7.2 外部质量控制准则 118
7.8 利用k-means 算法划分地震区域 119
7.8.1 数据预处理 120
7.8.2 划分预测地震区域 120
7.9 利用SOFM算法划分空间电场扰动数据 121
7.9.1 数据提取 121
7.9.2 SOFM网设计 122
7.9.3 数据聚类结果分析 123
7.10 本章小结 124
习题 124
第8章 异类数据挖掘 126
8.1 概述 126
8.2 基于统计的方法 127
8.3 基于距离的方法 128
8.4 基于相对密度的方法 131
8.5 基于聚类的方法 134
8.5.1 基于对象的异类因子方法 134
8.5.2 基于簇的异类因子方法 135
8.5.3 基于聚类的动态数据异类点检测方法 136
8.6 基于物元模型的异类数据挖掘 136
8.6.1 物元理论与可拓集 137
8.6.2 关联函数 137
8.6.3 可拓数据挖掘 139
8.7 异类数据挖掘方法的评估 141
8.8 利用可拓数据挖掘算法查找震前电离层异常 141
8.8.1 研究对象物元模型及关联函数 142
8.8.2 经典域的确定 142
8.8.3 基于可拓数据挖掘的异类数据分析 143
8.9 本章小结 144
习题 144
第9章 文本挖掘 145
9.1 概述 145
9.1.1 文本挖掘的发展 145
9.1.2 文本挖掘数据准备 146
9.1.3 文本挖掘过程 146
9.2 文本挖掘基础——分词 147
9.2.1 基于词典的分词法 147
9.2.2 基于统计的分词法 148
9.2.3 基于语法和规则的分词法 148
9.3 文本表示方法 148
9.3.1 布尔逻辑模型 149
9.3.2 向量空间模型 149
9.4 文本特征选择 150
9.4.1 文档频率方法 150
9.4.2 互信息方法 150
9.4.3 信息增益方法 151
9.4.4 ?2统计方法 151
9.5 文本分类 151
9.6 文本聚类 154
9.7 文本摘要自动生成 156
9.7.1 自动文摘生成步骤 156
9.7.2 自动摘要相关技术 157
9.8 基于KNN的新闻稿文本分类 158
9.8.1 收集新闻稿文本 158
9.8.2 新闻文本预处理 159
9.8.3 文本表示 160
9.8.4 利用KNN进行文本分类 160
9.8.5 分类结果评估 161
9.9 本章小结 161
习题 162
第10章 Web挖掘 163
10.1 Web结构挖掘 163
10.2 页面内容挖掘 165
10.2.1 图像信息数据的挖掘 165
10.2.2 视频数据挖掘 166
10.2.3 音频数据挖掘 166
10.3 Web日志挖掘 167
10.3.1 日志数据采集及预处理 167
10.3.2 基于统计的Web日志挖掘 169
10.4 本章小结 170
习题 171
附录A 习题参考答案 172
参考文献 184
|
內容試閱:
|
随着信息技术的迅猛发展和普及应用,尤其是互联网的普及,使得各行各业已经积累了海量的数据,而且这些数据每天还在不断地、快速地增加。根据国际著名数据调查公司IDC在2021年的估计,全世界数据库里的数据量正在以每20个月翻一番的速度增长。在目前“数据为王”的时代,数据意味着资产、财富、知识,这也充分说明,数据对于人类是极为重要的,甚至指导人们的日常活动——人们越来越依赖数据。但是,数据量越来越大,如何利用数据、如何从中发现某些规律或知识,就需要用到数据挖掘技术了。
在现代数据分析中,数据挖掘技术是其中一种重要的数据分析方法,可以说,数据挖掘技术在各个领域的数据分析中都有应用,尤其在科学研究、未来预测等领域,数据挖掘技术更是一种最常用的数据分析方法。人类社会的发展史,其实就是一部人类与自然灾害不断进行抗争的历史。在信息技术的加持下,人们对大多数自然灾害进行了数字化监测,如地震监测、滑坡和泥石流的监测、海啸监测、火山监测等,获取了大量关于自然灾害的信息资料,已经积累了大量的观测数据。有关学者和工程技术人员已经开始利用数据挖掘技术处理数据,并取得了若干成果,为防灾、减灾、救灾事业作出了巨大贡献。
本书作者多年来从事数据挖掘技术课程的教学及将数据挖掘技术应用于防灾、减灾、救灾领域的课题研究,对数据挖掘技术的任务、方法具有较为深刻的理解,对灾害数据处理的研究具有深切的体会。因此,本书在编排时,在介绍数据挖掘理论、方法的基础上,多以灾害类数据挖掘应用作为实例加以介绍,以便于读者了解并理解数据挖掘技术在灾害数据分析中的处理过程和结果展示。
全书共分为10章。
第1章是导论。从一个具体事例开始,介绍数据挖掘的发展过程、有关概念、应用领域、挖掘工具和发展趋势等。数据挖掘的任务主要包含预测、关联分析、聚类分析、异常监测等,从两个数据挖掘模型CRISP-DM模型和SEMMA模型展开,分别介绍了挖掘的过程,主要包括业务理解、数据理解、数据准备、建模、评估和部署等步骤。
第2章是数据、统计特征及数据预处理。介绍了数据的若干基本概念,如数据类型、特点等,数据集统计特征,数据预处理方法,包括数据清理、数据集成、数据变换、数据归约等几个方面,还介绍了距离和度量方法。
第3章是数据仓库及联机分析处理。主要介绍数据仓库的概念、特征、体系结构等,介绍了联机事务处理系统和联机分析处理系统的区别,以及数据挖掘系统与数据库系统的不同,并详细地介绍了数据仓库的建模思路。
第4章是回归分析。主要用于连续数据的预测挖掘,介绍线性回归分析、非线性回归分析和逻辑回归分析。线性回归分析包括一元线性回归分析方法和多元线性回归分析方法,介绍了非线性回归分析方法如何转换为线性回归方法。
第5章是数据分类与预测。主要介绍数据分类基本概念、分类挖掘的一般过程,并详细介绍了几种分类算法:决策树算法、贝叶斯分类算法、k-近邻分类方法、神经网络算法等。在决策树算法中主要介绍了ID3算法及其改进算法C4.5、C5.0算法及二叉树CART算法等,重点介绍了信息熵、信息增益、增益率、基尼系数等概念及这些概念在决策树算法中的作用;贝叶斯分类算法主要介绍了朴素贝叶斯算法,指出“独立同分布”是朴素贝叶斯算法的基本约定;详细介绍人工神经网络算法中的BP网络算法,简单推导了算法过程,并以岩溶塌陷稳定性分类为例介绍了BP算法的应用。
第6章是关联分析。介绍关联分析的若干概念,包括频繁项集、最小支持度、最小可信度、强关联规则、兴趣度、提升度等。详细介绍经典的关联分析挖掘算法Apriori算法过程,并以大学生日常行为习惯与学习成绩的关联性为例,介绍如何生成频繁项集、如何生成关联规则及规则的合并等;另外还介绍一种占用内存少、能够处理在线连续交易流数据的新型关联规则挖掘算法——CARMA算法。
第7章是聚类分析。介绍聚类分析的基本概念、算法等,从基于划分的、基于层次的、基于密度的、基于模型的聚类分析法和一趟聚类算法等展开介绍。基于划分的方法主要介绍k-means 算法、k-means 聚类算法、二分k-means聚类算法等;基于层次的方法包括BIRCH算法、CURE算法、ROCK算法等;基于密度的算法主要介绍DBSCAN算法;基于模型的聚类算法主要介绍自组织特征映射网络算法、最大期望值算法等。以两个具体实例分别介绍了k-means 算法和SOFM算法的应用。
第8章是异类挖掘。主要介绍异类数据概念及异类挖掘意义,异类挖掘的常用方法:基于统计的方法、基于距离的方法、基于相对密度和基于聚类的、基于物元模型的方法,等等;详细介绍了可拓数据挖掘算法的相关概念,包括物元、经典域、节域、关联函数等,并介绍了计算因子权重系数的层次分析法等。
第9章是文本挖掘。主要介绍了文本挖掘的基本概念、发展历史等知识,详细介绍了文本挖掘的过程,包括数据准备、分词方法、文本特征、文本表示等,介绍了文本分类、聚类、自动摘要抽取等文本挖掘任务,并以新闻稿件的分类为例说明了文本挖掘的过程。
第10章是Web挖掘。介绍了Web挖掘的概念及任务,包括Web结构挖掘、页面内容挖掘、Web日志挖掘等内容。
作为一本教材,本书力求通俗易懂,结构合理,内容安排具有逻辑性,使读者在阅读本书时不至于感到枯燥乏味,昏昏欲睡。
本书的完成凝结了若干人的辛劳和汗水。第1、2、3、8、9、10章主要由李忠负责撰写,第4、6章主要由张伟负责撰写,第5、7章主要由李姗姗负责撰写,全书由李忠统稿。在编写过程中,刘海军博士、单维锋教授、唐彦东教授提出了一些很好的建议,在此表示感谢。感谢几位研究生对书稿进行整理和排版,他们是:李锦文、贾娟、杨百一、张富志、尚星宇、薛子云、王志。本书的出版,得到了防灾科技学院防灾减灾系列教材建设项目的资助;在本书编写过程中,参考了大量的前人研究成果,在出版时得到了清华大学出版社、北京交通大学出版社的大力支持,在此一并表示诚挚的感谢。
由于作者水平所限,书中难免存在错误和不足,敬请各位读者批评指正。
编者 于燕郊
2022年春
|
|