新書推薦:
《
诛吕:“诸吕之乱”的真相与吕太后时期的权力结构
》
售價:NT$
454.0
《
炙野(全2册)
》
售價:NT$
356.0
《
女人的胜利
》
售價:NT$
254.0
《
数据有道:数据分析+图论与网络+微课+Python编程(鸢尾花数学大系:从加减乘除到机器学习)
》
售價:NT$
1214.0
《
500万次倾听:陪伤心的人聊聊
》
售價:NT$
245.0
《
英国商业500年(见证大国崛起与企业兴衰,启迪未来商业智慧。)
》
售價:NT$
367.0
《
万千心理·儿童心理治疗中的心智化:临床实践指导
》
售價:NT$
398.0
《
自我囚禁的人:完美主义的心理成因与自我松绑(破除你对完美主义的迷思,尝试打破自我评价过低与焦虑的恶性循环)
》
售價:NT$
301.0
|
編輯推薦: |
本书主要介绍数据仓库与数据挖掘的基本概念和方法,包括数据预处理、数据仓库与联机分析处理、数据仓库设计与开发、回归
分析、关联规则挖掘、分类、聚类、神经网络与深度学习、离群点检测以及文本和时序数据挖掘等内容。本书配套资源丰富,包括教学大纲、教学课件、电子教案、程序源码、习题答案、教学进度表,作者还为本书精心录制了600分钟的微课视频。
|
內容簡介: |
本书主要介绍数据仓库与数据挖掘的基本概念和方法,包括数据预处理、数据仓库与联机分析处理、数据仓库设计与开发、回归分析、关联规则挖掘、分类、聚类、神经网络与深度学习、离群点检测以及文本和时序数据挖掘等内容。 各章力求原理叙述清晰,易于理解,突出理论联系实际, 辅以代码实践与指导,引领读者更好地理解与应用算法,快速迈进数据仓库与数据挖掘领域 。 本书可作为高等学校计算机科学与技术、数据科学与大数据技术等相关专业的教材,也可作为科研人员、工程师和大数据爱好者的参考书。
|
目錄:
|
第1章绪论
1.1数据仓库概述
1.1.1数据仓库的定义及特点
1.1.2数据仓库与操作型数据库的关系
1.1.3数据仓库的组成
1.1.4数据仓库的应用
1.1.5基于Hadoop/Spark的数据仓库技术
1.2数据挖掘概述
1.2.1数据挖掘的概念
1.2.2数据挖掘的主要任务
1.2.3数据挖掘的数据源
1.2.4数据挖掘使用的技术
1.2.5数据挖掘存在的主要问题
1.2.6数据挖掘建模的常用工具
1.2.7Python数据挖掘常用库
1.3数据仓库与数据挖掘的区别与联系
1.3.1数据仓库与数据挖掘的区别
1.3.2数据仓库与数据挖掘的联系
1.4小结
习题1
第2章认识数据
2.1属性及其类型
2.1.1属性
2.1.2属性类型
2.2数据的基本统计描述
2.2.1中心趋势度量
2.2.2数据散布度量
2.3数据可视化
2.3.1基于像素的可视化技术
2.3.2几何投影可视化技术
2.3.3基于图符的可视化技术
2.3.4层次可视化技术
2.3.5可视化复杂对象和关系
2.3.6高维数据可视化
2.3.7Python数据可视化
2.4数据对象的相似性度量
2.4.1数据矩阵和相异性矩阵
2.4.2标称属性的相似性度量
2.4.3二元属性的相似性度量
2.4.4数值属性的相似性度量
2.4.5序数属性的相似性度量
2.4.6混合类型属性的相似性
2.4.7余弦相似性
2.4.8距离度量的Python实现
2.5小结
习题2
第3章数据预处理
3.1数据预处理的必要性
3.1.1原始数据中存在的问题
3.1.2数据质量要求
3.2数据清洗
3.2.1数据清洗方法
3.2.2利用Pandas进行数据清洗
3.3数据集成
3.3.1数据集成过程中的关键问题
3.3.2利用Pandas合并数据
3.4数据标准化
3.4.1离差标准化数据
3.4.2标准差标准化数据
3.5数据归约
3.5.1维归约
3.5.2数量归约
3.5.3数据压缩
3.6数据变换与数据离散化
3.6.1数据变换的策略
3.6.2Python数据变换与离散化
3.7利用sklearn进行数据预处理
3.8小结
习题3
第4章数据仓库与联机分析处理
4.1数据仓库的体系
4.1.1数据仓库体系结构
4.1.2数据ETL
4.1.3数据集市
4.1.4元数据
4.2多维数据模型与OLAP
4.2.1多维数据模型的相关概念
4.2.2OLAP的基本分析操作
4.2.3多维数据模型的实现
4.3数据仓库的维度建模
4.3.1数据仓库维度建模概述
4.3.2星形模型
4.3.3雪花模型
4.4数据仓库发展
4.4.1动态数据仓库
4.4.2数据中心
4.4.3数据中台
4.5小结
习题4
第5章数据仓库设计与开发
5.1数据仓库设计概述
5.1.1数据仓库设计的特点
5.1.2数据仓库设计与业务系统模型设计的区别
5.1.3数据仓库构建模式
5.1.4数据仓库建立框架
5.2数据仓库设计
5.2.1数据仓库规划、需求分析及概念设计
5.2.2数据仓库逻辑模型设计
5.2.3数据仓库物理模型设计
5.2.4数据仓库部署与维护
5.3基于Hive的数据仓库实现
5.3.1Hadoop/Hive简介
5.3.2Hive数据仓库和数据库比较
5.3.3Hive常用数据操作
5.3.4利用Hive建立数据仓库
5.4小结
习题5
第6章回归分析
6.1回归分析概述
6.1.1回归分析的定义与分类
6.1.2回归分析的过程
6.2一元线性回归分析
6.2.1一元线性回归方法
6.2.2一元线性回归模型的参数估计
6.2.3一元线性回归模型的误差方差估计
6.2.4一元线性回归模型的主要统计检验
6.2.5一元线性回归的Python实现
6.3多元线性回归
6.3.1多元线性回归模型
6.3.2多元线性回归模型的参数估计
6.3.3多元线性回归的假设检验及其评价
6.3.4多元线性回归的Python实现
6.4逻辑回归
6.4.1逻辑回归模型
6.4.2逻辑回归的Python实现
6.5其他回归分析
6.5.1多项式回归
6.5.2岭回归
6.5.3Lasso回归
6.5.4弹性回归
6.5.5逐步回归
6.6小结
习题6
第7章关联规则挖掘
7.1关联规则挖掘概述
7.2频繁项集、闭项集和关联规则
7.3频繁项集挖掘方法
7.3.1Apriori算法
7.3.2由频繁项集产生关联规则
7.3.3提高Apriori算法的效率
7.3.4频繁模式增长算法
7.3.5使用垂直数据格式挖掘频繁项集
7.4关联模式评估方法
7.5Apriori算法应用
7.6小结
习题7
第8章分类
8.1分类概述
8.2决策树归纳
8.2.1决策树原理
8.2.2ID3算法
8.2.3C4.5算法
8.2.4CART算法
8.2.5树剪枝
8.2.6决策树应用
8.3K近邻算法
8.3.1算法原理
8.3.2Python算法实现
8.4支持向量机
8.4.1算法原理
8.4.2Python算法实现
8.5朴素贝叶斯分类
8.5.1算法原理
8.5.2高斯朴素贝叶斯分类
8.5.3多项式朴素贝叶斯分类
8.5.4朴素贝叶斯分类应用
8.6模型评估与选择
8.6.1分类器性能的度量
8.6.2模型选择
8.7组合分类
8.7.1组合分类方法简介
8.7.2袋装
8.7.3提升和AdaBoost
8.7.4随机森林
8.8小结
习题8
第9章聚类
9.1聚类分析概述
9.1.1聚类分析的概念
9.1.2聚类算法分类
9.2KMeans聚类
9.2.1算法原理
9.2.2算法改进
9.2.3KMeans算法实现
9.3层次聚类
9.3.1算法原理
9.3.2簇间的距离度量
9.3.3分裂层次聚类
9.3.4凝聚层次聚类
9.3.5层次聚类应用
9.4基于密度的聚类
9.4.1算法原理
9.4.2算法改进
9.4.3DBSCAN算法实现
9.5其他聚类方法
9.5.1STING聚类
9.5.2概念聚类
9.5.3模糊聚类
9.6聚类评估
9.6.1聚类趋势的估计
9.6.2聚类簇数的确定
9.6.3聚类质量的测定
9.7小结
习题9
第10章神经网络与深度学习
10.1神经网络基础
10.1.1神经元模型
10.1.2感知机与多层网络
10.2BP神经网络
10.2.1多层前馈神经网络
10.2.2后向传播算法
10.2.3BP神经网络应用
10.3深度学习
10.3.1深度学习概述
10.3.2常用的深度学习算法
10.4小结
习题10
第11章离群点检测
11.1离群点概述
11.1.1离群点的概念
11.1.2离群点的类型
11.1.3离群点检测的挑战
11.2离群点的检测
11.2.1基于统计学的离群点检测
11.2.2基于邻近性的离群点检测
11.2.3基于聚类的离群点检测
11.2.4基于分类的离群点检测
11.3sklearn中的异常检测方法
11.4小结
习题11
第12章文本和时序数据挖掘
12.1文本数据挖掘
12.1.1文本挖掘概述
12.1.2文本挖掘的过程与任务
12.2文本分析与挖掘的主要方法
12.2.1词语分词
12.2.2词性标注与停用词过滤
12.2.3文本表征
12.2.4文本分类
12.2.5文本聚类
12.2.6文本可视化
12.3时序数据挖掘
12.3.1时间序列和时间序列分析
12.3.2时间序列平稳性和随机性判定
12.3.3自回归滑动平均模型
12.3.4差分整合移动平均自回归模型
12.3.5季节性差分自回归移动平均模型
12.4小结
习题12
第13章数据挖掘案例
13.1良性/恶性乳腺肿瘤预测
13.2泰坦尼克号乘客生还预测
13.3图像的聚类分割
13.4小结
参考文献
|
內容試閱:
|
目前,数据正以前所未有的速度爆炸式增长,海量的数据已成为各行各业重要的战略资源。围绕这些数据进行可行的深入分析与挖掘,对几乎所有社会领域的决策都越来越重要。数据仓库与数据挖掘将传统的数据分析方法与用于处理大量数据的复杂算法相结合,利用数据库管理技术和大量以机器学习为基础的数据分析技术,为数据库中的知识发现提供有效支撑。
因此,本书从数据仓库设计实现和数据挖掘的业务流程出发,全面、系统地介绍了数据仓库的设计开发和数据挖掘的基本概念、主要思想和典型的数据挖掘算法。本书将数据仓库和数据挖掘的理论与实践充分结合,以便加深、加快读者对所学内容的理解和掌握。
全书共13章,内容涵盖数据理论基础、数据预处理、数据仓库与联机分析处理、数据仓库设计与开发、回归分析、关联规则挖掘、分类、聚类、神经网络与深度学习、离群点检测以及文本和时序数据挖掘等内容。书中各章节相互独立,读者可根据自己的兴趣选择使用。各章力求原理叙述清晰,易于理解,突出理论联系实际,辅以代码实践与指导,引领读者更好地理解与应用算法,快速迈进数据仓库与数据挖掘领域,掌握机器学习算法的理论和应用。同时,除第13章外,书中每章都给出了小结和习题,可以帮助读者巩固本章学习内容,扩展相关知识。
本书特色:
(1) 内容系统全面,讲解深入浅出,易于理解。
(2) 详细介绍了数据仓库与数据挖掘的业务流程与典型方法。
(3) 配备了多个项目案例,理论结合实践。
(4) 配套资源丰富,方便教学。
本书的配套资源包括教学大纲、教学课件、电子教案、程序源码和习题答案,编者还为本书精心录制了600分钟的微课视频。
资源下载提示
课件等资源: 扫描封底的“课件下载”二维码,在公众号“书圈”下载。
素材(源码)等资源: 扫描目录上方的二维码下载。
视频等资源: 扫描封底的文泉云盘防盗码,再扫描书中相应章节的二维码,可以在线学习。
本书由魏伟一、张国治和秦红武主编,由于编者水平有限,书中疏漏之处在所难免,恳请读者批评指正。
本书在编写过程中得到了西北师范大学2022年教材建设项目的资助,在此表示衷心感谢。
编者2023年1月
|
|