新書推薦:
《
美丽与哀愁:第一次世界大战个人史
》
售價:NT$
653.0
《
国家豁免法的域外借鉴与实践建议
》
售價:NT$
857.0
《
大单元教学设计20讲
》
售價:NT$
347.0
《
儿童自我关怀练习册:做自己最好的朋友
》
售價:NT$
316.0
《
高敏感女性的力量(意大利心理学家FSP博士重磅力作。高敏感是优势,更是力量)
》
售價:NT$
286.0
《
元好问与他的时代(中华学术译丛)
》
售價:NT$
398.0
《
汽车传感器结构·原理·检测·维修
》
售價:NT$
500.0
《
怪谈百物语:不能开的门(“日本文学史上的奇迹”宫部美雪重要代表作!日本妖怪物语集大成之作,系列累销突破200万册!)
》
售價:NT$
296.0
|
編輯推薦: |
本书配套资源丰富,包括教学大纲、教学课件、电子教案、程序源码、习题答案、教学进度表,作者还为本书精心录制了微课视频。
|
內容簡介: |
本书内容丰富,循序渐进,以数据挖掘框架为主线,系统地介绍了数据挖掘技术的基本原理、方法和实践应用,全面反映了数据挖掘的理论体系和应用的*进展。课程既讨论数据挖掘的基本理论知识和框架体系结构,又介绍了数据挖掘算法的Python实现与应用,强调了理论与实践相结合,基础知识与前沿发展相结合。本书可作为计算机数据科学相关专业高年级本科生、硕士研究生的软件挖掘教材,同时也可以作为对Python数据挖掘感兴趣读者的自学参考书。
|
關於作者: |
魏伟一,控制理论与控制工程专业博士,硕士生导师。主要面向本科生研究生讲授数字图像处理、数据分析和挖掘等课程,先后参与完成国家和省部级项目多项,发表论文30余篇,研究方向为数字图像处理、机器学习和图像取证。
|
目錄:
|
源码下载
第1章绪论
1.1数据挖掘简介
1.2数据分析与数据挖掘
1.3数据挖掘的主要任务
1.3.1关联分析
1.3.2数据建模预测
1.3.3聚类分析
1.3.4离群点检测
1.4数据挖掘的数据源
1.4.1数据库数据
1.4.2数据仓库
1.4.3事务数据库
1.4.4其他类型数据
1.5数据挖掘使用的技术
1.5.1统计学
1.5.2机器学习
1.5.3数据库管理系统与数据仓库
1.6数据挖掘存在的主要问题
1.7数据挖掘建模的常用工具
1.7.1商用工具
1.7.2开源工具
1.8为何选用Python进行数据挖掘
1.9Python数据挖掘常用库
1.10Jupyter Notebook的使用
1.11小结
习题1
第2章Python数据分析与挖掘基础
2.1Python程序概述
2.1.1基础数据类型
2.1.2变量和赋值
2.1.3运算符和表达式
2.1.4字符串
2.1.5流程控制
2.1.6函数
2.2内建数据结构
2.2.1列表
2.2.2元组
2.2.3字典
2.2.4集合
2.3NumPy数值运算基础
2.3.1创建数组对象
2.3.2ndarray对象属性和数据转换
2.3.3生成随机数
2.3.4数组变换
2.3.5数组的索引和切片
2.3.6数组的运算
2.3.7NumPy中的数据统计与分析
2.4Pandas统计分析基础
2.4.1Pandas中的数据结构
2.4.2索引对象
2.4.3查看DataFrame的常用属性
2.4.4DataFrame的数据查询与编辑
2.4.5Pandas数据运算
2.4.6函数应用与映射
2.4.7排序
2.4.8汇总与统计
2.4.9数据分组与聚合
2.4.10Pandas数据读取与存储
2.5Matplotlib图表绘制基础
2.5.1Matplotlib简介
2.5.2Matplotlib绘图基础
2.5.3设置pyplot的动态rc参数
2.5.4文本注解
2.5.5pyplot中的常用绘图
2.6scikitlearn
2.6.1scikitlearn简介
2.6.2scikitlearn中的数据集
2.6.3scikitlearn的主要功能
2.7小结
习题2
第3章认识数据
3.1属性及其类型
3.1.1属性
3.1.2属性类型
3.2数据的基本统计描述
3.2.1中心趋势度量
3.2.2数据散布度量
3.3数据可视化
3.3.1基于像素的可视化技术
3.3.2几何投影可视化技术
3.3.3基于图符的可视化技术
3.3.4层次可视化技术
3.3.5可视化复杂对象和关系
3.3.6高维数据可视化
3.3.7Python可视化
3.4数据对象的相似性度量
3.4.1数据矩阵和相异性矩阵
3.4.2标称属性的相似性度量
3.4.3二元属性的相似性度量
3.4.4数值属性的相似性度量
3.4.5序数属性的相似性度量
3.4.6混合类型属性的相似性
3.4.7余弦相似性
3.4.8距离度量Python实现
3.5小结
习题3
第4章数据预处理
4.1数据预处理的必要性
4.1.1原始数据中存在的问题
4.1.2数据质量要求
4.2数据清洗
4.2.1数据清洗方法
4.2.2利用Pandas进行数据清洗
4.3数据集成
4.3.1数据集成过程中的关键问题
4.3.2利用Pandas合并数据
4.4数据标准化
4.4.1离差标准化数据
4.4.2标准差标准化数据
4.5数据归约
4.5.1维归约
4.5.2数量归约
4.5.3数据压缩
4.6数据变换与数据离散化
4.6.1数据变换的策略
4.6.2Python数据变换与离散化
4.7利用scikitlearn进行数据预处理
4.8小结
习题4
第5章回归分析
5.1回归分析概述
5.1.1回归分析的定义与分类
5.1.2回归分析的过程
5.2一元线性回归分析
5.2.1一元线性回归方法
5.2.2一元线性回归模型的参数估计
5.2.3一元线性回归模型的误差方差估计
5.2.4一元回归模型的主要统计检验
5.2.5一元线性回归的Python实现
5.3多元线性回归
5.3.1多元线性回归模型
5.3.2多元线性回归模型的参数估计
5.3.3多元线性回归的假设检验及其评价
5.3.4多元线性回归的Python实现
5.4逻辑回归
5.4.1逻辑回归模型
5.4.2逻辑回归的Python实现
5.5其他回归分析
5.5.1多项式回归
5.5.2岭回归
5.5.3Lasso回归
5.5.4逐步回归
5.6小结
习题5
第6章关联规则挖掘
6.1关联规则分析概述
6.2频繁项集、闭项集和关联规则
6.3频繁项集挖掘方法
6.3.1Apriori算法
6.3.2由频繁项集产生关联规则
6.3.3提高Apriori算法的效率
6.3.4频繁模式增长算法
6.3.5使用垂直数据格式挖掘频繁项集
6.4关联模式评估方法
6.4.1强关联规则不一定是有趣的
6.4.2从关联分析到相关分析
6.5Apriori算法应用
6.6小结
习题6
第7章分类
7.1分类概述
7.2决策树归纳
7.2.1决策树原理
7.2.2ID3算法
7.2.3C4.5算法
7.2.4CART算法
7.2.5树剪枝
7.2.6决策树应用
7.3K近邻算法
7.3.1算法原理
7.3.2Python算法实现
7.4支持向量机
7.4.1算法原理
7.4.2Python算法实现
7.5朴素贝叶斯分类
7.5.1算法原理
7.5.2朴素贝叶斯分类
7.5.3高斯朴素贝叶斯分类
7.5.4多项式朴素贝叶斯分类
7.5.5朴素贝叶斯分类应用
7.6模型评估与选择
7.6.1分类器性能的度量
7.6.2模型选择
7.7组合分类
7.7.1组合分类方法简介
7.7.2袋装
7.7.3提升和AdaBoost
7.7.4随机森林
7.8小结
习题7
第8章聚类
8.1聚类分析概述
8.1.1聚类分析的概念
8.1.2聚类算法分类
8.2KMeans聚类
8.2.1算法原理
8.2.2算法改进
8.2.3KMeans算法实现
8.3层次聚类
8.3.1算法原理
8.3.2簇间的距离度量
8.3.3分裂层次聚类
8.3.4凝聚层次聚类
8.3.5层次聚类应用
8.4基于密度的聚类
8.4.1算法原理
8.4.2算法改进
8.4.3DBSCAN算法实现
8.5其他聚类方法
8.5.1STING聚类
8.5.2概念聚类
8.5.3模糊聚类
8.6聚类评估
8.6.1聚类趋势的估计
8.6.2聚类簇数的确定
8.6.3聚类质量的测定
8.7小结
习题8
第9章神经网络与深度学习
9.1神经网络基础
9.1.1神经元模型
9.1.2感知机与多层网络
9.2BP神经网络
9.2.1多层前馈神经网络
9.2.2后向传播算法
9.2.3BP神经网络应用
9.3深度学习
9.3.1深度学习概述
9.3.2常用的深度学习算法
9.4小结
习题9
第10章离群点检测
10.1离群点概述
10.1.1离群点的概念
10.1.2离群点的类型
10.1.3离群点检测的挑战
10.2离群点的检测
10.2.1基于统计学的离群点检测
10.2.2基于邻近性的离群点检测
10.2.3基于聚类的离群点检测
10.2.4基于分类的离群点检测
10.3scikitlearn中的异常检测方法
10.4小结
习题10
第11章数据挖掘案例
11.1良恶性乳腺肿瘤预测
11.2泰坦尼克号乘客生还预测
11.3图像的聚类分割
11.4小结
参考文献
|
內容試閱:
|
随着数据采集和存储技术的迅速发展,数据正以前所未有的速度爆炸式增长。海量数据成了各行各业重要的战略资源,围绕这些数据进行可行的深入分析,对几乎所有社会领域的决策都变得越来越重要。数据挖掘将传统的数据分析方法与用于处理大量数据的复杂算法相结合,利用数据库管理技术和大量以机器学习为基础的数据分析技术,为数据库中的知识发现提供有效支撑。
因此,本书从数据挖掘的过程出发,以数据挖掘的流程和主要的机器学习算法为主线,全面系统地介绍了数据挖掘的基本概念和主要思想、典型的机器学习算法以及利用Python实现数据挖掘与机器学习的过程。本书将数据挖掘的理论与方法和机器学习算法以及项目实践充分结合,以便加深加快读者对所学内容的理解和掌握。
全书共11章,内容涵盖数据理论基础、数据预处理、Python数据挖掘与可视化基础、关联规则挖掘、回归分析、分类、聚类、神经网络和离群点检测等内容。书中各章节相互独立,读者可根据自己的兴趣选择使用。各章力求原理叙述清晰,易于理解,突出理论联系实际,辅以Python代码实践与指导,引领读者更好地理解与应用算法,快速迈进数据挖掘领域,掌握机器学习算法的理论和应用。同时,书中每章都给出了小结和习题,可以帮助读者巩固本章学习内容,扩展相关知识。
本书配套资源丰富,包括教学大纲、教学课件、电子教案、程序源码、习题答案、教学进度表,作者还为本书精心录制了650分钟的微课视频。
资源下载提示
课件等资源: 扫描封底的课件下载二维码,在公众号书圈下载。
素材(源码)等资源: 扫描目录上方的二维码下载。
视频等资源: 扫描封底刮刮卡中的二维码,再扫描书中相应章节中的二维码,可以在线学习。
本书由魏伟一和张国治编写,由于作者水平有限,不当之处在所难免,恳请各位读者赐教指正。
本书在编写过程中得到了全国高等院校计算机基础教育研究会2020年度面向新工科的数据挖掘教学改革与资源建设
项目(2020AFCEC096)的资助,在此表示衷心感谢。
魏伟一2021年1月
|
|