《数据挖掘算法实践与案例详解丁兆云沈大勇徐伟周鋆》 - 台灣·大書城 - 丁兆云沈大勇徐伟周鋆 - 机械工业出版社

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　聯絡我們　 \|　運費計算　 \|　幫助中心　\|　加入書簽
		會員登入新用戶註冊

HOME

新書上架

暢銷書架

好書推介

2024年度TOP

香港／國際用戶

最新/最熱/最齊全的簡體書網

品種：超過100萬種書，正品正价，放心網購，悭钱省心

送貨：速遞 / 物流，時效：出貨後2-4日

『簡體書』数据挖掘算法实践与案例详解丁兆云沈大勇徐伟周鋆

書城自編碼： 4076951
分類：簡體書→大陸圖書→計算機/網絡→數據庫
作者：丁兆云沈大勇徐伟周鋆
國際書號(ISBN)： 9787111760696
出版社：机械工业出版社
出版日期： 2025-02-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：NT$ 301

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《孤独消费论》
售價：NT$ 305.0

《全球史的九炷香：哪吒、龙涎香与坦博拉》
售價：NT$ 500.0

《画非画：古代绘画中的图像与政治》
售價：NT$ 1010.0

《催化型领导力：破解新晋领导者的转型困境》
售價：NT$ 347.0

《英国馆藏中国画》
售價：NT$ 500.0

《又瘦，又美，又健康：女性减脂塑形避坑指南》
售價：NT$ 347.0

《遥望与亲历：一个西方家庭眼中的中国（1887—1950）》
售價：NT$ 347.0

《神的子民：古埃及人的风俗与日常. 第Ⅲ卷》
售價：NT$ 500.0

編輯推薦：

随着大数据和人工智能技术的发展，各行各业积累的数据越来越丰富，如何从这些数据中挖掘出有价值的信息，助力科学、合理的决策变得日益重要。数据挖掘技术可以从大量异构、随机数据中提取有用的信息和知识，已经广泛应用于工作和生活的各个领域。本书基于作者长期从事数据挖掘科研、工程和教学工作的经验编写而成，通过案例牵引，帮助读者掌握常用的数据挖掘算法、模型和技术，并解决常见的数据挖掘实际问题。本书特点：以实践为目标，系统介绍数据挖掘的流程，并给出代码实现。内容涵盖数据清洗、数据转换、数据降维、回归分析、聚类、神经网络分类等常用的数据挖掘技术和方法，使读者能够利用Python编程来解决基本的数据挖掘问题。本书提供了丰富的案例，规模由小到大，帮助读者循序渐进地掌握各类数据挖掘模型和算法。掌握这些案例后，读者可以举一反三，进一步解决更复杂、更大规模的问题。作者在中国大学MOOC上开设了“数据挖掘”MOOC课程（https://www.icourse163.org/course/NUDT-1461782176），并在头歌平台上开设了“数据挖掘”实验课程（https://www.educoder.net/pat

內容簡介：

数据挖掘算法为大数据与人工智能的核心，掌握数据挖掘各算法的编程实现，有助于提升大数据的实践运用能力。本书详细阐述了数据挖掘常用算法与编程实现，同时，本书以多个经典的数据挖掘赛题为案例，详细论述了数据预处理、特征选择、可视化、算法选择等全流程数据挖掘过程的编程实现，有助于提升读者面对实际数据问题时灵活运用各类算法能力。

關於作者：

丁兆云，国防科技大学博士毕业后留校任教至今，长期教授数据挖掘课程，负责国防科技大学系统工程学院“数据挖掘”专业方向考博命题工作，主持湖南省教改课题1项、国防科技大学教改课题1项、发表教学论文3篇，获得国防科技大学研究生教学优秀奖。

目　　录
前言
第1章　绪论　　1
1.1　数据挖掘技术的由来　　1
1.2　数据挖掘的分类　　2
1.2.1　关联规则挖掘　　2
1.2.2　监督式机器学习　　3
1.2.3　非监督式机器学习　　4
1.3　Python的安装步骤　　5
1.3.1　Python环境的配置　　5
1.3.2　PyCharm的安装　　7
1.4　常见的数据集　　10
1.4.1　鸢尾花数据集　　10
1.4.2　员工离职预测数据集　　11
1.4.3　泰坦尼克号灾难预测数据集　　12
1.4.4　PM2.5空气质量预测数据集　　13
1.5　本章小结　　13
第2章　分类　　14
2.1　分类的概念　　14
2.2　分类中的训练集与测试集　　14
2.3　分类的过程及验证方法　　15
2.3.1　准确率　　15
2.3.2　k折交叉验证　　16
2.4　贝叶斯分类的编程实践　　17
2.4.1　鸢尾花数据集的贝叶斯分类　　17
2.4.2　基于贝叶斯分类的员工离职
预测　　17
2.5　本章小结　　19
第3章　数据的特征选择　　20
3.1　直方图　　20
3.1.1　直方图可视化　　20
3.1.2　直方图特征选择　　23
3.2　直方图与柱状图的差异　　24
3.3　特征选择实践　　26
3.4　本章小结　　29
第4章　数据预处理之数据清洗　　30
4.1　案例概述　　30
4.2　缺失值处理　　31
4.2.1　缺失值处理概述　　31
4.2.2　缺失值处理实例　　32
4.3　噪声数据处理　　32
4.3.1　正态分布噪声数据检测　　32
4.3.2　用箱线图检测噪声数据　　34
4.4　数据预处理案例实践　　35
4.4.1　问题　　35
4.4.2　解决方法　　35
4.4.3　实践结论　　37
4.5　本章小结　　38
第5章　数据预处理之转换　　39
5.1　数据的数值化处理　　39
5.1.1　顺序编码　　39
5.1.2　二进制编码　　40
5.2　数据规范化　　42
5.2.1　最小–最大规范化　　42
5.2.2　z分数规范化　　43
5.2.3　小数定标规范化　　43
5.3　本章小结　　43
第6章　数据预处理之数据降维　　44
6.1　散点图可视化分析　　44
6.2　主成分分析　　46
6.3　本章小结　　49
第7章　不平衡数据分类　　50
7.1　不平衡数据分类问题的特征　　50
7.1.1　数据稀缺问题　　50
7.1.2　噪声问题　　51
7.1.3　决策面偏移问题　　51
7.1.4　评价标准问题　　51
7.2　重采样方法　　51
7.2.1　上采样　　52
7.2.2　对上采样方法的改进　　53
7.2.3　下采样　　58
7.2.4　对下采样方法的改进　　60
7.2.5　不平衡问题的其他处理方式　　65
7.3　不平衡数据分类实践　　65
7.4　本章小结　　66
第8章　回归分析　　67
8.1　线性回归　　67
8.1.1　一元线性回归　　67
8.1.2　多元线性回归　　69
8.2　回归分析检测　　71
8.2.1　正态分布可能性检测　　71
8.2.2　线性分布可能性检测　　72
8.2.3　log转换后的分布　　73
8.3　回归预测案例实践　　74
8.3.1　案例背景　　74
8.3.2　代码实现　　74
8.4　本章小结　　82
第9章　聚类分析　　83
9.1　k均值聚类　　83
9.1.1　算法的步骤　　83
9.1.2　代码实现　　83
9.2　层次聚类　　84
9.2.1　算法的步骤　　84
9.2.2　代码实现　　85
9.3　密度聚类　　85
9.3.1　算法的步骤　　85
9.3.2　代码实现　　86
9.4　本章小结　　88
第10章　关联分析　　90
10.1　Apriori算法　　90
10.2　关联分析案例实践　　92
10.2.1　案例背景　　92
10.2.2　案例的数据集　　93
10.2.3　代码实现　　93
10.2.4　运行结果　　93
10.3　提升Apriori算法性能的方法　　95
10.4　本章小结　　95
第11章　KNN分类　　96
11.1　KNN算法的步骤　　96
11.2　KNeighborsClassifier函数　　97
11.3　KNN的代码实现　　98
11.4　结果分析　　98
11.5　KNN案例实践　　99
11.5.1　案例分析　　99
11.5.2　案例实现　　100
11.5.3　运行结果　　103
11.6　本章小结　　104
第12章　支持向量机　　105
12.1　支持向量机的可视化分析　　105
12.2　SVM的代码实现　　108
12.2.1　鸢尾花数据分类　　108
12.2.2　新闻文本数据分类　　110
12.3　本章小结　　111
第13章　神经网络分类　　112
13.1　多层人工神经网络　　112
13.2　多层人工神经网络的代码实现　　113
13.3　神经网络分类案例实践　　114
13.3.1　案例背景　　114
13.3.2　数据说明　　114
13.3.3　代码实现　　115
13.4　本章小结　　120
第14章　集成学习　　121
14.1　Bagging方法　　121
14.2　随机森林　　123

內容試閱：

前　　言
随着大数据、人工智能技术的快速发展，各行各业积累的数据越来越丰富，数据挖掘的需求越来越大。本书针对实际数据及数据挖掘任务需求，提供数据预处理、特征选择、数据可视化、算法运用等方面的数据挖掘模型的原理与实现代码，为运用数据挖掘提供可参考的
方法。
笔者近年来一直从事数据挖掘方向的研究和数据挖掘课程的教学，长期指导学生参加数模竞赛、天池大数据竞赛、DataCastle大数据竞赛、Kaggle竞赛等高水平数据挖掘竞赛，并取得了优异成绩。同时，积极探索以数据挖掘技术为主线构建课堂教学与实践教学相融合的课程体系，总结了一套数据挖掘实践案例及参考代码，适合用于理工科相关专业的本科生与研究生的数据挖掘实验课程，也可供相关领域的科研与工程技术人员实践参考。
本书的组织结构如下：
第1章首先简述了数据挖掘的定义和分类，随后阐述了数据挖掘实践过程中的Python安装及环境配置方法并简单介绍了与本书中数据挖掘实践任务相关的数据集，让读者掌握如何安装实验环境，了解数据挖掘中的常用数据集。
第2章以贝叶斯分类为案例，阐述了分类的概念和实践全流程，包括数据集的划分、模型的运用和模型的评价，让读者能够针对具体数据，运用分类算法来完成数据分类过程。
第3章阐述了特征选择的实践方法，让读者掌握通过直方图与柱状图方法来完成数据的特征选择。
第4章阐述了数据清洗的实践方法，让读者掌握缺失值填充的方法，知道如何通过正态分布与箱线图方法发现数据离群点。最后，以“测测你的一见钟情指数”作为实践案例，详细阐述了数据清洗的实践过程。
第5章阐述了数据转换的实践方法，让读者掌握通过二进制编码方法将离散型数据数值化的方法，并掌握最小–最大规范化和z分数规范化、小数定标规范化的方法。
第6章阐述了数据降维的实践方法，让读者掌握通过散点图方法来分析数据相关性的技巧，并能够灵活运用主成分分析法。
第7章阐述了不平衡数据分类的实践方法，让读者掌握上采样与下采样的实际运用，通过“员工离职问题”实践案例，详细介绍了不平衡数据分类的实践过程。
第8章阐述了回归分析的实践方法，让读者掌握多元线性回归预测的实际运用，通过“PM2.5空气质量预测”实践案例，详细介绍了回归预测的实践过程。
第9章阐述了常见聚类算法的实际应用，使读者能够灵活应用k均值法、层次聚类法、密度聚类法。通过鸢尾花数据实践案例，详细介绍了密度聚类的实践过程。
第10章阐述了Apriori算法的实践方法，让读者掌握该算法的实现过程。通过“棒球运动产品推荐”实践案例，详细介绍了该算法的实践过程。
第11章阐述了KNN分类的实践方法，通过“鸢尾花分类”“相似电影推荐”两个实践案例，详细介绍了该算法的实践过程。
第12章阐述了支持向量机分类的实践方法，通过“鸢尾花数据分类”“新闻文本数据分类”两个实践案例，详细介绍了该算法的实践过程。
第13章阐述了神经网络分类的实践方法，通过“新闻文本分类”实践案例，详细介绍了该算法的实践过程。
第14章阐述了常见的集成学习算法的实践，让读者掌握Bagging、随机森林、Adaboost、GBDT、XGBoost的实际应用。通过“房价预测”“点击欺骗预测”实践案例，详细介绍了集成算法的实践过程。
第15章给出了各算法的综合运用案例，主要包括员工离职预测、二手车交易价格预测、信息抽取、学术网络节点分类四个综合案例。
本书在总结数据挖掘实践的基础上，在中国大学MOOC上开设了“数据挖掘”MOOC课程（https://www.icourse163.org/course/NUDT-1461782176），并在头歌平台上开设了“数据挖掘”实验课程（https://www.educoder.net/paths/4153），读者可通过在线视频课程的学习、作业训练与编程实践加深对数据挖掘知识点的理解，提高运用能力。
数据挖掘是一个快速发展的领域，加之本书编写时间短，作者水平有限，书中难免有疏漏之处，请各位读者、同行不吝指正。

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	台灣用户　\|　香港/海外用户

megBook.com.tw
Copyright (C) 2013 - 2025 （香港）大書城有限公司　All Rights Reserved.