《基于Rattle的可视化数据挖掘技术》 - 台灣·大書城 - 张冬慧 - 清华大学出版社

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　聯絡我們　 \|　運費計算　 \|　幫助中心　\|　加入書簽
		會員登入新用戶註冊

HOME

新書上架

暢銷書架

好書推介

2024年度TOP

香港／國際用戶

最新/最熱/最齊全的簡體書網

品種：超過100萬種書，正品正价，放心網購，悭钱省心

送貨：速遞 / 物流，時效：出貨後2-4日

『簡體書』基于Rattle的可视化数据挖掘技术

書城自編碼： 3032825
分類：簡體書→大陸圖書→計算機/網絡→圖形圖像/多媒體
作者：张冬慧
國際書號(ISBN)： 9787302474326
出版社：清华大学出版社
出版日期： 2017-08-01
版次： 1 印次： 1
頁數/字數： 174/256000
書度/開本： 32开釘裝：平装

售價：NT$ 281

我要買件

** 我創建的書架 **
未登入.

編輯推薦：

1. 介绍数据挖掘新技术Rattle可视化数据挖掘。2. 关注的是数据挖掘全过程的实践，包括数据理解、数据准备、模型建立、模型评估、模型优化和应用部署。3. 通过大量精选实例，循序渐进，全面系统地讲述数据挖掘过程。

內容簡介：

数据挖掘技术近年来发展异常迅猛，已成为大数据时代*热门的技术和研究热点，不仅产生了大量不同类型、功能强大的数据挖掘算法，而且推动了众多数据挖掘工具软件的发展。在这些软件中，R语言是数据挖掘领域*重要的软件之一。Rattle是一种用于数据挖掘的R语言的图形交互界面，或称为可视化数据挖掘工具。Rattle给出了从数据整理到模型评价的完整解决方案。
本书主要介绍如何用Rattle包进行数据挖掘，全书共9章，通过大量精选实例，循序渐进、全面系统地讲述数据挖掘过程。
本书不仅是从事数据挖掘和大数据分析工程技术人员开发相关系统的技术资料，也可作为学习数据挖掘和大数据分析等课程的参考用书。

目录
第1章绪论1
1.1数据挖掘的认识1
1.1.1为什么要进行数据挖掘1
1.1.2数据挖掘过程1
1.1.3数据挖掘九大定律3
1.2R与Rattle3
1.2.1R语言3
1.2.2R语言的基本语法4
1.2.3R语言的优势10
1.2.4Rattle包10
1.3本章小结12

第2章入门指南13
2.1概述13
2.2认识Rstudio13
2.2.1Rstudio的界面13
2.2.2R脚本编辑区14
2.2.3R命令控制台15
2.2.4工作空间16
2.2.5结果展示区18
2.3认识Rattle20
2.3.1Rattle的安装与启动20
2.3.2选项卡21
2.3.3工具栏24基于Rattle的可视化数据挖掘技术目录2.3.4菜单栏24
2.3.5属性面板26
2.4本章小结26

第3章数据准备28
3.1概述28
3.2数据28
3.2.1术语28
3.2.2变量29
3.2.3数据集30
3.3可用数据30
3.4数据质量31
3.4.1数据质量概述31
3.4.2数据质量评估维度31
3.4.3影响数据质量的因素31
3.5数据匹配32
3.6数据仓库33
3.7数据访问34
3.8载入数据35
3.8.1载入CSV数据35
3.8.2载入数据库36
3.8.3载入SPSS类型数据38
3.8.4载入自带数据集38
3.8.5载入网页数据38
3.8.6载入其他格式的数据39
3.9本章小结39

第4章数据理解41
4.1概述41
4.2汇总数据41
4.2.1查看数据的简单信息41
4.2.2查看数据的细节信息43
4.2.3查看数据的分布信息43
4.2.4查看数据的缺失值44
4.3数据分布图46
4.3.1数值型变量分布图46
4.3.2分类变量分布图50
4.3.3散点图矩阵52
4.4相关分析53
4.4.1相关矩阵和相关图53
4.4.2缺失值的相关分析55
4.4.3相关树56
4.5主成分分析60
4.6交互式探索数据62
4.6.1安装GGobi63
4.6.2安装rggobi63
4.6.3实验指导64
4.7本章小结64

第5章数据检验66
5.1概述66
5.2KS正态性检验67
5.3Wilcoxon检验68
5.4t检验70
5.5F检验72
5.6本章小结73

第6章数据变换75
6.1概述75
6.2取值范围调整77
6.3缺失值填充79
6.4变量类型转换81
6.4.1数值变量离散化81
6.4.2分类变量指标化81
6.4.3分类变量合并83
6.4.4分类变量和数值变量互相转换83
6.4.5变量和数据的删除83
6.5离群点数据的处理84
6.6本章小结86

第7章数据建模87
7.1概述87
7.2聚类模型96
7.2.1背景96
7.2.2Kmeans聚类96
7.2.3Ewkm聚类100
7.2.4层次聚类101
7.2.5双向聚类105
7.3关联规则挖掘106
7.3.1背景106
7.3.2基本术语107
7.3.3关联规则分类108
7.3.4Apriori算法108
7.3.5实验指导109
7.4传统决策树模型114
7.4.1背景114
7.4.2ID3算法115
7.4.3C4.5算法116
7.4.4实验指导117
7.5随机森林决策树模型120
7.5.1背景120
7.5.2随机森林算法121
7.5.3实验指导122
7.6自适应选择决策树模型126
7.6.1背景126
7.6.2Boosting算法127
7.6.3Adaboost算法127
7.6.4实验指导128
7.7SVM131
7.7.1背景131
7.7.2SVM算法131
7.7.3实验指导133
7.8线性回归模型134
7.8.1背景134
7.8.2一元线性回归方法135
7.8.3实验指导137
7.9神经网络模型138
7.9.1背景138
7.9.2人工神经网络模型139
7.9.3实验指导142
7.10本章小结143

第8章模型评估147
8.1概述147
8.2数据集148
8.3混淆矩阵149
8.3.1二分类混淆矩阵149
8.3.2模型评价指标150
8.3.3多分类混淆矩阵151
8.4风险图151
8.4.1风险图的作用151
8.4.2实验指导152
8.5ROC曲线154
8.5.1ROC曲线的定义154
8.5.2ROC曲线的作用154
8.5.3实验指导155
8.6其他模型评估图156
8.7本章小结157

第9章模型部署159
9.1概述159
9.2模型的应用159
9.3转换为PMML161
9.4电商数据挖掘案例162
9.4.1背景162
9.4.2数据理解162
9.4.3数据准备163
9.4.4清洗数据166
9.4.5探索数据167
9.4.6数据建模172
9.5本章小结174

参考文献175

內容試閱：

前言
数据挖掘是指从大量数据中通过各种算法挖掘知识的过程，是从数据集中识别出有效的、新颖的、潜在有用的，以及最终可理解模式的过程。近年来，数据挖掘技术发展异常迅猛，不仅产生了大量不同类型、功能强大的数据挖掘算法，而且推动了众多数据挖掘工具软件的发展。在这些软件中，R语言已悄然成为数据挖掘领域最重要的软件之一。R语言是一个包含众多学科、工程统计的庞大系统，是目前世界上流行的统计软件之一。R语言既是用于统计计算和统计制图的优秀工具，又是大数据分析和挖掘的重要工具。R语言得到全球顶级的统计学家支持，并实现了数据挖掘的所有关键算法。本书介绍了基于R语言开发的自由开源软件包Rattle进行数据挖掘的基本过程。Rattle包的源代码对每个人都是可见的，没有限制，任何人都可以扩展它。本书将引导读者通过Rattle包提供的各种选项完成数据挖掘任务。许多例子深入到R语言编程，目的是鼓励读者直接使用R语言作为脚本语言，通过R脚本实现数据挖掘所需要的基本技能。本书程序很少依赖对某些计算机编程语言的熟练程度。即使没有计算机编程经验，也能从本书受益。不过，还是鼓励所有读者熟悉使用某种计算机编程语言来处理和分析数据的方法。对大多数读者而言，本书容易理解，不需要很深的计算机和统计学背景知识。本书也会介绍一些较为复杂的统计、数学和程序设计概念，但主要的原则是保持简单，这意味着简化概念，且在不失去概念内涵的前提下保证概念的准确性。Rattle易学易用，不要求很多的R语言基础，被广泛应用于数据挖掘实践和教学之中。即使对R语言不是很了解的用户，也可以通过简单的鼠标点击来读入、转换、探索数据。而且，用户可以在Log中了解Rattle所使用的R语言命令记录。全书共9章，内容包括绪论、入门指南、数据准备、数据理解、数据检验、数据变换、数据建模、模型评估、模型部署。由于篇幅限制，本书并不能涵盖数据挖掘全部内容，读者可以通过《数理统计和数据分析》扩展统计学方面的知识；通过《线性回归分析导论》扩展线性回归方面的知识；通过《统计建模与R语言》扩展R在统计中应用方面的知识。若想更深入地了解R语言在数据挖掘中的应用，推荐参考《R语言与数据挖掘最佳实践和经典案例》；若想了解数据挖掘可视化R语言实现，推荐参考《R数据可视化手册》。感谢南通大学程显毅教授在资料整理过程中所做的工作。感谢北京信息科技大学计算中心给予的支持。R语言是正在蓬勃发展的编程语言，其在数据挖掘领域的应用还有一些有价值的新内容来不及收入本书。加之编者知识水平和实践经验有限，书中难免存在不足之处，敬请读者批评指正。
编者2017年3月于北京基于Rattle的可视化数据挖掘技术前言

第5章数据检验5.1概述本章内容包括t检验、F检验、KS正态性检验、Wilcoxon检验等。一般而言，为了确定从样本统计结果推论至总体时所犯错的概率，利用统计学家所开发的一些统计方法进行统计检验。通过把所得到的统计检验值与随机变量的概率分布进行比较，可以知道在百分之多少的机会下会得到目前的结果。倘若经比较后发现，出现这个结果的概率很小，亦即是说，是在机会很少、很罕有的情况下才出现，那便可以有信心地说，这不是巧合，是具有统计学上的意义的用统计学的话讲，就是能够拒绝假设。相反，若比较后发现，出现的概率很高，并不罕见，那便不能很有信心地直指这不是巧合，也许是巧合，也许不是，尚不能确定。F值和t值就是这些统计检验值，与它们相对应的概率分布，就是F分布和t分布。统计显著性P值就是出现目前样本结果的概率。P值为结果可信程度的一个递减指标，P值越大，越不能认为样本中变量的相关是总体中各变量相关的可靠指标。P值是将观察结果认为有效即具有总体代表性的犯错概率。例如，P=0.05提示样本中变量相关有5%的可能是由于偶然性造成的，即假设总体中任意变量间均无相关。重复类似实验，会发现约20个实验中有一个实验所研究的变量相关将等于或强于实验结果。这并不是说如果变量间存在相关，可得到5%或95%次数的相同结果，当总体中的变量存在相关，重复研究和发现相关的可能性与设计的统计学效力有关。在许多研究领域，0.05的P值通常被认为是可接受错误的边界水平。至于具体要检验的内容，须依据具体统计程序而定。例如，要检验两个独立样本均值差异是否能推论至总体，两样本如某班男生和女生某变量如身高的均数并不相同，但这个差异是否能推论至总体，代表总体的情况也存在差异呢？会不会总体中男女生根本没有差别，只不过是那么巧抽到这两个样本的数值不同？为基于Rattle的可视化数据挖掘技术第5章数据检验此，进行t检验，算出一个t检验值。与统计学家建立的以总体中没差别作基础的随机变量t分布进行比较，看看在百分之多少的机会亦即P值下会得到目前的结果。若P值很小，比如

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	台灣用户　\|　香港/海外用户

megBook.com.tw
Copyright (C) 2013 - 2025 （香港）大書城有限公司　All Rights Reserved.