新書推薦:
《
革命与反革命:社会文化视野下的民国政治(近世中国丛书)
》
售價:NT$
435.0
《
画楼:《北洋画报》忆旧(年轮丛书)
》
售價:NT$
1573.0
《
大国脊梁:漫画版
》
售價:NT$
374.0
《
跟着渤海小吏读历史:大唐气象(全三册)
》
售價:NT$
989.0
《
心智的构建:大脑如何创造我们的精神世界
》
售價:NT$
352.0
《
美国小史(揭秘“美国何以成为美国”,理解美国的经典入门读物)
》
售價:NT$
352.0
《
中国古代北方民族史丛书——东胡史
》
售價:NT$
576.0
《
巨人传(插图珍藏本)
》
售價:NT$
3289.0
編輯推薦:
本书是MathWorks Fellow推荐用书!在本书英文版网站上,可以下载MATLAB实例代码、EDA工具箱、数据集和书中所有彩色版图片插图。
系统论述MATLAB数据挖掘的享誉全球的著作!
英文原书网站提供实例代码、工具箱、数据集、彩色图片等资源!
內容簡介:
本书系统介绍了基于MATLAB语言的探索性数据分析与实现方法。本书共分10章,从实际数据集与探索性数据分析的基本概念讲起,内容涉及数据模式的发现、线性与非线性降维方法、数据巡查方法、聚类分析,以及用于探索性数据分析的数据可视化方法。除了基本分析与实现方法,书中也给出了丰富的应用实例,并提供了大量免费的相关资源,全部实例代码都可以直接用于探索性数据分析。
關於作者:
Wendy L. Martinez 1989年获得卡内基梅隆大学物理学和数学学士学位,后在乔治华盛顿大学及美国航空航天局兰利研究中心完成航空航天工程硕士学位的学习,并于1995年获得乔治梅森大学计算科学和信息学(主要是计算统计学)博士学位。获得博士学位后,在美国军队工作15年。在美国海军水面作战中心研发实验室,进行了概率密度估计、信号处理、科学可视化和模式识别等方面的研究。研究兴趣包括概率密度估计、统计模式识别和机器学习、科学可视化、探索性数据分析和文本数据挖掘。
目錄 :
目录
译者序Ⅰ
第2版前言Ⅲ
第1版前言Ⅴ
第一部分探索性数据分析综述
第1章绪论
1.1何为探索性数据分析
1.2全文概述
1.3关于符号表示法
1.4本书使用的数据集
1.4.1非结构化文本文档
1.4.2基因表达数据
1.4.3Oronsay数据集
1.4.4软件检测
1.5数据变换
1.5.1幂变换
1.5.2标准化
1.5.3数据球面化
1.6深入阅读
练习
第二部分模式发现的EDA方法
第2章降维线性方法
2.1简介
2.2主成分分析PCA
2.2.1基于样本协方差矩阵的PCA
2.2.2基于样本相关矩阵的PCA
2.2.3应该保留多少个维度
2.3奇异值分解SVD
2.4非负矩阵分解
2.5因子分析
2.6Fisher线性判别
2.7本征维数
2.7.1最近邻法
2.7.2关联维数
2.7.3最大似然法
2.7.4包数估计
2.8总结与深入阅读
练习
第3章降维非线性方法
3.1多维尺度分析MDS
3.1.1度量MDS
3.1.2非度量MDS
3.2流形学习
3.2.1局部线性嵌入
3.2.2等距特征映射ISOMAP
3.2.3海赛特征映射
3.3人工神经网络方法
3.3.1自组织映射
3.3.2生成式拓扑映射
3.3.3曲元分析
3.4总结与深入阅读
练习
第4章数据巡查
4.1总体巡查法
4.1.1Torus Winding法
4.1.2伪总体巡查法
4.2插值巡查法
4.3投影追踪法
4.4投影追踪索引
4.4.1Posse卡方索引
4.4.2矩索引
4.5独立成分分析
4.6总结与深入阅读
练习
第5章发现类
5.1简介
5.2层次聚类法
5.3优化方法k均值聚类
5.4谱聚类
5.5文本聚类
5.5.1非负矩阵分解回顾
5.5.2概率潜在语义分析
5.6聚类评估
5.6.1Rand索引
5.6.2同型相关
5.6.3上尾法
5.6.4轮廓图
5.6.5间隙统计
5.7总结与深入阅读
练习
第6章基于模型的聚类
6.1基于模型的聚类方法概述
6.2有限混合模型
6.2.1多元有限混合模型
6.2.2分量模型协方差矩阵约束
6.3最大期望算法
6.4基于模型的层次聚合聚类
6.5基于模型的聚类
6.6基于模型聚类的密度估计和判决分析
6.6.1模式识别介绍
6.6.2贝叶斯决策理论
6.6.3基于模型聚类的概率密度估计
6.7由混合模型生成随机数据
6.8总结与深入阅读
练习
第7章平滑散点图
7.1简介
7.2loess
7.3鲁棒loess拟合
7.4loess残差分析与诊断
7.4.1残差图
7.4.2散布平滑
7.4.3loess包络向上和向下平滑
7.5平滑样条及应用
7.5.1样条回归
7.5.2平滑样条
7.5.3均匀间隔数据的平滑样条
7.6选择平滑参数
7.7二元分布平滑
7.7.1中间平滑对
7.7.2极平滑
7.8曲线拟合工具箱
7.9总结与深入阅读
练习
第三部分EDA的图形方法
第8章聚类可视化
8.1树状图
8.2树图
8.3矩形图
8.4ReClus图
8.5数据图像
8.6总结与深入阅读
练习
第9章分布图形
9.1直方图
9.1.1一元直方图
9.1.2二元直方图
9.2箱线图
9.2.1基本箱线图
9.2.2基本箱线图的变形
9.3分位数图
9.3.1概率图
9.3.2qq图
9.3.3分位数图
9.4袋状图
9.5测距仪箱线图
9.6总结与深入阅读
练习
第10章多元可视化
10.1象形图
10.2散点图
10.2.12D和3D散点图
10.2.2散点图矩阵
10.2.3六边形分组散点图
10.3动态图
10.3.1识别数据
10.3.2关联
10.3.3笔刷
10.4协同图
10.5点阵图
10.5.1基本点阵图
10.5.2多路点阵图
10.6绘点为线
10.6.1平行坐标图
10.6.2安德鲁曲线
10.6.3安德鲁图像
10.6.4其他绘图矩阵
10.7再看数据巡查
10.7.1总体巡查
10.7.2组合巡查
10.8双标图
10.9总结与深入阅读
练习
附录A近似度量
A.1定义
A.1.1相异性
A.1.2相似性度量
A.1.3二值数据的相似性度量
A.1.4概率密度函数的相异性
A.2变换
A.3进阶阅读
附录BEDA相关软件资源
B.1MATLAB程序
B.2其他EDA程序
B.3EDA工具箱
附录C数据集的描述
附录DMATLAB工具使用要点
D.1MATLAB简介
D.2在MATLAB中获得帮助
D.3文件和工作空间管理
D.4MATLAB的标点符号
D.5算术运算符
D.6MATLAB的数据结构
D.6.1基本数据结构
D.6.2构建数组
D.6.3元胞数组
D.6.4结构体
D.7脚本文件与函数
D.8控制流
D.8.1for循环
D.8.2while循环
D.8.3条件分支语句
D.8.4开关语句
D.9基本绘图
D.10如何获取MATLAB信息
附录EMATLAB函数
E.1MATLAB
E.2统计工具箱
E.3EDA工具箱
E.4EDA图形界面工具箱
参考文献
內容試閱 :
第2版前言
在过去几年里,EDA领域的进步颇多,这本书也到了需要更新的时候了,尤其是在降维、聚类和可视化等方面,出现了很多新方法。
以下,我们列出了第2版中一些主要改进和增加的内容。
在线性降维这章增加了很多内容。新方法是非负矩阵分解和线性判别分析,也扩充了数据集本征维数的估计方法。
在第3章中,也描述了曲元分析这种非线性降维方法。曲元分析是作为自组织映射的一种改进方法提出的。
在数据巡查中加入了独立成分分析的内容。
几种新的聚类方法,包括非负矩阵分解、概率潜语义分析和谱聚类。
增加了关于平滑样条以及用于均匀间隔数据的快速样条方法。
在文中增加了几个可视化方法,包括用于二元数据的测距仪箱线图、带有边际直方图的散点图、双标图和一种叫作安德鲁图像的新方法。
文中很多方法可以通过图形用户界面(GUI)访问。这个免费的EDA GUI工具箱的详细信息列在附录E中。
与第1版类似,本书内容并未聚焦于方法的理论。确切地说,本书主要集中在EDA方法的运用。因此,本书并未纠缠于方法的实现和算法细节上。相反地,通过提供实例和应用,为学生和实践者提供了用于EDA的操作方法。
MATLAB的示例代码、工具箱、数据集和大部分图像的彩色版本均可下载。下载站点来自Carnegie Mellon StatLib,如下:
http:lib.stat.cmu.edu
或者是本书网站,如下:
http:pisigma.info
关于安装和变更信息,请参见readme文件。
关于MATLAB产品的信息,请联系:
The MathWorks, Inc.
3 Apple Hill Drive
Natick, MA, 017602098 USA
Tel: 5086477000
Fax: 5086477001
Email: info@mathworks.com
Web: www.mathworks.com
很多研究者写出了本书中所述方法的MATLAB代码并免费提供,对于他们的宝贵帮助,表示感谢。尤其是,作者感谢Michael Berry在非负矩阵分解方面的有益讨论,感谢Ata Kaban允许使用她的PLSI代码,也对Mia Hubert与Sabine Verboven授权使用他们的bagplot函数和非常耐心地与我们通信表示感谢。
感谢这套计算机科学和数据分析丛书的编辑们收录本书,感谢CRC出版社的David Grubbs、Bob Stern和Michele Dimont的帮助和耐心。一如既往地,感谢MathWorks公司的Naomi Fernandes和Tom Lane在MATLAB方面的特殊援助。
免责声明
1 随EDA工具箱提供的一些MATLAB函数由其他研究者编写,他们保留其著作权。在附录B和各自函数的帮助部分给出了参考文献。特别指出,EDA工具箱在GNU协议许可下提供:
http:www.gnu.orgcopyleftgpl.html
2 本书中表达的观点来自作者,并不代表美国国防部或者其分支机构的观点。
Wendy L.Martinez,Angel R. Martinez,Jeffrey L.Solka
第1版前言
我们的第一本书《基于MATLAB的计算统计学手册》(Computational Statistics Handbook with MATLAB)[2002],其目的之一就是展示计算统计学的一些基本概念和方法,以及如何用MATLAB实现MATLAB和Handle Graphics是MathWorks公司的注册商标。。计算统计学的一个核心部分就是探索性数据分析(exploratory data analysis),或称EDA。因此,这本书可以看作是第一本书的补充,并有类似的目标使得EDA技术为广大读者所用。
EDA属于统计学和数据分析,其思路是先探索数据,常采用描述性统计学、科学可视化、数据巡查、降维等方法。这种探索没有任何预设观点或者假设。相反,这种方法使用探索的结果来引导和展开后续的假设检验和建模等。它与数据挖掘领域紧密关联,本书讨论的很多EDA工具是知识发现和数据挖掘工具箱的一部分。
本书旨在服务于进行原始数据分析的广大读者,包括科学家、统计学家、数据挖掘者、工程师、计算机科学家、生物统计学家、社会科学家以及其他学科工作者,也希望本书可以用于大学高年级学生或者研究生课堂教学中。每章包含的练习题目使其适合作为EDA课程、数据挖掘、计算统计学、机器学习等方面的课本或者补充材料。我们鼓励读者仔细看一下练习,因为有时练习中会介绍一些新的概念。练习本质上是计算性的或者探索性的,所以往往没有唯一的答案。
至于本书所需的背景,假设读者有线性代数基础。比如,应该熟悉线性代数的名词、数组乘法、矩阵逆、行列式和数组转置等,也假设读者学习过概率与统计学课程。读者应该在这门课程里了解随机变量、概率分布和密度函数、基本的描述性度量和回归等。
与第一本书类似,本书并未纠结于方法的理论。确切地说,本书的重点在于EDA方法的运用。方法的实现是第二位的,但只要适宜,本书为学生们和实践者展示了方法实现的算法、过程和MATLAB代码。很多方法是复杂的,MATLAB的实现细节并不重要。在这些例子中,展示了如何使用函数和技巧。感兴趣的读者(或者程序员)可以查看M文件,获得更多信息。这样,喜欢使用其他编程语言的读者应该可以自行实现算法。
虽然本书不探究理论,但希望重申书中描述的方法都有其理论基础。因此,在各章最后,提供参考文献等资源,供那些想进一步了解理论信息的读者查阅。
MATLAB代码以EDA工具箱的形式随书提供。这包括函数、图形用户界面和书中使用的数据集。上述内容可以在以下网站下载:
http:lib.stat.cmu.edu
关于安装和变更信息,请参见readme文件。练习中包含MATLAB命令的M文件也可以下载。
本书也作了免责声明,说明本书中的MATLAB代码并不是最有效的方案。在很多情况下,为了(代码)清晰易懂而牺牲了效率。请参看示例的M文件,感谢MathWorks公司的Tom Lane。
附录B对EDA工具箱做了非常详细的描述,也提供了可供下载的(免费的)其他站点信息。这里的一些工具箱和函数在本书中使用,另外的那些提供了参考信息。只要可能和适合,本书都会使用EDA工具箱的免费函数,使作者很容易学习示例和练习。
假设读者有MathWorks公司的统计工具箱(版本4或者更高版本)。在恰当的时候,本书会指出函数是来自MATLAB主程序包、统计工具箱或者EDA工具箱。EDA工具箱的开发主要是基于MATLAB 6.5版(版本4的统计工具箱),所以如果你有这些条件,代码就可以正常运行。然而,在本书写作时,有新版的MATLAB及其统计工具箱发布,所以也整合了这个版本提供的新功能。
感谢以下校稿人的宝贵帮助: Chris Fraley、David Johannsen、Catherine Loader、Tom Lane、David Marchette和Jeffrey Solka。他们的很多意见和建议让本书变得更好,本书的任何不足之处由作者承担责任。特别感谢Jeffrey Solka在有限混合方法编程方面的协助,感谢Richard Johnson允许使用他的数据可视化工具箱并更新函数。也感谢所有本书所涉及方法的研究者,他们编写了MATLAB代码并免费提供使用。感谢计算机科学和数据分析丛书的编辑们收录本书。非常感谢CRC出版社的Bob Stern、Rob Calver、Jessica Vakili和Andrea Demby的帮助和耐心。最后,感谢MathWorks公司的Naomi Fernandes和Tom Lane在MATLAB方面的特殊援助。
免责声明
1 随EDA工具箱提供的一些MATLAB函数由其他研究者编写,他们保留其著作权。在附录B和各自函数的帮助部分给出了参考文献。除非特别指出,EDA工具箱在GNU协议许可下提供:
http:www.gnu.orgcopyleftgpl.html
2 本书中表达的观点来自作者,并不代表美国国防部或者其分支机构的观点。
Wendy L. Martinez,Angel R.Martinez