新書推薦:
《
制度为什么重要:政治科学中的新制度主义(人文社科悦读坊)
》
售價:NT$
290.0
《
梦醒子:一位华北乡居者的人生(1857—1942))(第2版)
》
售價:NT$
340.0
《
啊哈!原来如此(中译本修订版)
》
售價:NT$
290.0
《
部分识别入门——计量经济学的创新性方法
》
售價:NT$
345.0
《
东野圭吾:变身(来一场真正的烧脑 如果移植了别人的脑子,那是否还是我自己)
》
售價:NT$
295.0
《
严复与福泽谕吉启蒙思想比较(王中江著作系列)
》
售價:NT$
750.0
《
甘于平凡的勇气
》
售價:NT$
225.0
《
存在与结构:精神分析的法国转向——以拉康与萨特为中心
》
售價:NT$
240.0
內容簡介:
全书理论联系实际,全面讲述数据挖据理论、技术及应用的教材。研讨了数据挖掘的方方面面,从基础理论到复杂数据类型及其应用。不仅讨论传统的数据挖掘问题,而且介绍了高级数据类型,例如文本、时间序列、离散序列、空间数据、图数据和社会网络。本书由基础篇和进阶篇组成。基础篇对应原书的第1~11章,进阶篇对应原书的第12~20章。
關於作者:
查鲁·C. 阿加沃尔(Charu C. Aggarwal)是IBM T. J. Watson研究中心的杰出研究人员,于1996年获麻省理工学院博士学位。他对数据挖掘领域有着广泛的研究,在国际会议和期刊上发表了250多篇论文,拥有80多项专利。他曾三次被评为IBM的“杰出发明人”,并曾获得IBM公司奖、IBM杰出创新奖和两项IBM杰出技术成就奖。他因为提出基于冷凝的数据挖掘中的隐私保护技术而获得EDBT2014的时间检验奖。他还获得了IEEE ICDM研究贡献奖(2015),这是数据挖掘领域对具有突出贡献的研究的两个*高奖项之一。
他曾多次担任ACMIEEE知名国际学术会议的主席或程序委员会主席,并担任大数据相关多个知名期刊的主编或编委。由于在知识发现和数据挖掘算法上的贡献,他入选SIAM、ACM和IEEE的会士。
目錄 :
出版者的话译者序前言第14章 时间序列数据挖掘114.1 引言114.2 时间序列的前期准备和相似性度量214.2.1 缺失值处理214.2.2 噪声去除314.2.3 归一化414.2.4 数据转换和约简514.2.5 时间序列相似性度量614.3 时间序列预测714.3.1 自回归模型914.3.2 自回归移动平均模型1014.3.3 带有隐含变量的多元预测1114.4 时间序列模体1314.4.1 基于距离的模体1414.4.2 转换为序列模式挖掘1514.4.3 周期模式1614.5 时间序列聚类1614.5.1 共同演化序列的在线聚类1714.5.2 基于形状的聚类1914.6 时间序列异常检测2014.6.1 点异常2114.6.2 形状异常2214.7 时间序列分类2314.7.1 有监督事件检测2314.7.2 全时序分类2614.8 小结2714.9 文献注释2714.10 练习题28第15章 离散序列挖掘2915.1 引言2915.2 序列模式挖掘3015.2.1 频繁模式到频繁序列3215.2.2 约束的序列模式挖掘3415.3 序列聚类3515.3.1 基于距离的方法3615.3.2 基于图的方法3615.3.3 基于序列的聚类3715.3.4 概率聚类3715.4 序列中的异常检测4015.4.1 位置异常4015.4.2 组合异常4415.5 隐马尔可夫模型4515.5.1 HMM的正式定义4715.5.2 评估:计算观察序列的拟合概率4815.5.3 说明:确定观察序列的最优状态序列4915.5.4 训练:鲍姆韦尔奇算法4915.5.5 应用5015.6 序列分类5115.6.1 最近邻分类器5115.6.2 基于图的方法5115.6.3 基于规则的方法5215.6.4 内核SVM5215.6.5 概率方法:隐马尔可夫模型5415.7 小结5415.8 文献注释5515.9 练习题55第16章 空间数据挖掘5716.1 引言5716.2 上下文空间属性的挖掘5816.2.1 形状到时间序列的转换5816.2.2 使用小波分析的空间数据到多维数据的转换6116.2.3 共址空间模式6216.2.4 形状聚类6316.2.5 异常检测6416.2.6 形状分类6616.3 轨迹挖掘6716.3.1 轨迹数据和多变量时间序列的等价性6716.3.2 将轨迹转换为多维数据6816.3.3 轨迹模式挖掘6816.3.4 轨迹聚类7016.3.5 轨迹异常检测7216.3.6 轨迹分类7316.4 小结7416.5 文献注释7416.6 练习题75第17章 图数据挖掘7617.1 引言7617.2 图匹配和距离计算7717.2.1 同构子图问题的Ullman算法7917.2.2 最大公共子图问题8217.2.3 用于距离计算的图匹配方法8217.3 基于转换的距离计算8617.3.1 基于频繁子结构的转换和距离计算8617.3.2 拓扑描述量8717.3.3 基于内核的转换和计算8917.4 图数据的频繁子结构挖掘9017.4.1 基于节点的连接9217.4.2 基于边的连接9217.4.3 频繁模式挖掘到图模式挖掘9317.5 图聚类9317.5.1 基于距离的方法9417.5.2 基于频繁子结构的方法9417.6 图分类 9617.6.1 基于距离的方法9617.6.2 基于频繁子结构的方法9717.6.3 内核SVM9817.7 小结9817.8 文献注释9917.9 练习题99第18章 挖掘Web数据10118.1 引言10118.2 Web爬取和资源发现10218.2.1 基本爬虫算法10218.2.2 偏好爬虫10318.2.3 多线程10418.2.4 爬虫陷阱应对方法10418.2.5 检测近似重复的覆盖10418.3 搜索引擎索引和查询处理10518.4 排名算法10718.4.1 PageRank10718.4.2 HITS11118.5 推荐系统11218.5.1 基于内容的推荐11418.5.2 协同过滤基于邻域的方法11518.5.3 基于图的方法11618.5.4 聚类方法11718.5.5 潜在因素模型11818.6 Web使用记录的挖掘11918.6.1 数据预处理12018.6.2 应用12018.7 小结12118.8 文献注释12118.9 练习题122第19章 社交网络分析12319.1 引言12319.2 社交网络:预备知识与特性12419.2.1 同质性12419.2.2 三元闭合和聚类系数12419.2.3 网络构成的动态性12519.2.4 符合幂定律的度分布12619.2.5 中心度和声望的度量12619.3 社区发现12919.3.1 Kernighan-Lin算法13119.3.2 Girvan-Newman算法13219.3.3 多层次的图划分:METIS13519.3.4 谱聚类13719.4 协同分类14019.4.1 迭代分类算法14119.4.2 随机游走方式的标签传播14219.4.3 有监督的谱方法14519.5 链接预测14719.5.1 基于邻域的度量14819.5.2 Katz度量14919.5.3 基于随机游走的度量15019.5.4 链接预测作为分类问题15019.5.5 链接预测作为缺失值估计问题15019.5.6 讨论15119.6
內容試閱 :
“数据是新时代的石油。”—Clive Humby在过去二十多年中,数据挖掘领域取得了很大的进步,从计算机科学的角度来看尤其明显。尽管传统的概率与统计领域对数据分析已经有了广泛和深入的研究,但数据挖掘这个术语是由计算机科学相关的社区所创立的。对计算机科学家来说,计算的可扩展性、可用性和计算的执行都是极为重要的。作为一门学科,数据科学需要一本超越传统的、仅专注于基本数据挖掘的教科书。最近几年,“数据科学家”这样的工作职位已经在市场上出现,这些人的工作职责就是从海量数据中窥探知识。在典型的应用中,数据类型倾向于异构及多样,基于多维数据类型的基本方法可能会失去效用,因此我们更需要将重点放在这些不同的数据类型以及使用这些数据类型的应用上。一本全面覆盖数据挖掘内容的书必须探索数据挖掘的不同方面,从基本技术出发,进而探讨复杂的数据类型,以及这些数据类型与基本技术的关系。虽然基本技术构成数据挖掘的良好基础,但它们并没有展示出数据分析真正复杂的全貌。本书在不影响介绍基本技术的情况下,研究这些高级的话题,因此本书可以同时用于初级和高级数据挖掘课程。到目前为止,还没有一本书用这种全面、综合的方式来覆盖所有这些话题。本书假设读者已经有了一些概率统计和线性代数方面的基础知识,一般掌握了理工科本科时期学习的相关内容就足够了。对业界的从业者来说,只要对这些基础知识有一定的实际经验,就可以使用本书。较强的数学背景对学习那些高级话题的章节显然会有所帮助,但并不是必需的。有些章节专门介绍特殊的数据挖掘场景,比如文本数据、时序数据、离散序列、图数据等,这种专门的处理是为了更好地展示数据挖掘在多种应用领域有用武之地。本书的章节可以分为三类。基础章节:数据挖掘主要有四个“超级问题”,即聚类、分类、关联模式挖掘和异常分析,它们的重要性体现为许许多多的实际应用把它们当成基本构件。由此,数据挖掘研究者和实践者非常重视为这些问题设计有效且高效的方法。这些基础章节详细地讨论了数据挖掘领域针对这几个超级问题所提出的各类解决方法。领域章节:这些章节讨论不同领域的特殊方法,包括文本数据、时序数据、序列数据、图数据、空间数据等。这些章节多数可以认为是应用性章节,因为它们探索特定领域的特殊性问题。应用章节:计算机硬件技术和软件平台的发展导致了一些数据密集型应用的产生,如数据流系统、Web挖掘、社交网络和隐私保护。应用章节对这些话题进行了详细的介绍。前面所说的那些领域章节其实也集中讨论了由这些不同的数据类型而产生的各类应用。给使用本书的教师的一点建议本书的撰写特点使得它特别适用于数据挖掘基础和高级两门课程的教学。通过对不同重点的关注,本书也可用于不同类型的数据挖掘课程。具体来说,使用各种章节组合可提供的课程包括下面几种。基础课程:数据挖掘基础课程应侧重于数据挖掘的基础知识。这门课可以使用本书的第1、2、3、4、6、8、10章。事实上,一门课可能无法覆盖这些章节中的所有内容,任课教师可根据需要从这些章节中选择他们感兴趣的话题。这门课也可以考虑使用本书的第5、7、9、11章的部分内容,这些章节确实是为高级课程准备的,但不妨在基础课程中引入一部分。高级课程(基础):这门课将涵盖数据挖掘基础中的高级话题,并假定学生已经熟悉了本书第1~3章的内容,及第4、6、8、10章中的部分内容。这门课将主要关注第5、7、9、11章,如集成分析这样的内容对一门高级课程是有益的。此外,在基础课程中没来得及教授的第4、6、8、10章中的内容也可以在这门课中使用,并考虑增加第20章的隐私话题。高级课程(数据类型):这门课可以教授文本挖掘、时序、序列、图数据和空间数据等内容,使用本书的第13、14、15、16、17章。也可以考虑增加第19章(如图聚类部分)和第12章(数据流)的内容。高级课程(应用):应用课程可以与数据类型课程有所重叠,但有不同的侧重点。例如,在一个以应用为中心的课程中,重点应该放在建模而非算法方面。因此,第 13、14、15、16、17章中的内容可以保留,但可以跳过一些算法细节。因为对具体算法关注得少些,这几章可以比较快地介绍,建议把省下来的时间分配给重要的三章,即数据流(第12章)、Web挖掘(第18章)以及社交网络分析(第19章)。本书的撰写风格简单,便于数学背景不多的本科生和业界从业人员使用。因此,对于学生、业界从业者以及科研人员,本书既可以作为初级的介绍性课本,也可以作为高级课程的课本。在本书中,向量与多维数据点(包括类别型属性)都用上划线标注,如或y。向量或多维数据点可以由小写字母或大写字母来表示,只要有上划线标注即可。向量点积由中心点表示,如。矩阵用大写字母表示,不用上划线标注,如R。在整本书中,n×d的数据矩阵用D表示,包含n个d维的点,因此D中的各个数据点是一个d维列向量。若数据点是只包含一项的向量(即一维向量),那么n个数据点即可表示为一个n维列向量。比如,n个数据点的类别变量就是一个n维的