新書推薦:
《
爱丁堡古罗马史-罗马城的起源和共和国的崛起
》
售價:NT$
349.0
《
大宋悬疑录:貔貅刑
》
售價:NT$
340.0
《
人生解忧:佛学入门四十讲
》
售價:NT$
490.0
《
东野圭吾:分身(东野圭吾无法再现的双女主之作 奇绝瑰丽、残忍又温情)
》
售價:NT$
295.0
《
浪潮将至
》
售價:NT$
395.0
《
在虚无时代:与马克斯·韦伯共同思考
》
售價:NT$
260.0
《
日内交易与波段交易的资金风险管理
》
售價:NT$
390.0
《
自然信息图:一目了然的万物奇观
》
售價:NT$
640.0
|
編輯推薦: |
全面:对大数据涉及的各项技术如Hadoop、MapReduce、Storm、Spark等做了深入简出的介绍。
实用:配有多个实际操作案例供读者参考,轻松学习。
|
內容簡介: |
大数据技术是一个面向实际应用的技术。从大数据中获取有价值信息是大数据技术的精髓。本书概括性介绍了数据科学与大数据技术的主要内容。全书分为 9 章,主要包括概述、大数据处理平台、大数据获取与存储管理技术、大数据抽取技术、大数据清洗技术、大数据去噪与标准化、大数据约简与集成技术、大数据分析与挖掘技术、大数据分析结果解释与展现。
本书在内容上,注重基本概念、基本方法介绍,实例丰富、语言精练、逻辑层次清晰,适合作为大学数据科学与大数据技术专业和相近专业的教材,也可以作为科技人员的参考书。
|
關於作者: |
陈明,国内计算机科学领域资深专家,曾任大连理工大学计算机科学与工程系教授、系主任,中国石油大学北京计算机科学与技术系教授、系主任。中国计算机学会理事、中国人工智能学会理事、中国人工智能学会智能信息网专委会副主任。全国高校计算机基础教育研究会常务理事、教育部IT&AT 教育工程专家组成员。
|
目錄:
|
第 1 章 概述 ............................................ 1
1.1 数据科学 ................................................2
1.1.1 数据科学的产生与发展 ................2
1.1.2 数据科学的相关术语 ....................2
1.1.3 数据科学的主要内容 ....................3
1.1.4 数据科学的研究过程与体系框架.................................................4
1.1.5 数据科学、数据技术与数据工程.................................................6
1.1.6 大数据问题 ....................................6
1.2 大数据的生态环境 ................................7
1.2.1 互联网世界 ....................................7
1.2.2 物理世界 ........................................9
1.3 大数据的概念 ........................................9
1.3.1 数据容量 ......................................10
1.3.2 数据类型 ...................................... 11
1.3.3 价值密度 ...................................... 11
1.3.4 速度 .............................................. 11
1.3.5 真实性 .......................................... 11
1.4 大数据的性质 ...................................... 11
1.4.1 非结构性 ......................................12
1.4.2 不完备性 ......................................13
1.4.3 时效性 ..........................................13
1.4.4 安全性 ..........................................13
1.4.5 可靠性 ..........................................13
1.5 大数据处理周期 ..................................13
1.5.1 大数据处理全过程 ......................14
1.5.2 大数据技术的特征 ......................15
1.5.3 大数据的一些热点技术 ..............17
1.6 科学研究范式 ......................................18
1.6.1 科学研究范式的产生与发展 ......18
1.6.2 数据密集型科学研究第四范式....19
小结 ...............................................................23
第 2 章 大数据处理平台 ........................ 24
2.1 Hadoop 大数据处理平台 ....................24
2.1.1 离线计算概述 ..............................25
2.1.2 MapReduce 分布编程模型 ..........26
2.1.3 基于 Hadoop 的分布计算 ............27
2.1.4 MapReduce 程序设计分析 ..........31
2.1.5 Hadoop 环境部署与程序运行 .....36
2.2 Storm 大数据处理平台 .......................42
2.2.1 流式数据的概念与特征 ..............43
2.2.2 大数据的计算模式 ......................45
2.2.3 流式数据处理技术的应用 ..........46
2.2.4 流式计算的系统架构 ..................50
2.2.5 Storm 流处理过程 ........................52
2.2.6 单词计数 topology .......................56
2.3 Spark 大数据处理平台 ........................58
2.3.1 交互式处理系统的问题 ..............58
2.3.2 Scala 编程语言简介 .....................58
2.3.3 Spark 的主要特点 ........................59
2.3.4 软件栈 ..........................................60
2.3.5 核心概念 ......................................61
2.3.6 弹性分布式数据集 RDD .............62
2.3.7 单词计数实例分析 ......................66
小结 ...............................................................67
第 3 章 大数据获取与存储管理技术 ...... 68
3.1 大数据获取 ..........................................69
3.1.1 大数据获取的挑战 ......................69
3.1.2 传统的数据获取与大数据获取的区别...............................................69
3.2 领域数据 ..............................................70
3.2.1 文本数据 ......................................70
3.2.2 语音数据 ......................................71
3.2.3 图片数据 ......................................71
3.2.4 摄像头视频数据 ..........................71
3.2.5 图像数字化数据 ..........................71
3.2.6 图形数字化数据 ..........................71
3.2.7 空间数据 ......................................72
3.3 网站数据 ..............................................72
3.3.1 网站内部数据 ..............................73
3.3.2 网站外部数据 ...........................73
3.3.3 移动网站数据 ..............................73
3.4 网络爬虫 ..............................................73
3.4.1 网络爬虫的工作过程 ..................74
3.4.2 通用网络爬虫 ..............................74
3.4.3 聚焦网络爬虫 ..............................77
3.4.4 数据抓取目标的定义 ..................79
3.4.5 网页分析算法 ..............................80
3.4.6 更新策略 ......................................81
3.4.7 分布式爬虫的系统结构 ..............82
3.5 大数据存储 ..........................................84
3.5.1 大数据存储模型 ..........................84
3.5.2 大数据存储问题 ..........................84
3.5.3 大数据存储方式 ..........................85
3.6 大数据存储管理技术 ..........................86
3.6.1 数据容量问题 ..............................86
3.6.2 大图数据 ......................................87
3.6.3 数据存储管理 ..............................88
3.7 NoSQL 和 NewSQL .............................89
3.7.1 NoSQL ..........................................90
3.7.2 NewSQL 数据库 ..........................93
3.7.3 不同数据库架构混合应用模式....93
3.8 分布式文件系统 ..................................94
3.8.1 评价指标 ......................................94
3.8.2 HDFS 文件系统 ...........................95
3.8.3 NFS 文件系统 ..............................96
3.9 虚拟存储技术 ......................................97
3.9.1 虚拟存储的特点 ..........................98
3.9.2 虚拟存储的应用 ..........................98
3.10 云存储技术 ........................................99
3.10.1 云存储原理 ................................99
3.10.2 网络结构 ....................................99
3.10.3 云的分类 ....................................99
小结 .............................................................100
第 4 章 大数据抽取技术 ...................... 101
4.1 大数据抽取技术概述 .......................101
4.1.1 数据抽取的定义 ........................102
4.1.2 数据映射与数据迁移 ................102
4.1.3 数据抽取程序 ............................103
4.1.4 抽取、转换和加载 ....................103
4.1.5 数据抽取方式 ............................104
4.2 增量数据抽取技术 ............................104
4.2.1 增量抽取的特点与策略 ............105
4.2.2 基于触发器的增量抽取方式.............................................105
4.2.3 基于时间戳的增量抽取方式.............................................105
4.2.4 全表删除插入方式 ..................106
4.2.5 全表比对抽取方式 ....................106
4.2.6 日志表方式 ................................107
4.2.7 系统日志分析方式 ....................107
4.2.8 各种数据抽取机制的比较与分析.........................................107
4.3 非结构化数据抽取 ............................109
4.3.1 非结构化数据类型 ....................109
4.3.2 非结构化数据模型 ....................109
4.3.3 非结构化数据组织 .................... 111
4.3.4 纯文本抽取通用程序库 ............ 112
4.4 基于 Hadoop 平台的数据抽取 ......... 113
小结 ............................................................. 114
第 5 章 大数据清洗技术 .......................115
5.1 数据质量与数据清洗 ........................ 115
5.1.1 数据质量 .................................... 116
5.1.2 数据质量提高技术 .................... 118
5.1.3 数据清洗算法的标准 ................120
5.1.4 数据清洗的过程与模型 ............120
5.2 不完整数据清洗 ................................121
5.2.1 基本方法 ....................................121
5.2.2 基于 k-NN 近邻缺失数据的填充算法.....................................123
5.3 异常数据清洗 ....................................124
5.3.1 异常值产生的原因 ....................125
5.3.2 统计方法 ....................................125
5.3.3 基于邻近度的离群点检测 ........126
5.4 重复数据清洗 ....................................127
5.4.1 使用字段相似度识别重复值算法.............................................127
5.4.2 搜索引擎快速去重算法 ............128
5.5 文本清洗 ............................................128
5.5.1 字符串匹配算法 ........................129
5.5.2 文本相似度度量 ........................131
5.5.3 文档去重算法 ............................135
5.6 数据清洗的实现 ................................135
5.6.1 数据清洗的步骤 ........................135
5.6.2 基于 MapReduce 的大数据去重.............................................136
小结 .............................................................138
第 6 章 大数据去噪与标准化 ............... 139
6.1 基本的数据转换方法 ........................139
6.1.1 对数转换 ....................................139
6.1.2 平方根转换 ................................140
6.1.3 平方转换 ....................................140
6.1.4 倒数变换 ....................................140
6.2 数据平滑技术 ....................................140
6.2.1 移动平均法 ................................141
6.2.2 指数平滑法 ................................142
6.2.3 分箱平滑法 ................................146
6.3 数据规范化 ........................................148
6.3.1 zui小 - zui大规范化方法 ............148
6.3.2 z 分数规范化方法 ......................149
6.3.3 小数定标规范化方法 ................149
6.4 数据泛化处理 ....................................150
6.4.1 空间数据支配泛化算法 ............150
6.4.2 非空间数据支配泛化方法 ........151
6.4.3 统计信息网格方法 ....................151
小结 .............................................................151
第 7 章 大数据约简与集成技术 ........... 152
7.1 数据约简概述 ....................................153
7.1.1 数据约简定义 ............................153
7.1.2 数据约简方式 ............................153
7.2 特征约简 ............................................153
7.2.1 特征提取 ....................................154
7.2.2 特征选择 ....................................154
7.3 样本约简 ............................................155
7.3.1 简单随机抽样 ............................155
7.3.2 系统抽样 ....................................155
7.3.3 分层抽样 ....................................155
7.4 数据立方体聚集 ................................155
7.4.1 多维性 ........................................156
7.4.2 数据聚集 ....................................156
7.5 维约简 ................................................157
7.5.1 维约简的目的 ............................157
7.5.2 维约简的基本策略 ....................158
7.5.3 维约简的分类 ............................158
7.6 属性子集选择算法 ............................159
7.6.1 逐步向前选择属性 ....................159
7.6.2 逐步向后删除属性 ....................159
7.6.3 混合式选择 ...............................159
7.6.4 判定树归纳 ................................159
7.7 数据压缩 ............................................160
7.7.1 离散小波变换方法 ....................160
7.7.2 主成分分析压缩方法 ................161
7.8 数值约简 ............................................162
7.8.1 有参数值约简 ............................162
7.8.2 无参数值约简 ............................162
7.9 数据集成的概念与相关问题 ............163
7.9.1 数据集成的核心问题 ................165
7.9.2 数据集成的分类 ........................166
7.10 数据迁移 ..........................................168
7.10.1 在组织内部移动数据 ..............169
7.10.2 非结构化数据集成 ..................169
7.10.3 将处理移动到数据端 ..............170
7.11 数据集成模式 ..................................171
7.11.1 联邦数据库集成模式 ...............171
7.11.2 中间件集成模式 ......................172
7.11.3 数据仓库集成模式 ..................173
7.12 数据集成系统 ..................................173
7.12.1 全局模式 ..................................174
7.12.2 语义映射 ..................................175
7.12.3 查询重写 ..................................175
7.13 数据聚类集成 ..................................175
7.13.1 数据聚类集成概述 ..................175
7.13.2 高维数据聚类集成 ..................176
小结 .............................................................178
第 8 章 大数据分析与挖掘技术 ........... 179
8.1 大数据分析概述 ................................180
8.1.1 大数据分析的类型 ...................180
8.1.2 数字特征 ....................................182
8.1.3 统计方法论 ...............................184
8.1.4 模型与构建 ................................186
8.1.5 R 语言 .........................................186
8.2 统计分析方法 ....................................188
8.2.1 基本方法 ...................................188
8.2.2 常用分析方法 ............................194
8.3 数据挖掘理论基础 ............................ 211
8.3.1 数据挖掘是面向应用的技术 .... 211
8.3.2 数据挖掘的理论基础 ................212
8.3.3 基于数据存储方式的数据挖掘.............................................212
8.4 关联规则挖掘 ....................................214
8.4.1 频繁项目集生成算法 ................215
8.4.2 关联规则挖掘质量 ....................217
8.5 分类方法 ............................................218
8.5.1 基于距离的分类算法 ................219
8.5.2 KNN 算法的 MapReduce实现 ............................................220
8.5.3 决策树分类方法 ........................220
8.6 聚类方法 ............................................223
8.6.1 聚类定义与分类 ........................223
8.6.2 距离与相似性的度量 ................225
8.6.3 划分聚类方法 ............................226
8.6.4 层次聚类方法 ............................228
8.7 序列模式挖掘与文本数据挖掘 ........229
8.7.1 时间序列预测的常用方法 ........229
8.7.2 序列模式挖掘 ............................230
8.8 非结构化文本数据挖掘 ....................231
8.8.1 用户反馈文本 ............................232
8.8.2 用户反馈文本挖掘的一般过程 ............................................232
8.8.3 文本的自然语言处理 ...............234
8.9 基于 MapReduce 的分析与挖掘实例 ....................................................235
8.9.1 大数据平均值计算 ....................235
8.9.2 大数据排序 ................................236
8.9.3 倒排索引 ....................................237
小结 .............................................................241
第 9 章 大数据分析结果解释与展现 .... 242
9.1 数据分析结果解释的目的与内容 ....243
9.1.1 解释的目的 ................................243
9.1.2 检查和验证假设 ........................243
9.1.3 追踪分析过程 ............................244
9.2 数据的基本展现方式 ........................245
9.2.1 基于时间变化的可视化展现 ....245
9.2.2 由大及小的可视化展现 ............245
9.2.3 由小及大的可视化展现 ............246
9.2.4 突出对比的可视化展现 ............246
9.2.5 地域空间可视化展现 ................246
9.2.6 概念可视化展现 ........................248
9.2.7 气泡图可视化展现 ....................248
9.2.8 注重交叉点的数据可视化展现 ............................................248
9.2.9 剖析原因的数据可视化展现 ....248
9.2.10 描绘出异常值的可视化展现 ..........................................249
9.3 大数据可视化 ....................................249
9.3.1 文本可视化 ................................249
9.3.2 网络图可视化 ....................250
9.3.3 时空数据可视化 ........................252
9.3.4 多维数据可视化 ........................252
9.4 大数据可视分析 ................................253
9.4.1 可视分析的理论基础 ................254
9.4.2 大数据可视分析技术 ................257
9.5 数据可视化实现 ................................260
小结 .............................................................262
参考文献 ............................................... 263
?
|
內容試閱:
|
大数据技术与应用展现出锐不可当的强大生命力,科学界与企业界对其寄予厚望。大数据成为继 20 世纪末、21 世纪初互联网蓬勃发展以来的又一轮 IT 工业革命。大数据技术是指经过数据获取、清洗、集成、挖掘、分析与结果解释,从各种类型的巨量数据中快速获得有价值信息的全部技术。大数据技术的精髓是从大数据中产生新见解、识别复杂关系和做出越来越精准的预测。大数据技术是现代科学与技术发展,尤其是计算机科学技术发展的重要成果和结晶,是科学发展史的又一个新的里程碑。大数据的出现对计算机许多领域提出了挑战与冲击,推动了计算机科学技术的发展。大数据技术的出现凝集了多学科的研究成果,是一门多学科的交叉融合技术,随着科学技术的发展,大数据技术发展更为迅速,应用更为深入与广泛,并凸显其巨大潜力和应用价值。本书系统地介绍了大数据技术的核心内容,对大数据处理周期的各部分的模型和方法做了概括性介绍,而且基于应用的角度介绍了当下流行的 Hadoop、Storm 和 Spark 大数据处理平台,为将大数据处理周期中的处理方法在这些平台上实现建立了基础。本书主要内容说明如下。第 1 章为概述,主要包括数据科学、大数据的生态环境、大数据的概念、大数据的性质、大数据处理周期和科学研究范式;第 2 章为大数据处理平台,主要包括 Hadoop大数据处理平台、Storm 大数据处理平台和 Spark 大数据处理平台;第 3 章为大数据获取与存储管理技术,主要包括大数据获取、领域数据、网站数据、网络爬虫、大数据存储、大数据的存储管理技术、NewSQL 和 NoSQL、分布式文件系统、虚拟存储技术和云存储技术;第 4 章为大数据抽取技术,主要包括大数据抽取技术概述、增量数据抽取技术、非结构化数据抽取和基于 Hadoop 平台的数据抽取;第 5 章为大数据清洗技术,主要包括数据质量与数据清洗、不完整数据清洗、异常数据清洗、重复数据清洗、文本清洗和数据清洗的实现;第 6 章为大数据去噪与标准化,主要包括基本的数据转换方法、数据平滑技术、数据规范化和数据泛化;第 7 章为大数据约简与集成技术,主要包括数据约简概述、特征约简、样本约简、数据立方体聚集、维约简属性子集选择算法、数据压缩、数值约简、数据集成的概念与相关问题、数据迁移、数据集成模式、数据集成系统和数据聚类集成;第8章为大数据分析与挖掘技术,主要包括大数据分析概述、统计分析方法、数据挖掘理论基础、关联规则挖掘、分类方法、聚类方法、序列模式挖掘、非结构化文本数据挖掘和基于MapReduce的分析与挖掘实例;第9章为大数据分析结果解释与展现,主要包括数据分析结果解释、数据的基本展现方式、大数据可视化、大数据可视分析和数据可视化实现。本书在结构上为积木状,各章内容均为独立、注重概念性与方法性论述。出于篇幅考虑,书中所提及理论结果没有给出证明,如需要可以查阅相关文献。由于作者水平有限,书中不足之处在所难免,敬请读者批评指正。
|
|