新書推薦:
《
我们身边的小鸟朋友:手绘观鸟笔记
》
售價:NT$
356.0
《
拯救免疫失衡
》
售價:NT$
254.0
《
收尸人
》
售價:NT$
332.0
《
大模型应用开发:RAG入门与实战
》
售價:NT$
407.0
《
不挨饿快速瘦的减脂餐
》
售價:NT$
305.0
《
形而上学与存在论之间:费希特知识学研究(守望者)(德国古典哲学研究译丛)
》
售價:NT$
504.0
《
卫宫家今天的饭9 附画集特装版(含漫画1本+画集1本+卫宫士郎购物清单2张+特制相卡1张)
》
售價:NT$
602.0
《
化妆品学原理
》
售價:NT$
254.0
|
內容簡介: |
本书介绍了大数据处理技术核心栈的全部内容。主要从大数据处理技术的流程出发,围绕大数据的获取、存储、分析到可视化展示的完整过程,以目前主流的Hadoop、Spark等开源大数据处理平台为核心内容,从大数据技术应用的角度,提供主流厂商的大数据平台的对比分析,并提供行业应用案例和大数据处理的完整实例,以帮助新手从零基础开始学习大数据技术。除此之外,在大数据分析部分,除常用数据分析算法外,特别增加了文本大数据分析、图像大数据分析和视频大数据分析等非结构化数据分析算法及应用场景。针对大型的大数据处理应用场景,增加了大数据集成、大数据治理、大数据安全等章节。*后对大数据处理技术的发展趋势做了介绍。
|
目錄:
|
目录
第1章 绪论 1
1.1 什么是大数据 1
1.1.1 大数据概念的起源 2
1.1.2 大数据的4V特性 3
1.1.3 大数据与云计算 3
1.1.4 大数据与人工智能 4
1.1.5 大数据的典型应用场景 5
1.2 大数据处理技术体系 6
1.2.1 大数据处理基础框架 6
1.2.2 大数据处理过程概述 8
1.3 大数据处理技术学习路线 22
本章小结 24
思考题 24
参考文献 25
第2章 主流大数据处理框架 26
2.1 Hadoop 27
2.1.1 Hadoop起源和特点 27
2.1.2 Hadoop架构与核心部件 28
2.1.3 Hadoop的版本选择 29
2.2 Spark 30
2.2.1 Spark的起源和特点 30
2.2.2 Spark的核心概念——RDD 31
2.2.3 Spark的生态圈 33
2.3 Apache Storm 35
2.3.1 Storm的起源和应用场景 36
2.3.2 Storm的架构和原理 36
2.3.3 Storm的特性 38
2.3.4 Hadoop、Spark和Storm的性能对比 38
2.4 Oracle大数据处理框架 39
2.5 IBM大数据处理框架 41
2.6 SAP HANA大数据处理框架 42
2.7 Teradata大数据处理框架 43
2.8 主流厂商大数据处理框架对比 45
本章小结 45
思考题 45
参考文献 46
第3章 Hadoop大数据处理平台 47
3.1 Hadoop发展简史 47
3.1.1 发展简史 47
3.1.2 Hadoop*新架构 48
3.2 Hadoop核心技术 51
3.2.1 HDFS 51
3.2.2 MapReduce 57
3.3 Hadoop生态圈 59
3.3.1 HBase 59
3.3.2 Hive 70
3.3.3 Pig 73
3.3.4 Sqoop 75
3.3.5 ZooKeeper 81
3.3.6 Avro 82
3.4 Hadoop版本介绍 83
3.4.1 Cloudera CDH 83
3.4.2 Hortonworks HDP 87
3.5 Hadoop安装 87
3.5.1 Hadoop安装前期准备 87
3.5.2 安装经验汇总 88
本章小结 88
思考题 89
参考文献 89
第4章 Spark大数据处理平台 90
4.1 Spark概述 90
4.1.1 Spark发展简史 90
4.1.2 Spark的优点 90
4.2 Spark总体架构 91
4.2.1 Spark技术架构 91
4.2.2 Spark总体流程 93
4.3 Spark核心模块 98
4.3.1 RDD 98
4.3.2 Scheduler 101
4.3.3 Storage 105
4.3.4 Shuffle 107
4.4 Spark应用库 108
4.4.1 GraphX 108
4.4.2 Spark Streaming 112
4.4.3 Spark SQL 116
4.4.4 MLLib 120
4.5 Spark与Hadoop的区别 121
4.6 Spark与Hadoop的集成 122
4.7 Spark典型应用 123
4.7.1 Spark的适用场景 123
4.7.2 Spark在百度 124
4.7.3 Spark在阿里 124
4.7.4 Spark在腾讯 124
4.8 Spark安装使用 125
4.8.1 Scala安装 125
4.8.2 Spark安装 125
本章小结 128
思考题 129
参考文献 129
第5章 大数据获取技术 130
5.1 大数据采集 130
5.2 日志采集 131
5.2.1 Flume 131
5.2.2 Chukwa 136
5.2.3 Kafka 144
5.2.4 Flume、Chukwa和Kafka的比较 149
5.3 网络数据采集 150
5.3.1 网络爬虫技术概述 150
5.3.2 网络爬虫原理 150
5.3.3 网络爬虫体系结构 152
5.3.4 网络爬虫分类 153
5.4 数据库采集 156
5.4.1 ETL 156
5.4.2 大数据平台和现有数据仓库的有效整合 160
本章小结 161
思考题 161
参考文献 161
第6章 大数据存储 163
6.1 传统数据中心存储 163
6.1.1 DAS 163
6.1.2 NAS 165
6.1.3 SAN 167
6.1.4 对象存储技术 168
6.2 大数据存储技术 169
6.2.1 大数据存储与传统存储的不同 169
6.2.2 分布式文件系统 169
6.2.3 分布式数据库 175
6.3 NoSQL 179
6.3.1 BigTable 180
6.3.2 Dynamo 186
6.4 NewSQL 190
6.5 云数据库 193
6.6 各类存储方式对比 193
本章小结 194
思考题 194
参考文献 195
第7章 常用大数据分析算法 197
7.1 数据挖掘与机器学习 197
7.1.1 数据挖掘 197
7.1.2 机器学习 198
7.2 回归分析 199
7.2.1 线性回归linear regression 199
7.2.2 逻辑回归logistic regression 200
7.3 分类算法 201
7.3.1 决策树 201
7.3.2 支持向量机 204
7.3.3 朴素贝叶斯分类器 207
7.4 聚类算法 209
7.4.1 数据划分 210
7.4.2 类别的定义 211
7.4.3 K-Means算法 211
7.4.4 K-Means算法遇到的问题 212
7.5 集成学习 213
7.5.1 集成学习的简述 213
7.5.2 弱学习器weak learner 213
7.5.3 Boosting 214
7.5.4 Bagging 215
7.5.5 随机森林 216
7.5.6 结合策略 217
7.6 深度学习基础 218
7.6.1 人工神经网络 218
7.6.2 BP神经网络 219
7.6.3 激活函数 221
7.7 卷积神经网络 225
7.7.1 从神经网络到卷积神经网络 225
7.7.2 卷积神经网络的层级结构 226
7.7.3 CNN小结 231
7.8 循环神经网络 231
7.8.1 循环神经网络简介 231
7.8.2 RNN的基本结构 232
7.8.3 RNN的高级形式 233
7.9 对抗学习 235
7.9.1 对抗网络简介 235
7.9.2 GAN的目的与设计思路 236
7.9.3 对抗网络模型 237
7.9.4 GAN优化问题 239
7.10 常用数据分析工具简介 240
7.10.1 Mahout 240
7.10.2 Hive 241
7.10.3 TensorFlow深度学习框架 242
7.10.4 其他深度学习框架 243
本章小结 244
思考题 245
参考文献 245
第8章 文本大数据分析 247
8.1 文本大数据处理 247
8.1.1 文本大数据的特点 247
8.1.2 文本分析简介 248
8.1.3 文本大数据分析的主要应用场景 249
8.1.4 文本大数据分析的技术难点 251
8.2 文本大数据分析主要流程 252
8.2.1 获取语料 252
8.2.2 文本预处理 254
8.2.3 构造文本特征 255
8.2.4 特征选择处理 257
8.2.5 学习模型训练 258
8.3 深度学习文本分类模型 258
8.3.1 fastText 259
8.3.2 TextCNN 259
8.3.3 TextRNN 261
8.3.4 TextRNN+Attention 262
8.3.5 TextRCNNTextRNN+CNN 264
8.3.6 HAN 264
8.3.7 深度学习文本分类小结 265
8.4 文本大数据分析实例——文本分类 266
8.4.1 业务问题描述 266
8.4.2 传统文本分类方法 267
8.4.3 深度学习文本分类方法 268
本章小结 271
思考题 271
参考文献 271
第9章 图像大数据分析技术 273
9.1 图像分析技术简介 273
9.1.1 图像分析技术简介 273
9.1.2 图像分析的四个基本过程 274
9.2 边缘检测 274
9.2.1 边缘检测的简述 274
9.2.2 边缘检测算子 275
9.3 图像分割 277
9.3.1 灰度阈值分割 277
9.3.2 区域分割 278
9.4 目标检测与识别 280
9.4.1 基于区域提名的目标检测与识别算法 280
9.4.2 端到端的的目标检测与识别算法 285
9.5 图像大数据分析典型应用——人脸识别 287
9.5.1 人脸识别技术流程 287
9.5.2 识别算法 288
9.5.3 人脸识别技术的优势和困难 290
9.6 图像大数据分析其他应用 291
9.6.1 “看图说话” 291
9.6.2 视觉问答 292
9.6.3 网络可视化和网络理解 294
9.6.4 特征逆向工程 297
9.6.5 图像检索 299
本章小结 300
思考题 300
参考文献 301
第10章 视频大数据分析技术 302
10.1 视频大数据应用的主要驱动 302
10.1.1 累积的视频数据价值量巨大 302
10.1.2 技术的成熟 303
10.1.3 政策的推动 304
10.2 视频大数据分析基础 304
10.2.1 视频数据采集 305
10.2.2 视频数据压缩 305
10.2.3 视频数据存储 305
10.2.4 视频大数据分析的关键技术 306
10.3 目标检测 306
10.3.1 背景差分法 308
10.3.2 帧间差分法 312
10.3.3 光流法 315
10.4 目标识别 318
10.4.1 单帧图像目标识别 319
10.4.2 改进分类损失 319
10.4.3 利用跟踪信息修正 320
10.4.4 网络选择与训练技巧 320
|
|