新書推薦:
《
民法典1000问
》
售價:NT$
454.0
《
国术健身 易筋经
》
售價:NT$
152.0
《
古罗马800年
》
售價:NT$
857.0
《
权力与相互依赖(第四版)(中译本修订版)
》
售價:NT$
658.0
《
写出心灵深处的故事:踏上疗愈之旅(修订版)(创意写作书系)
》
售價:NT$
301.0
《
控制权视角下的家族企业管理与传承
》
售價:NT$
398.0
《
冯友兰和青年谈心系列
》
售價:NT$
762.0
《
利他主义的生意:偏爱“非理性”的市场(英国《金融时报》推荐读物!)
》
售價:NT$
352.0
|
內容簡介: |
本书通过大量实例介绍大数据平台技术,分4篇。大数据存储篇包括第1~3章,内容包括大数据技术概述、数据采集和大数据、大数据框架的安装和配置;大数据管理篇包括第4~7章,内容包括HDFS、Hadoop分布式计算模型、分布式协调服务ZooKeeper、Hadoop的集群资源管理系统YARN;大数据分析篇包括第8~10章,内容包括数据库MySQL和数据仓库Hive、NoSQL数据库HBase、基于内存的分布式计算框架Spark;大数据应用篇包括第11、12章,内容包括数据可视化、大数据应用综合案例。 本书可作为高等学校数据科学与大数据技术、计算机科学与技术、人工智能等理工类专业大数据平台技术课程的教材,也可供广大计算机爱好者及软件开发人员参考。
|
關於作者: |
郑啸,安徽工业大学教授,博士毕业于东南大学计算机应用技术专业,硕士生导师,安徽省高等学校优秀中青年骨干教师。主攻方向为计算机网络、工业互联网、云计算与服务计算、数据隐私保护。
|
目錄:
|
目录第1篇 大数据存储篇第1章 大数据技术概述11.1 大数据源起和应用11.2 大数据技术框架21.3 大数据就业岗位51.4 大数据的特点81.5 大数据的深远影响91.6 大数据的意义和发展目标91.7 大数据与云计算、物联网、 人工智能的关系101.8 教材在线资源及使用说明121.9 本章思维导图141.10 习题14第2章 数据采集和大数据152.1 数据采集和ETL152.2 网络爬虫152.2.1 通用网络爬虫与聚焦网络 爬虫162.2.2 网络爬虫的工作过程162.3 Python常用开发工具简介162.3.1 Python开发环境搭建172.3.2 开发工具PyCharm172.3.3 开发工具Jupyter Notebook172.4 Python语言简介182.4.1 Python常见的数据类型182.4.2 NumPy库222.5 基于Python的网络爬虫应用 实例252.5.1 Urllib库介绍252.5.2 数据采集和ETL实例282.6 本章思维导图322.7 习题32第3章 大数据框架的安装和配置333.1 大数据框架配置环境333.2 Linux操作系统介绍343.2.1 Linux的发展历史343.2.2 Linux版本特点353.2.3 Linux版本选择363.3 Linux终端常见命令373.3.1 基本命令373.3.2 目录操作命令383.3.3 文件操作命令413.3.4 系统工作命令513.3.5 其他常见命令543.4 虚拟机的使用573.5 远程登录工具配置573.6 Hadoop伪分布式安装和使用583.6.1 环境配置583.6.2 配置SSH免密登录583.6.3 配置JDK583.6.4 Hadoop伪分布式配置593.6.5 运行WordCount实例603.7 本章思维导图613.8 习题62第2篇 大数据管理篇第4章 HDFS634.1 引言634.2 HDFS基础知识644.2.1 HDFS的特点654.2.2 HDFS的优缺点654.2.3 HDFS的核心概念664.2.4 HDFS执行流程664.3 HDFS的常用Shell命令684.4 Hadoop中HDFS的Web管理 界面724.5 基于Java API的HDFS操作734.5.1 实验环境配置744.5.2 案例实现764.6 本章思维导图784.7 习题78第5章 Hadoop分布式计算模型795.1 完全分布式环境配置795.2 完全分布式配置步骤805.3 MapReduce计算模型835.4 Mapper-Reducer实例845.4.1 实验准备845.4.2 案例实现845.5 本章思维导图895.6 习题89第6章 分布式协调服务ZooKeeper906.1 高可靠性大数据框架配置906.2 ZooKeeper简介916.3 ZooKeeper的常用命令926.4 ZooKeeper的安装与运行936.5 本章思维导图956.6 习题95第7章 Hadoop的集群资源管理系统 YARN967.1 Hadoop资源管理配置967.2 YARN简介977.3 YARN的工作流程987.4 YARN的安装与运行997.5 本章思维导图1007.6 习题101第3篇 大数据分析篇第8章 数据库MySQL和数据仓库 Hive1028.1 基于Hive的大数据分析 配置1028.2 Hive的意义和应用1038.3 Hive和数据库的异同1048.4 Hive的架构模式及其执行1068.5 MySQL的安装和使用1088.5.1 MySQL数据库简介1088.5.2 安装MySQL1098.5.3 MySQL的基本操作1098.6 Hive的安装1148.7 Hive表的操作1148.7.1 内部表和外部表1148.7.2 Hive表的操作1158.8 典型内置函数与自定义函数1188.8.1 空值转换函数nvl1188.8.2 case when和sum函数的综合 应用1198.8.3 UDAF聚合函数concat1218.8.4 UDTF炸裂函数explode1238.8.5 窗口函数1248.8.6 自定义函数实例1278.9 本章思维导图1318.10 习题131第9章 NoSQL数据库HBase1329.1 大数据框架的数据库存储 配置1329.2 NoSQL概念和分类1339.3 HBase数据库1349.3.1 HBase数据模型1359.3.2 HBase体系架构及组件1369.4 HBase的安装1379.4.1 伪分布式1379.4.2 完全分布式1379.4.3 HBase的启动和关闭1389.4.4 HBase的网页端1399.5 HBase的Shell操作1419.6 基于Java API访问HBase 实例1469.6.1 准备工作1469.6.2 Eclipse环境下编程1469.7 HBase综合实例1509.8 本章思维导图1579.9 习题157第10章 基于内存的分布式计算 框架Spark15810.1 基于Spark的大数据分析框架 配置15810.2 Spark基础知识15910.2.1 Spark的特点15910.2.2 Spark和Hadoop的比较16010.2.3 RDD的概念16110.2.4 Spark的运行机制16110.2.5 Spark的运行模式16310.3 Spark的安装和使用16410.3.1 Spark安装16410.3.2 Python 3和Jupyter安装16510.3.3 启动PySpark16610.4 Spark的常用操作16810.5 Spark SQL的应用17410.6 Spark综合应用实例17810.7 Spark的机器学习17910.7.1 MLlib17910.7.2 Scala语言18010.7.3 MLlib的机器学习算法18110.7.4 Spark的机器学习流程18310.8 本章思维导图19410.9 习题194第4篇 大数据应用篇第11章 数据可视化19511.1 可视化分析展示配置19511.2 数据可视化概述19511.3 数据可视化绘图19711.3.1 绘制折线图19711.3.2 绘制柱状图19811.3.3 绘制直方图19911.3.4 绘制散点图20011.3.5 绘制饼图20111.3.6 绘制极坐标图20211.3.7 绘制雷达图20311.3.8 绘制热力图20511.3.9 绘制3D图20611.4 综合实例—鸢尾花数据集的 可视化分析20711.4.1 实验环境搭建20711.4.2 数据集介绍20811.4.3 数据可视化20811.5 本章思维导图21711.6 习题217第12章 大数据应用综合案例21812.1 医疗大数据应用框架配置21812.2 案例概述21812.2.1 背景和意义21812.2.2 预备知识22012.2.3 技术方案22312.3 准备数据和开发环境配置22412.3.1 实验环境安装简述22412.3.2 Sqoop的安装和使用22512.3.3 数据集介绍22512.4 数据探索性分析22612.5 数据迁移23512.6 数据预处理23912.7 数据建模与训练24112.8 模型评估24412.8.1 特征重要性24412.8.2 混淆矩阵24512.8.3 评估指标24512.8.4 ROC曲线24712.9 本章思维导图24812.10 习题248附录A 教材实验249实验1:基于Python的数据抓取和 清洗249实验2:基于Linux的Hadoop伪 分布式安装和操作250实验3:分布式Hadoop的配置和 使用252实验4:基于数据仓库Hive的数据 分析253实验5:NoSQL数据库HBase 使用255实验6:基于分布式Spark框架的 编程256实验7:综合案例设计与实现258参考文献260
|
|