|
內容簡介: |
“大数据技术与应用”是一门大数据知识入门课程,是数据科学与大数据技术、计算机科学与技术、软件工程等专业的重要前沿理论课程,对于信息类专业的学生掌握大数据相关理论知识并与企业工程实践接轨具有十分重要的作用。本书共包含9章,第1章为初识大数据,第2章为大数据采集,第3章为大数据预处理,第4章为大数据存储,第5章为大数据计算,第6章为大数据挖掘,第7章为大数据安全,第8章为大数据可视化,第9章为大数据应用案例。本书以大数据生命周期为主线,通过理论学习+应用案例,使学生参与到大数据实际处理、分析中来,有利于学生深入理解大数据技术、综合应用大数据技术和面向产业实践大数据技术。本书可作为本科院校相关专业课程的教材,也可供相关技术人员参考。
|
關於作者: |
赵亮,博士,大连理工大学控制科学与工程学院副教授,硕士生导师。从事工业互联网、智能控制及建筑能源系统信息化等方面的研究,IEC国际标委会委员,辽宁省优秀博士学位论文获得者,英国Staffordshire University访问学者。负责国家自然科学基金项目1项、国家工信部绿色制造系统集成项目1项、辽宁省科技创新重大专项项目1项,负责企业委托开发项目多项,参与国家863重点项目、国家科技支撑项目1项、国家自然科学基金项目等多项,获日内瓦国际发明金奖1项、辽宁省科技进步三等奖1项,获得专利2项,软件著作权登记5项,发表论文50余篇。
|
目錄:
|
第1章 初识大数据11.1 大数据的概述11.1.1 大数据时代的背景及定义11.1.2 大数据的特征31.1.3 大数据的数据类型41.2 大数据的发展61.2.1 大数据概念的发展61.2.2 大数据技术的发展81.3 大数据的关键技术91.3.1 大数据采集91.3.2 大数据预处理101.3.3 大数据存储101.3.4 大数据计算121.3.5 大数据挖掘131.3.6 大数据安全141.3.7 大数据可视化161.4 大数据的应用案例171.4.1 大数据在金融领域中的应用171.4.2 大数据在医疗领域中的应用171.4.3 大数据在交通领域中的应用181.4.4 大数据在土地资源领域中的应用191.4.5 大数据的其他应用191.5 大数据面临的挑战201.5.1 数据隐私和安全201.5.2 数据存储和处理201.5.3 数据共享机制201.5.4 价值挖掘问题211.5.5 其他挑战211.6 大数据的发展趋势22思考题24第2章 大数据采集252.1 大数据采集的基础252.1.1 传统数据采集252.1.2 大数据采集的概述262.2 大数据采集的架构272.2.1 Scribe282.2.2 Chukwa292.2.3 Kafka302.2.4 Flume352.3 互联网数据抓取与处理技术372.3.1 App端数据采集382.3.2 网络爬虫392.3.3 常用的网络爬虫方法432.3.4 文本数据处理48思考题56第3章 大数据预处理573.1 数据基础的概念573.1.1 数据对象与属性类型573.1.2 数据的统计描述583.1.3 数据相似性和相异性的度量方法623.2 数据预处理的概述653.2.1 数据质量663.2.2 主要任务663.3 数据清洗673.3.1 缺失值处理673.3.2 光滑噪声数据处理683.3.3 检测偏差与纠正偏差703.4 数据集成703.4.1 模式识别和对象匹配713.4.2 冗余问题713.4.3 元组重复733.4.4 数据值冲突的检测与处理733.5 数据规约743.5.1 离散小波变换743.5.2 主成分分析753.5.3 属性子集选择753.5.4 回归和对数线性模型763.5.5 直方图773.5.6 聚类783.5.7 抽样783.5.8 数据立方体聚集793.6 数据转换803.6.1 通过规范化变换数据813.6.2 通过离散化变换数据823.6.3 标称数据的概念分层变换83思考题84第4章 大数据存储854.1 HDFS854.1.1 HDFS的概述854.1.2 HDFS的相关概念884.1.3 HDFS的体系结构914.1.4 HDFS的存储原理934.1.5 HDFS的数据读/写过程964.2 分布式数据库HBase984.2.1 概述984.2.2 HBase访问接口1004.2.3 HBase列族数据模型1014.2.4 HBase的实现1064.2.5 HBase的运行机制1104.3 NoSQL1144.3.1 NoSQL的简介1144.3.2 NoSQL的三大基石118思考题122第5章 大数据计算1235.1 批处理计算1235.1.1 MapReduce的概述1245.1.2 Map和Reduce1245.1.3 MapReduce的工作流程1255.1.4 MapReduce实例1295.2 流计算1335.2.1 流计算的概述1335.2.2 Storm1345.2.3 增量算法1365.3 图计算1375.3.1 图计算的概述1375.3.2 Pregel1385.4 查询分析计算1415.5 云计算1435.5.1 云计算的概述1435.5.2 云计算的关键技术1445.5.3 云计算与大数据1455.6 大数据计算平台1465.6.1 Hadoop1465.6.2 Spark154思考题160第6章 大数据挖掘1626.1 数据挖掘的基础1626.1.1 数据挖掘的概述1626.1.2 数据挖掘的主要任务1646.1.3 数据挖掘的对象1686.1.4 数据挖掘的工具1686.2 聚类分析1716.2.1 聚类分析的概述1716.2.2 基于划分的聚类算法1746.2.3 基于层次的聚类算法1836.2.4 基于密度的聚类算法1906.2.5 基于模型的聚类算法1946.3 分类分析1956.3.1 分类的基础知识1956.3.2 决策树分类1976.3.3 最近邻分类器2026.3.4 贝叶斯分类器2046.3.5 支持向量机预测2056.3.6 神经网络预测2146.4 回归分析2206.4.1 回归分析的概述2206.4.2 线性回归模型2216.4.3 支持向量回归模型2236.4.4 逻辑回归模型2256.5 关联分析2276.5.1 关联分析的概述2286.5.2 Apriori算法2306.5.3 FP增长算法235
|
|