新書推薦:
《
汉语副词研究论集(第六辑)
》
售價:NT$
490.0
《
镶嵌之美:古希腊罗马的马赛克艺术
》
售價:NT$
1390.0
《
后希腊化哲学:从斯多亚学派到奥利金的发展研究
》
售價:NT$
349.0
《
别纠结啦:不被情绪牵着走的通透生活指南(“当代一休”小池龙之介治愈新作!附赠精美书签!)
》
售價:NT$
295.0
《
第二人生:找到重新定义人生的智慧
》
售價:NT$
440.0
《
唐朝三百年
》
售價:NT$
490.0
《
反操纵心理学:夺回人生主导权 拒绝被操纵
》
售價:NT$
249.0
《
同工异曲:跨文化阅读的启示(修订版)(师承钱锺书先生,比较文学入门,体量小但内容丰,案例文笔皆精彩)
》
售價:NT$
199.0
|
編輯推薦: |
大数据领域专家学者携手打造,系统构建知识体系综述当下领域前沿研究方向、理论与技术以宏观视野把握领域前沿,获取领域底层逻辑
|
內容簡介: |
当下,大数据已成为互联网、人工智能和数字化转型等的基础理论,宏观了解大数据前沿理论与技术,对于大数据方向的研究人员以及从事大数据开发的工程师来讲至关重要。本书由多位大数据领域专家学者合作完成,通过10章内容,深入浅出地阐述大数据的完整前沿知识体系,帮助读者以宏观视角把握大数据的发展方向和突破口,真正从普通开发者晋升为拥有大数据思维并能解决复杂问题的技术专家。本书既可作为大数据方向低年级研究生研究大数据技术的入门指南,也可作为从事大数据研究的科研人员的参考书。
|
關於作者: |
周烜,华东师范大学教授,数据科学与工程学院副院长,数据科学与工程专业建设负责人。长期专注于数据库系统研究,曾负责多个国内外的科研项目和工业合作项目,开发了各类数据管理系统,在工业界获得应用,成果在国际知名的学术会议和期刊上发表。曾获得国家科技进步二等奖和国家级教学成果二等奖,入选新世纪优秀人才支持计划,入选高校计算机专业优秀教师奖励计划。陈志广,中山大学计算机学院副教授,国家超级计算广州中心副主任。长期从事大数据存储与处理、高性能计算与超级计算机、并行与分布式计算相关技术研究。在并行文件系统、大数据处理框架等方面取得突出成果。曾获得国家级教学成果二等奖、广东省科技进步特等奖、中国电子学会科技进步一等奖。
|
目錄:
|
丛书序“十讲”序前言第1讲 大数据存储系统1.1 大规模云存储系统/2 1.1.1 云存储系统架构/2 1.1.2 云存储资源管理与数据布局/5 1.1.3 大规模索引系统/12 1.2 大规模文件系统/17 1.2.1 本地文件系统/17 1.2.2 网络文件系统/23 1.3 本讲小结与展望/34 参考文献/34 第2讲 分布式数据库2.1 NoSQL与NewSQL/38 2.1.1 NoSQL发展历史/38 2.1.2 键值存储/42 2.1.3 文档数据库/50 2.1.4 图数据库/56 2.1.5 NewSQL代表/60 2.2 分布式数据库架构/70 2.2.1 共享存储型/70 2.2.2 无共享型/72 2.2.3 计算、内存与存储分离型/74 2.2.4 架构对比/76 2.3 数据分片与复制/78 2.3.1 数据分片/78 2.3.2 数据复制/80 2.3.3 CAP定理/82 2.3.4 分布式一致性协议/85 2.4 分布式数据处理/90 2.4.1 分布式事务处理/90 2.4.2 分布式查询处理/93 2.5 本讲小结与展望/98 参考文献/99 第3讲 大数据处理系统——批处理3.1 Hadoop MapReduce/103 3.1.1 Hadoop MapReduce概述/103 3.1.2 Hadoop MapReduce架构和核心组件/104 3.1.3 Hadoop MapReduce执行过程/105 3.1.4 MapReduce编程案例/109 3.1.5 Hadoop生态/112 3.2 Apache Spark/114 3.2.1 Spark概述/114 3.2.2 Spark框架/115 3.2.3 Spark编程实例/123 3.2.4 Spark工具集/126 3.3 本讲小结与展望/129 参考文献/130 第4讲 流计算系统4.1 流计算系统概述/134 4.1.1 流数据与流计算/134 4.1.2 流计算系统的演进/134 4.1.3 流计算系统的研究挑战/135 4.2 数据管理视角的流计算系统/137 4.2.1 编程接口/139 4.2.2 执行计划/144 4.2.3 资源调度/153 4.2.4 故障容错/157 4.3 本讲小结与展望/163 参考文献/164 第5讲 大图数据处理系统5.1 大图数据处理系统概述/168 5.1.1 大图数据特点及查询/168 5.1.2 大图数据处理特征及挑战/170 5.1.3 经典大图数据处理系统/171 5.2 计算机制/173 5.2.1 以顶点为中心的计算机制/174 5.2.2 以边为中心的计算机制/176 5.2.3 以子图为中心的计算机制/177 5.3 通信机制/179 5.3.1 共享内存/179 5.3.2 消息传递/181 5.4 图划分机制/181 5.4.1 边切分/182 5.4.2 点切分/184 5.4.3 混合切分/186 5.5 任务调度机制/187 5.5.1 同步调度/188 5.5.2 异步调度/189 5.5.3 混合调度/191 5.6 新硬件加速机制/192 5.6.1 基于RDMA的通信优化/192 5.6.2 基于GPU的计算优化/195 5.7 本讲小结与展望/198 参考文献/200 第6讲 大数据分析——算法设计6.1 大数据的统计特征估算算法/204 6.1.1 采样估算算法/205 6.1.2 Sketch估算算法/209 6.1.3 相关应用/216 6.2 大数据的成员查找算法/219 6.2.1 概率型成员查找算法/219 6.2.2 人工智能赋能的成员查找算法/226 6.2.3 相关应用/228 6.3 大数据的近邻查找算法/231 6.3.1 精确近邻查找算法/233 6.3.2 近似近邻查找算法/235 6.3.3 相关应用与潜在研究方向/248 6.4 本讲小结与展望/250 参考文献/251 第7讲 大数据分析——机器学习7.1 概述/254 7.1.1 机器学习、深度学习和人工智能/254 7.1.2 大数据和机器学习的关系/254 7.1.3 大数据上机器学习存在的问题和挑战/255 7.2 BigDL:分布式大数据AI平台/257 7.2.1 设计目标和架构/257 7.2.2 BigDL-Nano:对用户透明的性能加速/259 7.2.3 BigDL-Orca:从笔记本电脑到分布式大数据集群的无缝扩展/261 7.3 大数据AI在生产实践中的真实案例/265 7.3.1 案例1:基于时序预测的通信网络质量KPI监测/265 7.3.2 案例2:基于Transformer架构的分布式AI推荐系统/268 7.4 本讲小结与展望/271 参考文献/271 第8讲 图数据挖掘8.1 图的基本定义及性质/274 8.1.1 柯尼斯堡七桥问题/274 8.1.2 图的基本定义/277 8.1.3 图的基本性质/279 8.2 图节点邻近度/283 8.2.1 图节点邻近度的度量/284 8.2.2 图节点邻近度的计算/287 8.3 图嵌入/299 8.3.1 基于矩阵分解的方法/299 8.3.2 基于随机游走的方法/303 8.4 图神经网络/306 8.4.1 图神经网络的起源和演变/307 8.4.2 可扩展图神经网络/310 8.4.3 复杂图神经网络/312 8.5 本讲小结与展望/315 参考文献/317 第9讲 大数据可视化9.1 可视化发展历史与理论模型/320 9.1.1 早期的可视化/320 9.1.2 基本流程/323 9.2 概念、分类及主要方法/323 9.2.1 数据类型及视觉映射/324 9.2.2 高维与表格数据可视化/328 9.2.3 网络(图)数据可视化/334 9.2.4 层次结构数据可视化/337 9.2.5 时空数据可视化/343 9.2.6 文本数据可视化/346 9.3 可视分析/351 9.3.1 基本理论/351 9.3.2 可视化与可视分析案例/356 9.4 大规模数据管理/361 9.4.1 数据立方体/361 9.4.2 其他数据管理方法/366 9.5 常用可视化工具与软件/367 9.5.1 高维数据可视化工具/367 9.5.2 文本可视化工具/368 9.5.3 网络可视化工具/369 9.5.4 可视化构建工具/369 9.6 本讲小结与展望/373 参考文献/373 第10讲 工业大数据10.1 引言/382 10.1.1 工业数据集/382 10.1.2 工业大数据/383 10.1.3 工业大数据生命周期/386 10.1.4 工业大数据应用场景/387 10.2 工业数据采集/388 10.2.1 总体架构/388 10.2.2 工业终端/389 10.2.3 工业现场协议/390 10.2.4 工业数据协议/392 10.3 工业时序数据库/393 10.3.1 设备建模与弱模式/394 10.3.2 编码与压缩/396 10.4 工业数据治理/399 10.4.1 工业数据集特点/399 10.4.2 工业数据集成框架/401 10.4.3 时序数据质量控制/402 10.5 工业时序数据分析/409 10.5.1 工业数据分析流程/409 10.5.2 时序数据分析方法/410 10.5.3 风机时序数据分析案例/415 10.6 本讲小结与展望/418 参考文献/418
|
內容試閱:
|
数据对现代社会的重要性日趋凸显。2019年,党的十九届四中全会首次将数据与土地、劳动力、资本、技术并列作为重要的生产要素。2020年,《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》和《中共中央国务院关于新时代加快完善社会主义市场经济体制的意见》均强调要培育和发展数据要素市场。足以看出,数据对于整个社会而言已不仅仅是一种普通资源,而将成为在未来构建新的生产模式和商业模式的基石。当前,为大众所熟悉的互联网搜索引擎、电子商务平台、社交平台,之所以能够为社会创造价值,很大一部分原因是归结于它们对大规模数据的使用。如今,各行各业都在广泛积累数据,并积极探索如何运用数据去改进自身的业务形态,从而提升竞争力。由数据驱动的数字化转型已经成为了各行业提升生产效率的重要手段。对一家企业或者一个经济个体而言,数据的开发和利用是一个系统工程,涉及商业模式、生产模式、组织架构、技术方案等多个方面。“大数据”作为一套技术体系,只是整个系统工程中的一个环节,主要用于完成数据的汇聚、管理和信息提取,为数据要素的价值发挥提供技术支撑。即便如此,“大数据”技术所涉及的理论、工程方法、工具和系统已经相当丰富和广泛,覆盖了数十个重要研究领域。未来,这些领域的技术突破都将对数字化转型产生直接推动作用,具备极高的研究价值。本书主要面向的读者包括高等院校的低年级硕士生和博士生,以及从事相关行业的技术人员。本书选取了十个重要的“大数据”研究领域进行深入介绍,希望帮助读者对大数据技术形成一个整体认识,同时也希望激发读者对其中研究领域的兴趣,引导他们开展更深入的探索和创新工作。对其中的每一讲,编者都邀请了国内在相关领域最顶尖的学者进行撰写,力图能够将各个领域最前沿、最关键的技术呈现给读者。由于本书的每一讲都出自不同的作者,读者在学习时可能会感受到写作风格具有一定的差异,甚至会发现不同研究领域的学者对同一个问题的不同观点。编者在邀请各位作者编写内容时,刻意避免对各位作者的写作方式和内容做过多限制,希望能将各个学术领域的话语体系和看问题的角度原汁原味地呈现给读者。编者希望能够获得读者对于本书的反馈,提出更好的建议。本书的内容分为四个部分。第一部分包括两讲,主要介绍典型的大数据存储和管理系统,分别由中山大学陈志广教授和华东师范大学蔡鹏教授、胡卉芪副教授撰写。第二部分包括三讲,主要介绍三种不同形态的大数据处理系统,分别由东北大学张岩峰教授、华东师范大学徐辰教授和北京理工大学袁野教授撰写。前两部分内容合在一起就基本勾勒出了用于构建大数据基础设施的核心技术。第三部分包括三讲,主要介绍大数据分析层面的关键技术,包括多种典型的数据分析算法以及用于大数据建模的机器学习技术和工具,分别由西安交通大学王平辉教授、Intel Fellow戴金权、Intel技术专家黄晟盛和中国人民大学魏哲巍教授撰写。第四部分的两讲主要涉及与应用(用户)密切相关的大数据技术,其中一讲介绍数据可视化技术,由北京大学袁晓如教授撰写,另一讲介绍大数据在工业领域的垂直技术和应用实例,由清华大学王建民教授撰写。编 者2023年6月
|
|