新書推薦:
《
首辅养成手册(全三册)(张晚意、任敏主演古装剧《锦绣安宁》原著小说)
》
售價:NT$
551.0
《
清洁
》
售價:NT$
296.0
《
组队:超级个体时代的协作方式
》
售價:NT$
352.0
《
第十三位陪审员
》
售價:NT$
245.0
《
微观经济学(第三版)【2024诺贝尔经济学奖获奖者作品】
》
售價:NT$
709.0
《
Python贝叶斯深度学习
》
售價:NT$
407.0
《
文本的密码:社会语境中的宋代文学
》
售價:NT$
306.0
《
启微·狂骉年代:西洋赛马在中国
》
售價:NT$
357.0
|
編輯推薦: |
系统介绍大数据算法设计与分析技术的教材,内容丰富,结构合理,旨在讲述和解决大数据处理和应用中相关算法设计与分析的理论和方法,切实培养读者设计、分析与应用算法解决大数据问题的能力
|
內容簡介: |
本书系统地介绍了大数据算法设计与分析的理论、方法和技术,针对大数据的特点,介绍了亚线性算法、外存算法、并行算法和众包算法。书中提供了大量关于大数据算法设计与分析的实例,旨在阐述大数据算法设计技术,有助于读者掌握相应的算法设计与分析方法。本书适用作为大数据相关专业本科生、研究生教材,也可供从事大数据相关工作的工程技术人员参考。
|
關於作者: |
王宏志 哈尔滨工业大学计算机科学与技术学院副教授、博士生导师,加利福尼亚大学尔湾分校访问学者,获得微软学者、中国优秀数据库工程师、IBM博士英才等称号。研究方向包括大数据管理、数据质量、图数据管理。发表学术论文140余篇,出版学术专著两本。主持各类项目十余项,包括国家自然科学基金项目3项、国家支撑计划课题1项、国家博士后特别资助项目1项,参加国家973项目、863项目、自然科学基金重点项目等多个项目。担任4个国际期刊的编委,并30余次担任国内外多个知名数据库会议程序委员会委员。2014~2015年任CCF
YOCSEF哈尔滨分论坛主席,CCF高级会员,中国数据库专业委员会委员,中国计算机应用专业委员会委员。在爱课程网、学堂在线、好大学在线上首次开设“大数据算法”在线课程,先后有超过2万余名同学参加了这门课程的学习。
|
目錄:
|
目录
前 言
第1章 绪论1
1.1 大数据概述1
1.1.1 什么是大数据1
1.1.2 无处不在的大数据1
1.1.3 大数据的特点3
1.1.4 大数据的应用4
1.2 大数据算法5
1.2.1 大数据上求解问题的过程6
1.2.2 大数据算法的定义7
1.2.3 大数据的特点与大数据算法9
1.2.4 大数据算法的难度9
1.2.5 大数据算法的应用10
1.3 大数据算法设计与分析11
1.3.1 大数据算法设计技术11
1.3.2 大数据算法分析技术12
1.4 本书的内容13
习题13
第2章 时间亚线性算法14
2.1 时间亚线性算法概述14
2.1.1 平面图直径问题的亚线性算法14
2.1.2 排序链表搜索的亚线性算法16
2.1.3 两个多边形交集问题的多项式时间算法17
2.2 最小生成树代价估计18
2.2.1 连通分量个数估计算法18
2.2.2 最小生成树代价估计算法20
2.3 时间亚线性判定算法概述23
2.4 数组有序的判定算法25
2.5 串相等判定算法27
习题28
第3章 空间亚线性算法29
3.1 空间亚线性算法概述29
3.2 水库抽样31
3.3 寻找频繁元素的非随机算法32
3.3.1 频繁元素的精确解33
3.3.2 频繁元素的MisraGries算法33
3.4 估算不同元素的数量35
3.4.1 基本算法35
3.4.2 改进算法38
3.5 寻找频繁元素的随机算法42
3.5.1 略图法42
3.5.2 计数最小略图45
3.6 估计频率矩47
3.6.1 频率矩的AMS估计算法47
3.6.2 基于拔河略图的频率矩估计51
3.6.3 使用稳定分布估计范数53
习题57
第4章 外存算法概述60
4.1 外存存储结构与外存算法概述60
4.2 外存算法示例:外存排序算法64
4.2.1 外存归并排序算法64
4.2.2 外存多路快速排序算法68
4.2.3 外存计算的下界74
4.3 外存数据结构示例:外存搜索树77
习题78
第5章 外存查找结构80
5.1 B树80
5.2 加权平衡B树87
5.3 持久B树90
5.4 缓存树94
5.5 KDB树98
5.6 O树103
习题107
第6章 外存图数据算法109
6.1 线性表排名及其应用109
6.1.1 线性表排名问题109
6.1.2 欧拉回路114
6.1.3 父子关系判定115
6.1.4 前序计数116
6.1.5 计算子树大小117
6.2 时间前向处理方法117
6.2.1 DAG形式逻辑表达式计算问题118
6.2.2 最大独立集合算法121
6.3 缩图法124
6.3.1 基于缩图法的图连通分量计算半外存算法124
6.3.2 基于缩图法的图连通分量计算全外存算法126
6.3.3 最小生成树算法128
6.4 广度优先搜索和深度优先搜索128
6.4.1 有向图的BFS和DFS129
6.4.2 无向图的BFS134
6.4.3 无向图更高效的BFS算法136
6.5 单源最短路径139
6.5.1 竞赛树140
6.5.2 Dijkstra算法的IO高效版本145
习题149
第7章 MapReduce算法概述150
7.1 MapReduce基础150
7.1.1 MapReduce的基本模型151
7.1.2 mapper和reducer152
7.1.3 partitioner与combiner155
7.2 MapReduce算法设计方法157
7.2.1 局部聚合158
7.2.2 两种重要的算法设计模式——词对法和条块法163
7.2.3 二次排序168
7.2.4 MapReduce算法设计与算法实现技巧168
习题170
第8章 MapReduce算法例析171
8.1 连接算法171
8.1.1 普通连接算法171
8.1.2 相似连接算法184
8.2 图算法192
8.2.1 基于广度优先搜索的MapReduce图处理算法193
8.2.2 PageRank的MapReduce算法197
8.2.3 最小生成树的MapReduce算法200
8.2.4 使用图算法的注意事项202
习题203
第9章 超越MapReduce的并行大数据处理204
9.1 基于迭代处理平台的并行算法204
9.2 基于图处理平台的并行算法212
9.2.1 并行结点计算213
9.2.2 并行结点计算的平台215
9.2.3 基于并行结点计算的单源最短路径算法的设计与实现219
9.2.4 计算子图同构221
习题223
第10章 众包算法224
10.1 众包的定义224
10.2 众包的实例225
10.3 众包的要素和关键技术228
10.3.1 众包的流程228
10.3.2 众包的报酬230
10.3.3 众包中的关键技术230
10.4 众包算法例析232
习题237
参考文献238
|
內容試閱:
|
要阅读本书,希望读者有一些算法和程序设计方面的基础,“数据结构”和“算法设计与分析”是本书的先修课程,如果读者没有学过这方面的课程,可以通过阅读《算法导论原书第3版》该书由机械工业出版社出版,ISBN:9787111407011。——编辑注如下章节自学相关知识:第1-12章、第15-17章、第18章、第22-24章。本书第2章和第3章涉及一些概率分析知识,如果不需要掌握概率分析的技术而仅读懂本书,本书提供的补充知识足以帮助你理解证明过程;如果希望系统掌握概率分析,可以先阅读一下《概率与计算》该书由机械工业出版社出版,ISBN:9787111208051。——编辑注的第1-6章,奠定概率分析方面的基础,再阅读本书第2章和第3章中的证明。本书第7-9章涉及了并行算法,但并不需要读者具备并行体系结构和并行计算相关的知识,因为当前平台如Hadoop等已经提供了足够方便的接口,可以让读者在不具备这些知识的前提下实现数据密集型并行算法。
致使用本书的专业技术人员本书可以作为一本关于大数据算法的参考手册,供专业技术人员参考。本书各章节具有一定的独立性,读者可以单独查阅感兴趣的主题。
如果读者是一名开发人员,可以根据需要选择本书中的算法进行实现或者以此为参考设计软件当中的新算法。本书提供的伪代码可以很容易地翻译成某种程序设计语言所对应的代码。
在选择和设计算法的过程中,如果需要对算法复杂度有一定了解,本书将可以单独描述的算法复杂度结论以“引理”、“定理”的形式给出,可以直接参考这些结论,而不用详细阅读其证明。
不同类型的大数据应用和本书的不同章节相关。如果应用涉及数据量很大,而内存、计算时间等限制比较严格,请参考本书第2章和第3章;如果应用中数据源源不断到来,必须根据当前接收到的数据进行计算,请参考本书第3章;如果应用中数据存储在外存中,而内存受限,请参考本书第4-6章;如果数据存储在集群中,需要多台计算机并行计算,请参考本书第7-9章;如果应用需要只有人具备的知识,请参考本书第10章。
致谢本书的成书感谢哈尔滨工业大学的李建中教授、高宏教授以及国际大数据研究中心诸位同事的指导和建议,以及在专业上的帮助。
在本书的撰写过程中,哈尔滨工业大学的李可利、张美范、毛运东、王鑫鹏、孙芳媛、周剑、李明达、马钰、田家源、徐扬、张笑影、甘小楚、郭欣彤、李宁宁等同学在资料搜集、整理、文本校对、制图等多个方面提供了帮助和支持,在此表示感谢。
非常感谢我的爱人黎玲利博士,感谢她在我撰写这本书的过程中对我的支持。她除了给我爱和家庭的温暖,还阅读了本书全文并给出了许多专业的建议。
……
|
|