新書推薦:
《
养育不好惹的小孩
》
售價:NT$
352.0
《
加加美高浩的手部绘画技法 II
》
售價:NT$
407.0
《
卡特里娜(“同一颗星球”丛书)
》
售價:NT$
398.0
《
伟大民族:从路易十五到拿破仑的法国史(方尖碑)
》
售價:NT$
857.0
《
古今“书画同源”论辨——中国书法与中国绘画的关系问题兼中国画笔墨研究
》
售價:NT$
602.0
《
《日本文学史序说》讲演录
》
售價:NT$
332.0
《
无尽的海洋:美国海事探险与大众文化(1815—1860)
》
售價:NT$
454.0
《
治盗之道:清代盗律的古今之辨
》
售價:NT$
556.0
|
內容簡介: |
本书作者在多年研究传统数据集成的基础上,着重分析了大数据背景下的大数据集成。和传统的数据集成相比,大数据集成具有一些新的挑战,例如数据和数据源的海量性、数据的多样性和数据的动态性等。本书共分6章,包括大数据集成的挑战和机遇、模式对齐、记录链接、数据融合、出现的新问题和结论,系统地讨论了解决大数据集成中关键问题的一些重要研究成果和方法,对大数据集成的研究者和实践者都很有帮助。另外本书也可以作为学生学习该领域的入门读物。
|
關於作者: |
Xin Luna Dong(董欣) 2013年加入谷歌公司担任高级研究员,研究兴趣包括数据集成、数据清洗和知识管理。在加入谷歌之前,她是AT&T实验室的研究员。董欣博士硕士毕业于北京大学,本科毕业于南开大学。
Divesh SrivastavaAT&T实验室数据库领域首席科学家.
|
目錄:
|
目录
丛书前言
译者序
前言
第1章大数据集成的挑战和机遇1
1.1传统数据集成2
1.1.1航班示例:数据源2
1.1.2航班示例:数据集成7
1.1.3数据集成:体系结构和三个主要步骤10
1.2大数据集成:挑战12
1.2.1 V维度13
1.2.2案例研究:深网数据量15
1.2.3案例研究:抽取的领域数据18
1.2.4案例研究:深网数据的质量22
1.2.5案例研究:浅网结构化数据25
1.2.6案例研究:抽取的知识三元组28
1.3大数据集成:机遇30
1.3.1数据冗余性31
1.3.2长数据32
1.3.3大数据平台33
1.4章节安排33
第2章模式对齐34
2.1传统模式对齐:快速导览35
2.1.1中间模式35
2.1.2属性匹配36
2.1.3模式映射37
2.1.4查询问答38
2.2应对多样性和高速性的挑战39
2.2.1概率模式对齐39
2.2.2按需集成用户反馈52
2.3应对多样性和海量性的挑战54
2.3.1集成深网数据55
2.3.2集成Web表格59
第3章记录链接68
3.1传统记录链接:快速导览69
3.1.1两两匹配71
3.1.2聚类72
3.1.3分块74
3.2应对海量性挑战76
3.2.1使用MapReduce并行分块77
3.2.2meta-blocking:修剪两两匹配83
3.3应对高速性挑战88
3.4应对多样性挑战95
3.5应对真实性挑战100
3.5.1时态记录链接100
3.5.2具有唯一性约束的记录链接107
第4章大数据集成:数据融合113
4.1传统数据融合:快速导览114
4.2应对真实性挑战116
4.2.1数据源的准确度117
4.2.2值为真的概率118
4.2.3数据源之间的复制关系121
4.2.4端到端的解决方案128
4.2.5扩展性和适应性131
4.3应对海量性挑战134
4.3.1基于MapReduce框架做离线融合135
4.3.2在线数据融合136
4.4应对高速性挑战142
4.5应对多样性挑战146
第5章大数据集成:出现的新问题149
5.1众包的角色149
5.1.1利用传递关系150
5.1.2众包端到端的工作流155
5.1.3未来的工作158
5.2数据源选择158
5.2.1静态数据源160
5.2.2动态数据源162
5.2.3未来的工作166
5.3数据源分析166
5.3.1Bellman系统167
5.3.2概述数据源170
5.3.3未来的工作174
第6章结论175
参考文献177
索引184
|
內容試閱:
|
前言大数据集成是两大重要工作的结合:一个是相对较老的数据集成工作;另一个是相对较新的大数据工作。
只要存在人们要将多个数据集链接并融合起来以提升它们价值的情况,数据集成就必不可少。早在计算机科学家开始研究这一领域之前,统计学家们就已经取得了许多进展,因为他们迫切需要关联和分析随时间不断积累的普查数据集。数据集成具有很大的挑战性是由多种原因造成的,不仅仅因为我们表示现实世界中实体的方式多种多样。为了有效地应对这些挑战,在过去几十年里,数据集成研究者们已经在一些基础问题(如模式对齐、记录链接和数据融合),尤其是结构化数据的研究上,取得了巨大进步。
近年来,我们在将现实世界中的每个事件和交互都捕获成数字化数据方面的能力增长十分显著。伴随着这种能力的增长,我们渴望从这些数据中分析和抽取出价值,从而迎来了大数据时代。在大数据时代,数据的数量和异构性以及数据源的数目,都极大地增长了,而且许多数据源是非常动态的并且质量千差万别。不同数据进行链接和融合会使数据的价值爆炸性地增大,因而大数据要能使我们做出改变社会各方面的有价值的、数据驱动的决策,数据集成是关键。
大数据上的数据集成称为大数据集成。本书探讨数据集成研究界在应对大数据集成带来的新的挑战方面已经取得的进展。它的目的是可以作为研究者、从业者和学生想要了解更多关于大数据集成的一个起点。我们试图覆盖该领域内各种各样的研究问题和工作,但显然要全面覆盖这样一个动态发展的领域是不可能的。我们希望本书的读者能对这个重要领域有所贡献,帮助发展大数据的美好愿景。
致谢本书在成书过程中得到了许多人的帮助。衷心感谢Tamer ?zsu邀请我们写这本书,感谢Diane Cerra管理整个出版过程,并感谢Paul Anagnostopoulos制作本书。没有他们温和的提醒、定期的推动和提示编辑,本书的完成将花费长得多的时间。
本书的大部分内容从我们在以下学校开的讲习班和会议上做的大会报告演化而来,这些会议和学校包括:ICDE 2013、VLDB 2013、COMAD 2013、苏黎世大学、ADC 2014和BDA 2014的博士学校。感谢许多同行在报告进行中或之后所给的建设性的反馈。
我们也想感谢许多合作者,他们多年来影响了我们对该研究领域的思考和理解。
最后,感谢我们的家人,他们持续的鼓励和爱的支持使所有的付出更加值得。
Xin Luna Dong和Divesh Srivastava2014年12月
|
|