|
編輯推薦: |
? 著名大数据专家,《大数据》、《数据之巅》作者涂子沛力荐;推动建立企业元数据管理平台,深入了解无所不在的元数据,世界的本质是数据数据管理时代来了!认识数据已经成为互联网公民*基本的一课。
? 本书作者杰弗里波梅兰茨曾MOCC讲授课程元数据:组织和探索信息,深受学生们的喜爱。在出版这本书之后,他还结合了在元数据领域从事前沿工作的专家的*观点。是科普元数据的*本书。
|
內容簡介: |
元数据是关于数据的数据,我们身边的一切信息和资源都可以用元数据来描述。元数据会从资源中抽取用来说明其特征和内容的结构化数据,用于组织、管理、保存、检索信息和资源。虽然我们看不见元数据的存在,但它却无时无刻不伴随我们左右,搜集我们的信息,管理我们的世界。我们平时所津津乐道的大数据,也是基于元数据来计算的。
这本书梳理了元数据的发展历史、元数据的类型与应用,是科普元数据的一本书。它使我们看到,互联网发展得越来越快,元数据的格式也越来越多,人们对它的操作要求也越来越高。斯诺登事件之后,更多人开始关心元数据的使用方法与保护措施,因为它直接关系着个人、企业和组织的隐私。
这本书也结合了元数据领域的前沿趋势,告诉我们利用元数据可以为大数据平台绘制数据地图,对数据平台进行监控可做的事情如此之多。如今元数据具有前所未有的地位,企业和组织也非常重视元数据的开发与管理,事实上元数据已经催生出了完整的子技术产业,包括元数据管理、数据架构等。对每一位互联网公民来说,认识元数据是加深对互联网的认识、辨别互联网上众多信息的必经之路。
|
關於作者: |
杰弗里波梅兰茨(Jeffrey Pomerantz)
拥有20多年研究经验的信息科学家,美国北卡罗来纳大学教堂山分校情报学专业和图书馆学专业的终身教授,华盛顿大学的客座教授。他在MOOC上的课程元数据:组织和探索信息深得众多学生的喜欢,以及业内专家的肯定。
|
目錄:
|
第一章 元数据概览
隐形的元数据 / 006
元数据简史 / 007
元数据,不再仅仅用于图书馆 / 014
形形色色的元数据 / 015
第二章 定义元数据
数据中的信息 / 021
描述主题 / 024
元数据是对信息的陈述 / 027
编码体系 / 031
规范文档 / 036
叙词表 / 038
网络分析 / 043
本体论 / 046
失控的元数据 / 048
元数据记录 / 053
内部元数据与外部元数据 / 055
唯一识别符 / 060
第三章 描述性元数据
都柏林核心元数据元素集 / 067
采纳创新的成本 / 069
15 个元素 / 072
元素与值 / 074
描述性记录 / 078
都柏林核心修饰词 / 080
网页中的元数据 / 084
都柏林核心元数据元素集的意义 / 088
第四章 管理性元数据
技术性元数据 / 095
结构性元数据 / 098
溯源元数据 / 099
保存性元数据 / 103
权限元数据 / 105
元 元数据 / 108
管理性元数据的功能 / 112
数据废气 / 121
并行数据 / 122
第五章 使用性元数据
数据废气 / 121
并行数据 / 122
第六章 实现元数据的技术
结构化数据 / 129
描述资源的框架 / 134
都柏林核心元数据的抽象模型 / 136
可扩展标记语言 / 139
文档类型定义 / 141
第七章 语义网
什么是语义网 / 148
软件代理 / 149
什么是关联数据 / 151
一切都是相连的 / 154
艺术关联数据 / 156
来源于维基百科内容的数据集 / 160
关联开放数据 / 166
多即是多 / 168
微数据 / 170
语义网的愿景 / 175
第八章 元数据的未来
特定领域中的元数据 / 181
应用编程接口 / 184
以数据为基础的分析 / 187
元数据的策略 / 190
致 谢 / 197
图表来源 / 201
延伸阅读 / 203
|
內容試閱:
|
元数据(metadata)在我们的周围无时不在,无处不在。当代社会中随处可见的电子设备,不是依靠元数据来运行,就是用于产生元数据,或者两者皆有。但当元数据真正发挥作用的时候,它却隐于幕后、默默无闻,就像根本不存在一样。一定程度上来说,这也让元数据在2013 年夏天突然成了一个广受关注且具有争议性的话题。
2013 年5 月,美国国家安全局前外聘员工爱德华斯诺登(Edward Snowden)飞往中国香港与英国《卫报》记者会面,向其披露了大量有关美国国家安全局在本土进行监听活动的机密文件。这些监听项目之一棱镜(PRISM),涉及直接向电信公司搜集电话呼叫的数据。不用说,《卫报》对此事的报道成为轰动一时的大新闻。
美国媒体对斯诺登泄密事件反应不一,随着事态的发展,这些反应的变化耐人寻味。对于美国国家安全局暗中搜集美国公民数据的行为,公众当时最直接的反应就是群情激愤。然而随着事件日趋明朗,让人们如释重负的是,美国国家安全局搜集的仅仅是与电话呼叫有关的元数据,而不是电话呼叫本身的内容。换句话说,美国国家安全局没有进行窃听活动。这很快缓和了公众的怒火。事态随后急转直下,媒体通过调查才发现,凭借区区元数据居然能推断出如此多的个人信息。在此之后,对这一事件的权威解读才终于公之于众。
MetaPhone项目是斯坦福大学法学院互联网与社会研究中心(Stanford Law School Center for Internet and Society)的研究人员于2013 年年底进行的一项研究,旨在重现美国国家安全局搜集电话呼叫元数据采取的方法。他们发现,用区区元数据居然能推断出如此令人难以置信的信息量。MetaPhone的研究人员在报告中提到了这样一个案例:一位研究对象分别打电话联系了家庭装修用品店、锁匠、水培植物经销商还有烟草大麻用具店。也许,打这些电话是出于非常单纯、合理的原因,也许它们之间完全没有关系但是这可能并不是我们大多数人会得出的结论。
许多元数据都与电话呼叫有关,尤其是手机呼叫。而在与电话呼叫有关的元数据片段中,最显而易见的就是拨打与接听双方的电话号码,其次就是电话呼叫的时间与通话时长。如果使用具备GPS(全球定位系统)功能的智能手机拨打电话,还可搜集到拨打与接听双方的地理位置信息,至少可以精确到通话双方手机所在地区手机信号塔的信号范围。与手机呼叫关联的元数据还有很多,但是如此少量的信息也足以让倡导保护隐私的人士再三思忖。因为即使你没有在打电话,你的手机也会与本地手机信号塔之间交换数据。这样一来,移动运营商就能随时搜集你的位置信息以及一段时间内的活动轨迹根据斯诺登披露的机密文件显示,移动运营商实际也在这样做。当然,前提是你一直带着自己的手机。
元数据这个词就这样成了一个公众话题。鉴于元数据如此广泛地存在,人们理应更好地去了解它,而公众也早应该进行这样的讨论。在当代世界中,计算活动无处不在,因此元数据像电网和高速公路网一样成了一种基础设施。这些当代基础设施的构成部分一方面发挥着不可或缺的作用,另一方面它们展现在我们面前的又只是冰山一角。比如,当你触动照明开关时,你就变成了大量技术与策略的最终用户。
分开来看,这些技术或策略也许微不足道、无关紧要,但是聚合在一起,就能带来深远的文化与经济影响。元数据亦是如此。就像电网和高速公路网一样,元数据不知不觉地融入日常生活的背景之中,理所当然地成为当代社会得以稳步前进的动力之一。
作为生活在现代世界的公民,我们熟悉电网、高速公路网以及其他现代的基础设施,也对其有着合理(尽管可能并不完整)的了解。但是除非你是一位信息技术科学家,或者是为美国国家安全局工作的情报分析师,否则可能无法对元数据形成这样的认识。
这就是我写作本书的目的向你介绍元数据,以及元数据涉及的诸多主题与问题。我将探讨什么是元数据及其存在的原因、适用于不同用户与用例的各类元数据以及使现代元数据
成为可能的一些技术,还会预测元数据的未来路在何方。读完本书,你无论身在何处都会看到元数据。
这是一个元数据的世界,而你就身处其中。
元数据(metadata)在我们的周围无时不在,无处不在。当代社会中随处可见的电子设备,不是依靠元数据来运行,就是用于产生元数据,或者两者皆有。但当元数据真正发挥作用的时候,它却隐于幕后、默默无闻,就像根本不存在一样。一定程度上来说,这也让元数据在2013 年夏天突然成了一个广受关注且具有争议性的话题。
2013 年5 月,美国国家安全局前外聘员工爱德华斯诺登(Edward Snowden)飞往中国香港与英国《卫报》记者会面,向其披露了大量有关美国国家安全局在本土进行监听活动的机密文件。这些监听项目之一棱镜(PRISM),涉及直接向电信公司搜集电话呼叫的数据。不用说,《卫报》对此事的报道成为轰动一时的大新闻。
美国媒体对斯诺登泄密事件反应不一,随着事态的发展,这些反应的变化耐人寻味。对于美国国家安全局暗中搜集美国公民数据的行为,公众当时最直接的反应就是群情激愤。然而随着事件日趋明朗,让人们如释重负的是,美国国家安全局搜集的仅仅是与电话呼叫有关的元数据,而不是电话呼叫本身的内容。换句话说,美国国家安全局没有进行窃听活动。这很快缓和了公众的怒火。事态随后急转直下,媒体通过调查才发现,凭借区区元数据居然能推断出如此多的个人信息。在此之后,对这一事件的权威解读才终于公之于众。
MetaPhone项目是斯坦福大学法学院互联网与社会研究中心(Stanford Law School Center for Internet and Society)的研究人员于2013 年年底进行的一项研究,旨在重现美国国家安全局搜集电话呼叫元数据采取的方法。他们发现,用区区元数据居然能推断出如此令人难以置信的信息量。MetaPhone的研究人员在报告中提到了这样一个案例:一位研究对象分别打电话联系了家庭装修用品店、锁匠、水培植物经销商还有烟草大麻用具店。也许,打这些电话是出于非常单纯、合理的原因,也许它们之间完全没有关系但是这可能并不是我们大多数人会得出的结论。
许多元数据都与电话呼叫有关,尤其是手机呼叫。而在与电话呼叫有关的元数据片段中,最显而易见的就是拨打与接听双方的电话号码,其次就是电话呼叫的时间与通话时长。如果使用具备GPS(全球定位系统)功能的智能手机拨打电话,还可搜集到拨打与接听双方的地理位置信息,至少可以精确到通话双方手机所在地区手机信号塔的信号范围。与手机呼叫关联的元数据还有很多,但是如此少量的信息也足以让倡导保护隐私的人士再三思忖。因为即使你没有在打电话,你的手机也会与本地手机信号塔之间交换数据。这样一来,移动运营商就能随时搜集你的位置信息以及一段时间内的活动轨迹根据斯诺登披露的机密文件显示,移动运营商实际也在这样做。当然,前提是你一直带着自己的手机。
元数据这个词就这样成了一个公众话题。鉴于元数据如此广泛地存在,人们理应更好地去了解它,而公众也早应该进行这样的讨论。在当代世界中,计算活动无处不在,因此元数据像电网和高速公路网一样成了一种基础设施。这些当代基础设施的构成部分一方面发挥着不可或缺的作用,另一方面它们展现在我们面前的又只是冰山一角。比如,当你触动照明开关时,你就变成了大量技术与策略的最终用户。
分开来看,这些技术或策略也许微不足道、无关紧要,但是聚合在一起,就能带来深远的文化与经济影响。元数据亦是如此。就像电网和高速公路网一样,元数据不知不觉地融入日常生活的背景之中,理所当然地成为当代社会得以稳步前进的动力之一。
作为生活在现代世界的公民,我们熟悉电网、高速公路网以及其他现代的基础设施,也对其有着合理(尽管可能并不完整)的了解。但是除非你是一位信息技术科学家,或者是为美国国家安全局工作的情报分析师,否则可能无法对元数据形成这样的认识。
这就是我写作本书的目的向你介绍元数据,以及元数据涉及的诸多主题与问题。我将探讨什么是元数据及其存在的原因、适用于不同用户与用例的各类元数据以及使现代元数据
成为可能的一些技术,还会预测元数据的未来路在何方。读完本书,你无论身在何处都会看到元数据。
这是一个元数据的世界,而你就身处其中。
|
|