尼尔·菲什曼(Neal Fishman)是IBM的杰出工程师,并且是IBM全球业务服务组织内基于数据的病理学的首席技术官。尼尔也是Open Group认证的杰出IT架构师。科尔·斯特莱克(Cole Stryker)是一名常驻洛杉矶的作家和记者。他是Epic Win for Anonymous和Hacking the Future的作者。
“我想做的是交付结果。”Lou GerstnerBusiness Week为何你需要此书“19世纪末,谁也不会相信地球正受到智慧生命的密切注视……”1898年,H. G. Wells出版的《世界大战》(The War of the Worlds,Harper & Brothers)以此开场。在20世纪末,这样的怀疑也同样盛行。但与19世纪以来的虚构的注视者不同,20世纪晚期的注视者是真实存在的,而这些注视者就是具有开拓性的数字化公司。在《世界大战》中,单细胞细菌被证明是兼具进攻性和防御性的决定性武器。如今,这一武器便是数据。当数据被错误使用时,企业将会面临突然崩溃的局面;当数据被正确使用时,企业则会茁壮成长。自象形文字和字母出现以来,数据已然开始发挥其作用。商业智能(Business Intelligence,BI)一词的出现,可以追溯至Richard Millar Devens 1865年出版的Cyclopaedia of Commercial and Business Anecdotes一书。尽管如此,直至制表机器公司(Tabulating Machine Company,IBM前身)创始人Herman Hollerith发明了打孔卡片,数据的大规模采集才得以实现。Hollerith初是为1890年美国政府人口普查而发明的打孔制表技术。1937年,美国政府与IBM签署协议,运用其打孔卡读卡机,为涉及2600万个社会保障号码的大规模簿记项目提供服务和支持。1965年,美国政府建立了个数据中心,以存储其7.42亿张纳税申报单和1.75亿套录有指纹信息的计算机磁带。随着互联网以及后来的移动设备和物联网的出现,私有企业能够基于日益增加的与消费者共享的触点数,建立大量的消费者数据存储,从而使大规模数据使用真正得以实现。平均而言,每个人每秒创建的数据量超过1.7MB,这样的信息量大致相当于154万亿张打孔卡片。通过将数据量与数据有效处理能力相结合,数据并不仅仅是被简单记录和保存,而是得以大规模使用。显然,我们正处于大数据时代。企业正在争先恐后地整合各种能完成高级分析的能力,如人工智能和机器学习,从而限度地利用其自身的数据。如何通过具有前瞻性的预判来改善市场的商业表现,已然成为强制性需求。诸如数据湖(Data Lake)之类的数据管理概念也被提出,以指导企业进行数据存储和数据管理。在许多方面,数据湖与更早的企业数据仓库(Enterprise Data Warehouse,EDW)形成了鲜明对比。通常而言,企业数据仓库仅接受已被视为有用的数据,且其内容的组织方式高度系统化。在被误用的情况下,一个数据湖只不过是非结构化和未处理的海量数据的存储地,许多这样的数据永远都不会被使用。然而,通过高级分析和机器学习模型,数据湖可以有效地得到利用。但是,数据仓库和数据湖能否真正实现企业改善商业表现的目的?更简洁地说,企业是否已经意识到存储数据之地在商业方面的价值?全球信息技术研究和咨询公司—高德纳咨询公司(Gartner Group)对此进行了引人深思的分析。据估计,超过一半的企业数据仓库尝试都是失败的,而新的数据湖的情况甚至更糟。高德纳的分析师曾预测,数据湖的失败率可能高达60%。然而,现在高德纳认为这个数字过于保守,实际失败率可能接近85%。为什么诸如企业数据仓库和数据湖这样的方案的失败率如此惊人?简单来说,开发适当的信息架构并非易事。与企业数据仓库的失败原因相同,数据科学家采用的许多方法也未能意识到如下几点:企业性质。企业的业务运营。变化的随机性和潜在的巨大性。数据质量的重要性。在模式设计和信息架构中应用不同技术的方式,这可能会影响组织应对变化的准备。分析表明,数据湖和大数据计划失败率较高的原因并不在于技术本身,而是在于技术人员应用技术的方式。在我们与企业客户的对话中,这些方面很快就变得不言而喻。在讨论数据仓库和数据湖时,我们经常面临诸多问题,例如:“对于每一种方式而言,我们都有很多选择,选择哪一个?”经常会出现组织中的一个部门需要数据库进行数据存储,但是其需求无法通过以前的数据存储方式得到满足。因此,该部门不再尝试重塑或更新已有的数据仓库或者数据湖,而是创建一个全新的数据存储区域。这样做的结果往往是一个多种数据存储解决方案的大杂烩,彼此之间不能有效结合,从而丧失数据分析的机会。显然,新技术可以提供许多实实在在的好处,但是除非对这些技术进行严谨的部署和管理,否则,这些好处无法实现。与传统建筑架构的设计不同,信息架构的设计无法做到一劳永逸。虽然组织可以控制如何获取数据,但是不能控制所需要的数据如何随时间变化。组织往往是脆弱的,因为当环境发生变化时,信息架构可能会崩溃。只有灵活的、自适应的信息架构才能适应新的环境。针对动态目标,设计和部署解决方案是困难的,但这个挑战并非不可克服。很多信息技术专业人士都认为“垃圾输入等于垃圾输出”这个草率断言已经过时了。实际上,数十年来,垃圾数据一直给分析和决策过程带来困扰。管理不善的数据和缺乏一致性的表示对每一个人工智能项目来说依然是危险信号。机器学习和深度学习对数据质量的要求尤其高。就像硬币的两面,低质量数据可能带来两种具有破坏性的影响。一方面,与历史数据相关的低质量数据会使预测模型的训练失真;另一方面,新数据会使模型失真,对决策制定产生负面影响。作为一种可共享资源,当数据质量不佳时,数据通过服务层像病毒一样暴露在整个组织中,从而影响每一个接触此数据的人。因此,人工智能的信息架构必须能减少与数据质量相关的传统问题,促进数据流动,并在必要的时候实现数据隔离。本书的目的是让你了解企业如何构建信息架构,从而为成功的、可持续的、可扩展的人工智能部署铺平道路。本书包括一个结构化框架和建议,既兼顾实用性又具有可操作性,可以帮助企业完成信息架构,进而从人工智能技术中获益。本书主要内容我们将从第1章开始,对人工智能阶梯进行讨论。人工智能阶梯是IBM开发的一个说明性工具,用来演示一个组织要持续从人工智能技术中获益所必须攀登的“步骤”或“梯级”。由此出发,第2章和第3章涵盖了数据科学家和信息技术领导者在攀登人工智能阶梯的过程中必须注意的一系列因素。在第4章和第5章中,我们将探索关于数据仓库及其如何让位于数据湖的历史,并讨论如何根据地形学和拓扑学来设计数据湖。这些讨论将深入数据的接收、治理、存储、处理、访问、管理和监测等方面。在第6章中,我们将讨论开发运营(DevOps)、数据运营(DataOps)、机器学习运营(MLOps)如何使组织得以更好地实时使用数据。在第7章中,我们将深入探讨数据治理和集成数据管理的基本要素。为了便于数据科学家确定数据的价值,我们将讨论数据价值链和数据可访问性、可发现性的需求。由于组织内部的不同角色需要以不同的方式与数据进行交互,第8章将介绍不同的数据访问方式,还将进一步讨论数据价值评估,并解释如何使用统计学协助实现数据价值排序。在第9章中,我们将讨论信息架构中可能出现的问题,以及整个组织的数据素养对于规避此类问题的重要性。后,在第10章中,我们将对开发人工智能信息架构的相关情况进行概述。第10章还提供了将上述理论背景应用于现实世界的信息架构开发的可行步骤。