新書推薦:
《
从康德到黑格尔的发展:兼论宗教哲学(英国观念论名著译丛)
》
售價:NT$
275.0
《
突破不可能:用特工思维提升领导力
》
售價:NT$
352.0
《
王阳明大传:知行合一的心学智慧(精装典藏版)
》
售價:NT$
1010.0
《
失衡与重塑——百年变局下的中国与世界经济
》
售價:NT$
602.0
《
不被定义的年龄:积极年龄观让我们更快乐、健康、长寿
》
售價:NT$
352.0
《
南方谈话:邓小平在1992
》
售價:NT$
367.0
《
纷纭万端 : 近代中国的思想与社会
》
售價:NT$
500.0
《
中国古代文体形态研究(第四版)(中华当代学术著作辑要)
》
售價:NT$
765.0
編輯推薦:
数据革命是信息技术革命的延伸,它会对社会产生巨大的影响,它完全是从另一个角度去完成信息技术革命不能完成的目标,还会对信息技术革命的产物(比如计算机网络、云计算、物联网)产生更大的需求,导致现在看来过剩的计算能力又变得不足。
数据革命的影响巨大,会深入到社会经济的方方面面。现在凡是用到计算机的地方,都涉及数据的问题。数据的处理对很多人来说都是一个崭新的领域,有很多新知识需要学习,并因此产生许多新兴职业。
数据革命中的数据不一定是大数据,虽然对海量数据的认知离不开大数据技术,但大数据只是数据的一个特例。
本书的目的不在于研究数据的获取,因为社会上已有足够的数据,无数运行的软件日夜不停地产生着新数据,无数程序员在编写着程序准备产生更多的数据。本书更多地是放眼于数据时代对数据的存储和应用,以及数据应用会产生哪些改变,这些改变包括政治的、经济的、社会的等;并且探讨了一个通用的数据产生价值的途径决策支持,其中涉及一个称为鹰眼的核心技术,这个技术的推广应用将对数据使用发挥很大作用。
利用数据进行革命的*终结果应该是:人们通过对数据的分析,解决了在经济生活中遇到的一些难题,反过来推进更多的数据
內容簡介:
在信息技术革命之后,我们将迎来数据革命。在大数据的概念、性质和价值已得到政府和社会的认可之后,大家关注的是数据如何获取,以及有了数据以后如何挖掘数据的价值。仅适合特定行业、满足特定需求的技术不足以应对一场革命,大数据不但是超出计算机软硬件处理的能力,更是超出人类的认知能力。只有实现对数据的认知,利用数据辅助决策,才是适合不同行业数据价值实现的通用手段。本书描述了数据革命的起源、实现的思路、所用的技术和要达到的目标,针对当今社会热点描述了在数据时代的应对之策。 本书宏观和微观、人文和技术、启迪思想和关注实用并举,既适合宏观层面的领导启迪思维,提出工作目标,又适合微观层次的执行人员找到实现的方法和路径。本书介绍的理论和技术均可在智慧城市、智能制造领域实际使用。 本书适合政府、企业决策者和CIO,及其他对大数据应用感兴趣的人阅读。
關於作者:
范煜,江苏南通人,研究员级高级工程师,大数据软件专家,范思软件有限公司创始人,毕业于南京航空航天大学,喜爱阅读和旅行,对经济、管理、历史、地理等方面知识有浓厚兴趣。
目錄 :
开编故事
第 1 章
迎接数据革命
1.1 信息技术革命 6
1.1.1 未完成的第三次工业革命 6
1.1.2 从智力替代到辅助决策、自主决策 7
1.1.3 三次工业革命的比较 8
1.1.4 数据是信息革命的主要遗产 10
1.2 为什么是数据革命 11
1.3 社会需要数据革命 13
1.3.1 发展需要资源配置均衡 13
1.3.2 数据促进社会平等 14
1.3.3 不均衡导致中国古代王朝更迭 15
1.3.4 熵增原理 16
1.3.5 中国国内市场的完善 17
1.3.6 新的就业机会 18
1.3.7 建立社会经济运行的反馈机制 19
1.3.8 权威的信息交换平台 20
1.3.9 分享经济模式的扩张 21
1.4 从海关数据看数据价值 23
1.5 美国的启示 27
1.6 数据的价值与变现 30
1.6.1 数据的变现 30
1.6.2 决策产生价值 31
1.6.3 数据的价值特点 32
1.6.4 数据服务的商业模式 33
1.7 信息时代遗留的问题 34
1.7.1 缺乏原始数据 34
1.7.2 难搞的需求 35
1.7.3 自助分析的陷阱 37
1.7.4 难以满足的客户 38
1.7.5 完全不一样的需求 40
1.7.6 心有余而力不足的数据挖掘 41
1.7.7 跳出事务处理的红海 43
第 2 章
认识数据革命
2.1 认识数据 46
2.1.1 数据分类 46
2.1.2 数据来源和存储 47
2.1.3 非结构化数据 49
2.1.4 数据处理的三个层次:产生、获取和分析 49
2.1.5 数据比图像、视频更有价值 50
2.1.6 数据与程序要分离 51
2.1.7 SQL是访问数据的通用语言 52
2.1.8 需要标准并开源的数据库设计 55
2.2 关于数据 56
2.2.1 数据和信息的区别 56
2.2.2 数据含金量 57
2.2.3 用于理解大数据的小数据 58
2.2.4 广义和狭义大数据技术 58
2.2.5 看懂数据的认知计算 60
2.2.6 数据的冷态、温态和热态 60
2.3 走出大数据应用误区 61
2.3.1 从个性化需求到普遍服务 61
2.3.2 走出结果导向 62
2.3.3 从有方向到无方向 64
2.3.4 自助分析工具与自助分析系统的区别 65
2.4 信息系统总体规划 67
2.4.1 基于数据的规划 67
2.4.2 用规划展示数据不足 69
2.4.3 以市长为核心的智慧城市总体规划 69
第3 章
推动数据革命
3.1 数据的立法 74
3.2 数据的公开 75
3.2.1 对信息公开的认识 75
3.2.2 政府开放数据 76
3.2.3 对开放数据的要求 77
3.2.4 政府主导的公共数据库 78
3.2.5 科研数据的公开 79
3.3 有时数据隐私只是借口 80
3.4 数据基础设施 82
3.4.1 数据作为基础设施 83
3.4.2 数据垄断的滑铁卢 84
3.4.3 公共数据服务与中介 85
3.4.4 农产品交易数据的案例 86
3.5 建立数据图书馆 88
第 4 章
进行数据革命
4.1 数据用于决策支持 94
4.1.1 数据分析需要统计而不是检索 94
4.1.2 数据通过辅助决策产生价值 95
4.1.3 两类完全不同的程序 96
4.1.4 传统商业智能模式的沦落 97
4.1.5 像鹰一样看数据 99
4.1.6 数据一致性不是分析的先决条件 100
4.1.7 从数据比较中发现价值 101
4.1.8 保障决策者的决策思维流 102
4.1.9 建立基于可视化数据的指挥室 104
4.1.10 组织的决策支持流程 105
4.1.11 宏观和微观的融合 107
4.1.12 用过度设计满足任意需求 108
4.2 建立数据模型 110
4.2.1 存储数据的数据仓库 110
4.2.2 可以推导需求的维度模型 112
4.2.3 维度模型原理 114
4.2.4 分主题进行数据分析 120
4.2.5 离不开的时间维度 121
4.2.6 通过时间分析数据 122
4.2.7 空间维度直观地显示数据 124
4.2.8 数据的可视化钻取 125
4.2.9 用OLAP提升统计速度 127
4.2.10 数据可视化加快对数据的认知 129
4.2.11 用内存数据库实现实时数据分析 131
4.3 改变思路 132
4.3.1 建立基于真实数据的KPI 132
4.3.2 为实现工业4.0建立数据基础设施 133
4.3.3 主动抽取数据实现数据集中 136
4.3.4 统计数据从报送到抽取 137
4.3.5 改进数据分析工作流程 137
4.4 适应数据分析的硬件 140
第5 章
实现数据革命
5.1 数据革命的作用 144
5.1.1 对国家治理的作用 144
5.1.2 对国有企业改革的作用 145
5.1.3 对政府三公经费管理的作用 148
5.1.4 对一带一路战略的作用 149
5.1.5 对医疗改革的作用 150
5.1.6 对银行信贷风控的作用 153
5.1.7 对降低社会成本的作用 156
5.1.8 对防止欺诈上市的作用 158
5.2 数据革命的后果 159
5.2.1 竞争机制的替代 159
5.2.2 计划经济和市场经济的融合 161
5.2.3 经济危机的消除 162
5.3 数据革命后的技术 163
5.3.1 以数据检索为主的搜索引擎 163
5.3.2 基于数据的云服务 164
5.3.3 可以检索数据的浏览器 165
第 6 章
工业数据革命
6.1 智能制造首先要解决数据问题 172
6.2 工业企业数据总体架构 175
6.3 财务数据分析 177
6.3.1 四个层次 177
6.3.2 阿特曼Z-score模型 178
6.3.3 财务比率 179
6.4 经营数据分析 180
6.4.1 名词解释 181
6.4.2 经营数据中心 182
6.4.3 销售数据分析 186
6.4.4 毛利数据分析 189
6.4.5 应收款数据分析 190
6.4.6 采购数据分析 192
6.4.7 应付款数据分析 193
6.4.8 库存数据分析 195
6.5 与上市公司外部数据比较 197
6.6 控制数据分析 199
6.6.1 从工业大数据中找到故障 199
6.6.2 从检测大数据中发现质量问题 201
第7 章
设计案例
7.1 政府房产数据分析 206
7.1.1 监控中心 206
7.1.2 预售数据分析 208
7.1.3 成交数据分析 209
7.2 医院管理决策支持系统 211
7.2.1 监控中心 212
7.2.2 医药收费数据分析 213
7.2.3 门诊数据分析 216
7.2.4 住院数据分析 220
7.2.5 手术数据分析 221
7.2.6 用药数据分析 223
7.2.7 医疗项目收入数据分析 224
7.2.8 大型诊断检查数据分析 224
7.2.9 体检数据分析 224
7.2.10 物资出入库数据分析 225
7.3 政府财政数据分析 227
7.3.1 监控中心 227
7.3.2 收入数据分析 228
7.3.3 支出数据分析 229
7.3.4 收支执行数据分析 230
7.3.5 预算执行用款数据分析 231
7.3.6 政府采购数据分析 231
致谢
参考文献
內容試閱 :
自 2008 年经济危机爆发以来,从美联储开始,世界各国央行都在通过货币政策防止更大经济危机的爆发。大家同时也认识到货币与经济政策只能缓解经济危机的严重程度,争取时间,而不能从根本上走出经济危机。只有新的技术革命的发生,世界才能真正地走出经济危机。那么下一场技术革命是什么呢?现在有很多推测,如机器人、工业 4.0、虚拟现实(VR)、3D 打印、人工智能等。如果研究一下这些技术的影响范围,就会发现它们都难以担当下一次技术革命的重任。能把世界拉出经济危机的技术革命是怎样的呢?它应该具有以下特征:①应用领域非常广泛,而不局限在某个行业;②影响的人群非常大,会产生大量新兴的职业;③和日常生活息息相关,具有很大的渗透性。显然,我们正处于信息技术革命的末期,越来越多的迹象表明,信息技术革命已经完成了它的历史使命:①英特尔公司已经走上了巅峰,摩尔定律即将失效,难以开发出更高性能的 CPU,即使推出更高性能的 CPU,市场需求也不大,市场普遍认为现在的 CPU 已经能满足现有需求;②智能手机经过高速发展后,市场进入饱和期,功能也基本满足需求,大家更换手机的动力减弱,高速发展的苹果公司销量停止了增长;③微软公司推出的 Windows 10 操作系统免费升级,但即使使用多种强制手段,大家升级的愿望也比较弱,甚至认为即使很老的 Windows XP 系统也能满足基本需求。当初人们对信息技术革命的期望,能够做到的已经做到,不能做到的现在暂时也遥遥无期。信息技术革命给我们留下什么呢?无论是初期的大型计算机,还是后来的个人计算机、笔记本电脑、智能手机,或者现在很时新的物联网,都会在使用过程中产生大量的数据。这种数据分散在不同的地方,很多数据用完即扔。数据只在产生的过程中发生了作用,历史数据价值并没有被发掘。特别是物联网技术产生以后,收集到越来越多的数据,但很多数据还没有找到用处。在计算机出现的初期,人们就对利用计算机实现决策支持抱有非常大的期待。关于决策支持系统、专家系统的研究,有一段时间也非常红火,但现在看来这个期望还没有实现。以实现决策支持为目的的商业智能领域虽然积累了许多有价值的理论和技术,但达到的效果还不能满足人们的预期目标。综上所述,作为信息技术革命成果输出的大量数据应该是下一场革命的输入,是新革命的原料,信息技术革命未完成的使命就是下一次革命的目标。因此,下一场革命无疑应该是数据革命。数据革命是信息技术革命的延伸,它会对社会产生巨大的影响,它完全是从另一个角度去完成信息技术革命不能完成的目标,还会对信息技术革命的产物(比如计算机网络、云计算、物联网)产生更大的需求,导致现在看来过剩的计算能力又变得不足。数据革命的影响巨大,会深入到社会经济的方方面面。现在凡是用到计算机的地方,都涉及数据的问题。数据的处理对很多人来说都是一个崭新的领域,有很多新知识需要学习,并因此产生许多新兴职业。目前已经出现一些与数据革命相关的事情,比如政府开放数据。现在欧美很多国家政府制定了政策,要求政府数据、有政府基金资助的科研数据对外开发,把原来保密的数据变成共享。政府建立起开放数据网站,提供可机读的数据。但是他们的工作局限在数据的供应上,对数据如何利用、如何产生价值还依赖社会的创新,并没有找到通用的方法,也没有找到通用的价值创造机制。数据革命中的数据不一定是大数据,虽然对海量数据的认知离不开大数据技术,但大数据只是数据的一个特例。本书的目的不在于研究数据的获取,因为社会上已有足够的数据,无数运行的软件日夜不停地产生着新数据,无数程序员在编写着程序准备产生更多的数据。本书更多地是放眼于数据时代对数据的存储和应用,以及数据应用会产生哪些改变,这些改变包括政治的、经济的、社会的等;并且探讨了一个通用的数据产生价值的途径决策支持,其中涉及一个被称为鹰眼的核心技术,这个技术的推广应用将对数据使用发挥很大作用。利用数据进行革命的最终结果应该是:人们通过对数据的分析,解决了在经济生活中遇到的一些难题,反过来推进更多的数据的产生和存储,再进一步推动更多的信息技术产品的生产和销售,吸引更多的人从事与数据相关的工作。
张开搭乘这趟早班航班到达上海,他在上海很顺利地找到中介,在几套房子中选择了一套满意的租了下来。
在上海的第二天,张开就开始进行市场的拓展工作。因为他的目标客户是医院,所以他要找到上海所有医院的资料。在2030 年,由于数据基础设施的发达,以前的人脉已经失去作用,如果像以前要依靠人脉的话,像张开这种在上海举目无亲的人是无法在上海开拓市场的。而现在的政府数据平台上,公开了上海所有医院的信息和数据。张开先分析了一下所有相同功能医药器材的采购、使用统计和增长情况,发现使用量庞大而且增长迅速,所以他对做好这个市场很有信心。然后他又在这些数据中,找到使用量排名前三的三家医院,准备从这三家医院着手。由于他的生产能力有限,他准备先打开市场,前期先占据10% 的市场份额,回去再慢慢扩大生产规模。在数据平台上,张开除了看到使用量以外,还看到每家医院采购的平均价格。他认为他的产品除功能有创新外,价格还是有竞争力的。他的价格比现在的采购价格大约便宜10%。
张开从网上顺利找到这三家医院采购部门的联系人和联系电话。他打电话过去,和第一家医院顺利地约好见面时间。第二天按照约定的时间,他拿着自己的样品到达那家医院,拜访了这家医院的采购负责人。这家医院的采购负责人是一名非常内行的专家,在看到样品之后,对产品的功能和质量非常认可,当即决定先采购小批量产品在医院进行试用,满意后再扩大采购规模。
首战告捷,张开非常高兴。回去之后他和第二家医院也约好时间,前去拜访。这家医院的采购负责人并非专业人员,对产品的质量难以把关,当他看了样品之后对产品质量产生怀疑。但他为人很好,建议张开到政府的检测中心检测一下产品质量,并明确表态,若是质量没有问题他就会采购小批量试用。于是张开根据他的推荐,找到一家检测机构,将自己的产品样品送过去检测。检测机构在三天之内给他产品的检测结果。张开将检测结果拿到医院之后,采购负责人也同意试用。张开承诺交付产品的质量和检测结果是一样的,如果他的产品和检测样品有差异的话,根据质量法,他将会承担巨额的罚款,他的公司也可能由于这项罚款而倒闭。所以第二
综上所述,每一次工业革命都由两个或多个部分组成:第一个部分是作为引起革命标志的技术的发展;第二个部分是由这个革命的技术导致的社会更深层次的影响。
同样,我们来审视一下第三次工业革命。第三次工业革命是以计算机的发明使用为基础,计算机本身已经产生了一个非常大的产业,对人类社会也产生了巨大影响,但这不是第三次工业革命的最终结果。计算机产生的大量数据以及由于我们对数据的应用而产生的变革才是第三次工业革命更大的成果。
数据革命也不是人们传说中的第四次工业革命,只是第三次工业革命的下半场。第三次工业革命分为两部分,上半场是信息技术革命,下半场是数据革命。原因有两个:一是这两场革命的联系如此密切,难以分开;二是数据革命实现的是信息技术革命未完成的理想。
1.1.2 从智力替代到辅助决策、自主决策蒸汽机发明的重要意义,在于人类首次从只能依靠人力或者畜力作为动力,变为可以以机器作为动力,从而对人类的生产经营活动产生了巨大的影响。原来只能小规模生产的产品因为机器的发明能够进行大规模的生产,火车头或者轮船可以通过蒸汽机来驱动把人或货物运送到很远的地方。
计算机的发明,同样拥有一个相似的重要意义,人类首次以机器来代替人类的智力活动。蒸汽机以机器代替人类的体力活动,计算机以机器代替人类的脑力劳动。
但是,仔细分析从计算机发明以来人们所取得的成就,不难发现,计算机的发展还没有完全达到预期的目标。
机器代替人类智力的活动有三个阶段。
第一个阶段是智力替代,即原来是人可以实现的智力活动,用计算机来替代。比如,原来必须用心算或者笔算进行的计算,用计算机可以自动进行;原来必须依靠个别智力超群、经验丰富的人才能完成的工作,可由计算机来完成。第三次工业革命基本上完美地实现了这个阶段的目标。
明使欧洲到美国的大西洋航行更为快捷,从而使得大量的移民可以抵达美国。火车的发明,特别是美国太平洋铁路的建设使美国东西海岸得以相连,大大加快了美国西部的开发。
第二次工业革命虽然是以电力的发明和使用为标志,但其巨大影响和电灯的发明与电力网络的建设密不可分,就是说只有在电力网络建设比较完备,电力能被很多地方的人所使用的时候,第二次工业革命才真正地发挥了作用。
目前,中国有三个非常大的垄断企业,一个是铁路总公司,拥有中国整个的铁路网络,还有两个就是国家电网和南方电网,垄断了中国的电力线路。它们分别是两次工业革命的成果,即使从现在的角度来看这两个网络也是一个国家经济发展的基础,其重要性有目共睹。相对而言,火车机车制造企业和发电企业的重要性就差很多。
第三次工业革命发展到现在,虽然我们有了计算机和互联网,但它和铁路运输及电力传输的差异是明显的。现在在互联网上传输的都是用HTML 标准标记的语言制作的网页,相对于我们拥有的数据,可以在网络上传输并且识别的数据显然数量还很少。
对比铁路和电力网,铁路运输的是人和货物,它只负责将人和货物从一地转移到另外一地即可,这是一个通用的运输工具,不管货物和包装是什么都能送达。同样,电力输送的电输送到任何一个地方都能够被任何以电力为能源的设备所使用,也是一种标准化的产品。
互联网和铁路、电力网有比较大的差距,虽然互联网的网络已经铺就,但传输的数据没有标准化。传输的数据从一地到另外一地,并不能被人们方便地采用,而必须通过专业的协议和手段才能看到。这些信息的格式比较多,包括文字、图片、音频和视频等。任何一个人打开一个数据包,并不能保证他能读懂数据,这是因为有很多不同的数据格式。
因此,三次工业革命结果的差异就在于:第一、第二次工业革命是先有标准化的产品再有网络的建设,第三次工业革命是先有网络的建设后再有标准化的产品。那么,要完成第三次工业革命还需要什么呢?就是还缺乏一次数据革命,实现把数据当成标准的产品来传输。
平等。结果的平等是一种不公平的平等,如果实现了,实际上是平均主义,吃大锅饭。机会的平等,是资本主义推崇的一种平等。如何实现机会的平等呢?目前被认可的主要做法是保证教育的平等,就是保证一个人不管出生背景如何,只要自己有天赋并努力,都可以受到良好的教育。实际上,即使接受同样教育的同学,家庭背景对一个人的成功还是有着重大影响的,这种影响的原因之一是由于背景的差异,每个人获取的信息不对称,从而机会也不对称。
随着信息技术的发展,越来越多的信息来自数据,所以数据的平等就是信息的平等。数据的平等,应该是机会平等的重要组成部分,是和教育平等同样重要的平等。数据的公平,就是社会上每个人都可以公平获取个人发展所需要的数据,比如专业的报考人数、毕业人数、工作薪酬,招聘的企业和岗位数、工资水平、所在行业和区域等,从而一个人无论是就业还是创业都有公平的起点。
1.3.3 不均衡导致中国古代王朝更迭数据是衡量社会财富是否均衡的有力工具。
中国有五千年的文明史。从秦始皇开始的专制历史就是一部王朝不断更迭的历史。很多学者都研究过中国古代王朝更迭的原因,一般认为是由于最高统治者采用世袭制,后代皇帝养尊处优、治理能力下降而引起的。
中国古代每个新王朝基本都是建立在战争基础上。累年的战争导致生产力的破坏,原来占据较多社会资源的人由于死亡、迁徙、社会地位的变化等原因失去原有的优势,社会资源的分布重新变得较为均衡。
但随着时间的推移,新的强势群体逐步掌握了越来越多的社会资源,积累了越来越多的财富,社会资源开始向这少部分人集中,于是社会开始逐渐进入新的不均衡状态。这种不均衡开始并不太严重,人们还可以接受。但经过几百年,这种不均衡逐步发展到忍无可忍、民不聊生的状况。这时,农民起义就会爆发,开始了新的改朝换代进程,直到新王朝建立,进入新的均衡状态,再开始新一轮的循环。
场机制就能自然发展。
在熵值增加到一定程度时,贫富悬殊、资源错配会严重阻碍经济的发展,经济发展会停滞不前,直到经济危机爆发、战争爆发或改朝换代。
为避免经济发展的停滞,需要进行有利于熵减的干预,让经济向平衡状态发展。只需在熵增过程过于剧烈或者过于突出的地方进行干预,从而实现熵减方向的调整,无须随时干预。顺着熵增的方向干涉不仅无效,反而会加剧它的不平衡。
数据革命的目标,就是计算出经济的熵值。通过对全社会经济数据的分析和研究得到熵值,然后从全局或者某个行业观察熵值的变化,用适当的方式进行干预,减小熵值或者减缓熵值的增长速度。通过观察干预后熵值的变化,得到干预措施的反馈,知道干预的效果,对干预方法进行微调。当然,如何计算衡量经济的熵值将是一个巨大的挑战。
1.3.5 中国国内市场的完善有专家对历史上大国在对外开拓市场上不同的做法进行了分析,提出了一个适合中国的战略:以优先开发国内市场来带动一带一路战略的成功。
文章的核心是把历史上大国开拓市场的模式分为四类:第一类是抢占现存大国的市场开拓模式,如德国,这是一种危险的模式;第二类是以日本为例的依赖霸权国家的市场开拓模式,这是一种比较脆弱的模式;第三类是英国的靠边缘国家的市场开拓模式,这是一种比较摇摆的模式;第四类是以美国为例的基于国内开发的市场开拓模式,这是相对比较稳固的一种模式。[3]
从中国的经济来看,前三十年的改革开放主要靠出口,所以虽然劳动力和生产工厂都在国内,但实际上是完全按照国际市场的规则在生产、贸易。现在由于劳动力成本上升,出口市场萎缩,不少企业把市场转向国内。当转向国内市场后,发现国内市场贸易规则和国际市场完全不一样,很多方面不成熟,这些企业面对的是一个全新的市场,需要遵守全新的规则。
美国的一些成功企业可以把自己的商业模式在世界范围内复制,但到
比如物联网。物联网的概念兴起以后大家都在搞物联网,很多人在研发物联网设备,推广物联网的应用,但应用以后产生大量数据怎么办,结果发现用处不大,或有些很小的用处。到了数据时代,等发现了数据的应用方法后,就会发现现在的数据远远不够用。因此,对信息技术、信息设备及其相关软件的开发会产生大量的需求,现在的信息技术的应用和设备的推广出现新的、更大的发展空间。
(2)有许多信息需要转换成数据。比如耶鲁大学的陈志武教授在国内合作搞的量化历史,就是把历史记录中的一些事件量化成数据。因此,信息时代以前的很多资料都可以做量化,目前很多信息没有数字化。在很多研究领域,研究的方式会产生很大的变化,对信息技术产生很多新的需求。医学从中医的辩证,到西医的手术,再到基因组的数据,基因组技术本质上可以说是数据技术,基因组的工作实际上就是把组成人体的基本信息进行数字化。按照这样的思路,有很多行业都会出现这方面的需求。(3)对数据的转换和保存。现在数据都分散在不同的地方,以不同的格式存储,以后要像挖掘文物一样把它们挖掘出来,让它们发挥作用,这样会产生大量的数据处理工作。(4)数据分析。对数据怎么解读,怎么预测,需要大量掌握数据分析技术的人员。所以数据革命产生许多新职业,需要许多新的从业人员。
1.3.7 建立社会经济运行的反馈机制反馈是物理学中非常重要的概念,若没有反馈很多的物理系统根本无法正常运行。
人类走路也离不开反馈。如果我们想沿着一条直线走,并且把眼睛蒙上的话,就会发现人实际在转圈子。我们在走路时,实际上需要眼睛不断反馈信息,不断修正步伐,最后才能走出一条希望的直线。
人类的工作只有得到及时、有效的反馈,才能做得更快更好。奖励也是反馈的一种。拿破仑说:只要有足够的勋章,我可以征服全人类。
1.3.9 分享经济模式的扩张从Uber 的商业模式及它所包含的意义,可以看到发达西方国家虽然还不具备数据时代的基础设施,但有公司已经起步。
Uber 是美国一个公司推出的新型打车业务。一般的出租车有专门的公司、专门的车辆和专门的司机来提供出租服务,有政府专门的定价,它是一种被政府法规规范的职业。但是Uber 提供了一种兼职的行为,只要你有车,有空余的时间,其他人需要打车的时候可以通过Uber 公司的平台叫到你。
Uber 的成功实际上一个是信息技术的成功,因为它的前提是打车的人和Uber 司机都拥有智能手机,智能手机提供了人与人相连的网络功能,而且智能手机还有一个重要的定位功能,这样就能够非常方便地让Uber司机了解顾客准确的地理位置。试想一下,如果没有智能手机的普及和定位功能描述,那么一个在大路上的行人必须使用计算机,而且必须精确描述地理位置,而Uber 司机必须在自己车上配备电脑设备并能上网才能进行业务处理,这样的话,双方成本肯定都很高。
现在由于智能手机的发展,对计算机的定位、上网功能都不需要额外的花费,利用现有的功能就行了。也就是说,一个Uber 司机,他根本不需要做任何的投资,加入Uber 网络就可以了。当然Uber 的成功还依赖他跟美国政府监管部门的不断斗争。因为这种模式违反现有的法律法规,它是打了很多的官司以后才得以成功运营。中国的滴滴出行模仿了Uber的这种模式。
从表面来看,Uber 通过信息技术实现了对闲置资源的合理配置,把原来闲置的车辆和闲置的人的时间利用起来,为社会增加了出租车服务,应该说是一种促进资源优化配置的先进技术,因此Uber 模式得到非常高的评价,被认为是该领域的一场革命,甚至在其他行业遇到类似挑战时被称为Uber 时刻。
通过深入分析,发现Uber 模式还有更深层的意义:它实际上是数据时代的先驱。
InsuranceUS 保险费195.3900
以下是一个提单的数据案例:
BUYER:TRI-S INTERNATIONAL INC. 20 ROYALAct_arrival_date 到港日期 2010-01Est_arrival_date 预计抵达日期 2010-01-05Shipper 发货人TECNO ART MARMI SRLShipper_ADDR1 发货人地址1 VIA NETTUNESE KM 13Shipper_ADDR2 发货人地址2 ARICCIAShipper_ADDR3 发货人地址3Shipper_ADDR4 发货人地址4Consignee 收货人SHAW INDUSTRIES GROUP INCConsignee_ADDR1 收货人地址1 616 E WALNUT AVEConsignee_ADDR2 收货人地址2 DALTON GA 30722-2300Consignee_ADDR3 收货人地址3Consignee_ADDR4 收货人地址4Notify 通知方TRANS TRADE USA INCNotify_ADDR1 通知方地址1 1040 TRADE AVENUENotify_ADDR2 通知方地址2 IRVING TX 75063Notify_ADDR3 通知方地址3Notify_ADDR4 通知方地址4Container Number 集装箱号 UACU3171616Piece Count 件数49Description 货物描述TRAVERTINE TILES SLAC 49 PCS
EXPRESS RELEASE E-MAILDO W TRUCKERINFO TO UAAIDELVRYORDER@
UASC.NET ALSO SEE GOAL108439Carrier Code 承运人代码UASUVessel Country Code 船东国家代码AE
本都是连锁店。美国只有在唐人街和墨西哥人居住的地方有小店。
比如在洛杉矶,如果所有的商场必须建在市中心,那它的地价肯定会很高,如果可以选在任意的地方建商场,成本就会很低。毕竟如果可以任意选一个地方围一个四方形,主要中间建个停车场,周边就可以开店,地主就不能随便要价。
在美国,一般吃一顿西餐快餐在8 美元左右,鸡蛋最便宜的1 美元能买12 个,当然这跟美元相对币值比较高有关,跟其他的货币相比它换回的石油价格比较低,但最关键的还是它的整个商品经营的成本比较低。
由于美国汽车普及率高,所以它的商店可以设在任意的地方,这样就可以避免类似中国高地价的困扰。当然在美国东部像纽约这样的城市,它的地价还是很高的。另外它的油价很便宜,高速公路很多都是免费的,西部基本是免费的,东部只有部分收费。美国只要是基础需求,就便宜甚至免费,因为越是基础的东西在物价中出现的概率越高。
可以想象,在中国商场里买件衣服,一般商场标价都是几千元,为什么会这么高呢?因为在这件衣服里面,切分这块蛋糕的人太多:第一,商场要分掉一块,大概要分掉四成;第二,租柜台的经销商要分掉一块;第三,生产厂家又分掉一块。生产厂家有物流费用,物流中是高速公路的垄断收费。生产成本又包括了在当地租房的费用,房租中是政府垄断的土地费用。
在美国,像梅西百货销售的商品都是自己直接采购的,它的利润就是从出厂价到零售价的差价,基本上就是一个公司在赚差价。而在中国多了个中间商。房租在成本里面占比很大,商场有很高的房租,生产厂家也有很高的房租,两重房租放在里面。美国则地价便宜,像梅西百货可以开在比较偏僻的Plaza 里面,甚至是自己拥有的产权,地价几乎可以忽略不计。
美国的资源在各地配置比较均衡,即使在很偏僻的乡镇,也可以享受很高的生活质量。甚至越是偏的地方,生活质量越高,原因是汽车文化的发达。虽然地理位置很偏,但是非常容易开车到城市上班、购物。美国的地价很便宜,可以在任何一个地方建造广场开店。不管在什么地方都能买到类似的商品,同样品质、同样价格。
对美国的考察和思考的目的,是希望能为数据时代的发展指明方向。
理层的决策而产生间接效益。管理人员根据数据做出决策,正确的决策及相应的执行才产生价值。如同战争中正确的情报带来的胜利。
一个决策的影响,大到数十亿美元盈亏的投资,小到只浪费点汽油和时间的出行。无论政府还是企业、个人,无时无刻不在做出各种决策。每个决策都必须依赖足够的信息,而信息都来自数据。用数据产生的结果引导决策,可以产生直接的效益。
1.6.2 决策产生价值数据通过为决策提供支持而间接产生价值,即人们是通过决策来实现数据的价值。决策离不开可靠的信息,数据是信息的主要来源,数据通过转换变为决策者可利用的信息而获得价值,并且得到回报。
决策可分为自动决策和人工决策。自动决策虽然更为直接和方便,但可应用场合较少,更多的为人工决策。所以数据技术的本质是将物理上产生的大数据转换成人眼可识别的小数据,再将小数据变为大脑可以快速直观吸取的信息,从而产生它的价值。
在互联网上采用数据挖掘就是典型的大数据应用。图书电子商务网站会通过搜集消费者以前的购物消费习惯,对消费者过去浏览过的、购买的书籍以及在购买其他商品的同时购买的书籍进行数据挖掘,一般采用的是购物篮分析算法。当一个新的用户登录网站后选择了一本书,网站后台工作程序就可通过有方向的数据挖掘得出相关书籍推荐,并且在快速计算后将相关书籍的清单展示给该用户,实现一对一的推荐。
但是,这种后台数据挖掘的计算以及书籍的推荐显然没有产生任何效益,只有用户对于网站的自动推荐产生兴趣,点击推荐的书并且加入购物车购买以后,整个流程才会增加效益、产生价值。
所以,真正变现的环节是人的选择,其他的只是参考。假设有一个人知道网站推荐是有目的的推荐,从而有意不点击推荐项目,那么数据挖掘的任何工作都不会产生效益。由此可以得出,大数据应用最后产生价值的主要环节在于人们的决策。
节约了10 分钟,而最大收益可能是在一个投资项目中获得数十亿元人民币的收益,所以它的价值具有不确定性。
而其他产品,比如手机,拥有手机就可以在移动状态下打电话,没有就不可以,有和没有是两种完全不同的状态。
1.6.4 数据服务的商业模式在数据时代,会出现与数据有关的新服务。这些服务主要集中在数据获取环节和数据的增值服务环节。
第一个环节为数据的采集和储存。这个工作主要负责采集数据,或者是负责从不同的数据源收集数据把它集中起来,或者将不可机读的数据转化为可机读。
第二个环节为数据增值服务。这个工作在拿到数据之后,提供依赖于数据的服务。比如,开发一个可以利用这些数据的软件系统,或者把数据和软件打包后面向最终用户提供云服务。也有可能只提供一个解决方案,而数据由客户自己购买或用客户自己的数据,最终客户直接将这些数据用于决策而不需要二次开发。
数据提供一般有三种模式:第一种是提供最终数据的查询,提供一个满足检索条件的数据集合,需要唯一的条件匹配,比如身份证号码、企业代码证号码;第二种是提供统计数据,根据查询条件给出统计数据,但不提供个体数据;第三种是提供原始粒度的数据,按照本书的介绍,如若要采用鹰眼技术,则必须采用原始粒度的数据进行分析。
每一个数据采集和服务商都不希望自己仅成为一个数据的提供者,而是希望提供更多的增值服务。但是,客户的需求多种多样,难以确定客户需要按什么维度去统计。对数据的汇总实际就是对数据维度的裁剪,就是对数据有效信息的过滤,仅提供统计数据会明显限制客户可以利用数据实现的功能,也减小了数据服务商的市场。
按照专业分工的要求,修路就是修路,开车就是开车,不可能哪家公司修了高速公路还必须租这家公司的车才能在上面走。同理,如果数据提
算,比如,房价收入比、居民消费购物场所数以及人均住房面积等,但还有很多指标并没有来源。类似的还有很多研究区域经济发展情况的文章或书籍,可能只会给出同比增长率的数据,没有提供计算这些增长率的当期和同期数据。当然,限于文章或书籍的篇幅,提供全面的数据比较困难,但如果做一个规模较大及连续的研究,开发一个提供原始数据的网站可能对社会能提供更大的价值。
这样的社会科学研究,后人无法在这个基础上进一步研究,也无从确认研究结果的真实性和准确性。后人的研究就只能从简单的数据收集开始,做大量的重复工作。
《当代生物学》(Current Biology )在2013 年12 月发表的一篇论文中[4],研究了19912011 年的516 篇文献,发现在论文发表20 年之后,原始数据有80% 丢失。由此看来,人们对原始数据的保存非常不到位。
假设几十年后,有人研究中国改革开放30 年的经济发展,他除了这些提供间接数据的文章之外,将找不到任何可供研究的原始数据。理论上说,虽然我们现在身处于一个知识爆炸、信息发达的时代,但真正的实质数据还是相当缺乏。
历史学家研究古代历史只能靠发掘陵墓发现新的文物,从考古的重要性来说,文物肯定不如文字,比如在陵墓里面发现的甲骨文或者竹简,它上面的信息价值要大于文物本身。
后人要研究我们这个时代,不能仅仅依靠文字和图片。数据会和文物、书籍、绘画一样,成为记录一个时代的载体。所以数据的重要性显而易见,我们要注重保管好这些数据。
1.7.2 难搞的需求阿基米德说过,只要给我一个支点,我就可以撬动整个地球。程序员也说,只要给我一个需求,我可以开发任何软件。
实际上,程序员说的需求,不是简单的一个需求,而是包括如何满足需求的设计。这个需求一般包括想要什么功能,操作流程如何,甚至
数据源中都有体现。他需要看的数据,肯定已经录入数据库。如果没有这个数据,就说明他不需要看这个数据,否则需要先修改事务处理软件,增加该数据的录入功能。
科学研究方法有归纳法和演绎法。原来我们用的可能更多是归纳法,也就是从需求到软件开发,而现在用到演绎法,必须从模型去推导需求。
1.7.3 自助分析的陷阱在商业智能(BI)领域里,2016 年发生了一个比较大的变化,由Gartner 公司做的魔力象限把原来经典的品牌如SAP、IBM、SAS 等都降到了有远见者的象限,而只在领导力象限留下了三个品牌,包括Tableau和 Qlik。
这个调整,把BI 的方向导向了自助分析,如果说BI 以前是由IT 部门主导,现在则以业务部门主导。
但是,自助分析是不是未来的方向呢?笔者认为不是。
现在来分析一下自助分析的实质。举个吃饭的例子,有两种自助方式,一种是自助餐的形式,另外一种是DIY 厨房式的形式。自助餐就是所有的菜都已经做好了,你只要拿筷子和勺子就可以直接吃;而DIY 厨房式只提供厨房,需要自己去买菜做,但可以做出任何自己想吃的菜,加任何自己想加的调料。
显然,现在在BI 里面的自助是第二种DIY 厨房式的自助。也就是说,它只是提供了一种工具,业务部门的人员可以用它做出很漂亮的图形,但数据必须自己处理,图形必须自己选择,需求也是根据自己的业务需要去设计。这种自助对人员的要求相对来说比较高,起码要熟悉自助分析的软件。虽然这种软件非常方便,也很直观,但毕竟需要学习。
但是,仅仅靠这个软件并不能解决BI 所面临的问题,比如说大数据的问题,如何用很少时间从一个大的数据集中提取分类合计数据。像Tableau这种自助分析的工具,实际上只能面向一个有限的数据集,它的起点是打开一个数据平面文件,或者用一个SQL 语言或MDX 语言得到一个二维表,
39第1章 迎接数据革命员决定,所以高层管理者更多的关注信息系统完成以后对决策支持的作用,而信息系统供应商为投其所好,会从高层管理者的角度描述产品的功能。但当信息系统实际完成投入使用以后,购买决策者会发现它的实际功能与供应商的描述及其自身的心理定位都有较大差距,从而产生不满。供应商为兑现自己的承诺,满足客户的需求,会按照客户需求开发一些定制报表,制作少部分装饰门面的统计图形。但这些程序运行速度比较慢,缺乏总体的一致性,其实是对客户的敷衍,不仅达不到客户的需求,还会花费大量的精力和成本。问题产生的根本原因在于供需双方都把决策支持和事务处理混为一谈,低估了决策支持的难度。供应商由于技术限制,即使在知道决策支持难做的情况下,也只能从现有的技术出发进行开发。事务系统和决策支持系统是两种不同的系统,不但开发的流程不同,使用的技术和工具软件也不同,甚至服务器都不能合用。好比买房子,建房和装潢是两个专业的事情,不能要求房屋开发公司同时也是一个非常好的装潢公司。信息系统采购商和供应商之间的误解,可以用一个外国人来中国买房子的场景来比喻:一个对中国房地产市场一无所知的外国人想买房子,当房产商带他去参观样板房时,精致的样板房装修营造的舒适的生活环境打动了他,他会认为这就是他要买的房子,即所谓的精装修房,从而顺利签约。等到交房时,这个外国人发现却只是一个毛坯房,与他想象中的房子有很大差异,从而与房产开发商产生纠纷,要求房产开发商按照样板房交付。产生纠纷的原因可能是房产商当时并没有说清楚,也可能他没有理解房地产商口中的毛坯房和他看到的样板房有这么大的区别。如果房产商决定迁就外国购房者的要求,按照他的要求进行精装修,但由于他们对装潢缺乏总体设计,即使能提供一些基础设备也达不到样板房的效果。在建设信息系统时,供应商描述的功能类似样板房,等实际交付时用户发现却是毛坯房,从而产生纠纷。如果一个组织的负责人从来没有参与过信息系统的采购,他将难以分辨出哪些是供应商对前景的描述(样板房),的前提条件。实际上,在数据仓库的创始人比尔.恩门的书中[4] 已经明确说到,这两类应用的最大区别是:事务处理是先有需求后有开发,而决策支持是先有开发后有需求。
虽然拥有了商业智能的技术和软件,但一方面,由于大多数从事商业智能软件开发的技术人员都是从事务处理软件开发转过来的,而且很多项目对这两类功能没有明确分割,所以技术人员存在固定思维习惯,必须要先有需求才能进行开发,非常不适应没有需求的开发。另一方面,虽然数据仓库的理论里有很多的技术可以应用(比如维度模型),但熟悉这方面技术的人非常少,没有人能找出进行无需求开发的方法,所以难以应对没有客户需求的开发。
只有充分利用数据仓库的维度模型,把维度模型的价值充分发挥出来,通过过度设计、模型推导来应对可能出现的各种各样需求,才可能实现无需求的开发。
1.7.6 心有余而力不足的数据挖掘经过多年的努力,很多公司在商业智能的开发中开发出许多相关的产品,最后由大的IT 公司,例如,IBM、SAP、微软、Oracle 进行收购整合,形成完整解决方案。
目前,商业智能软件或者BI 软件开发和整合高潮已经过去,很少再看到新的技术出现。但BI 软件的应用也没有取到预想的效果。从市场反馈的信息看,成功实施BI 的公司很少。表面是由于价格昂贵而客户的需求少,实际上是实施失败率高才导致的价格昂贵,因此价格高只是一个结果而不是原因。
纵观整个商业智能软件体系,可以发现,软件开发将数据挖掘作为商业智能发挥作用的一个主要方向。即在整个商业智能技术方案架构中,ETL 或OLAP 都是内部的一种技术实现,而展示和数据挖掘是最终向用户展示效果的主要手段。
但是,用户对BI 展示和数据挖掘效果都不太认可。主要原因是数据
变成小数据,随后导出标准的格式(如CSV 格式),之后通过R 语言建立数据挖掘的模型,从而输出图形,若这些图形可以变成页面和其他的功能一起调用,就能基本上满足客户的需求。
1.7.7 跳出事务处理的红海信息技术革命经过几十年的发展,软件的数量越来越多,并且重要性也越来越大。人们普遍认为,以后的世界将是一个软件定义的世界,以后所有的技术和设备的大部分功能都将依赖软件来实现。比如说,智能手机里肯定含有很多硬件,但智能手机功能的强弱并不是由硬件决定的,而是由它上面运行的APP 软件来决定的。
在人们看到这么多的软件,并认识到它的重要性以后,会产生一种错觉,认为软件已经非常丰富甚至过剩。它的品种如此之多,涉及面如此之广,如果说目前软件还有不足的话,肯定不会被人认可。如同一个人身处闹市的中心时,看到周围都是人,会产生一种错觉,以为满世界都是人,已经人满为患了。实际上,如果有机会乘直升机从人群中往上飞,开始高度低的时候,在视野中还是有很多人,但当升到一定高度,就会发现人都集中在市中心一块区域中,除了市中心以外,周边还有很大的空地,人非常少。同样,在软件行业,也有这样的一个感觉:如果自己想开发一个软件产品,就会发现相似的软件产品已经非常多,但如果跳出这个圈子,会发现大部分的软件其实都可以归为一类,叫事务处理软件。
实际上,除事务处理软件外,还有一类软件,叫决策支持系统,却很少能看到这类软件。在组织做信息系统规划的时候,大家常常把决策支持系统和事务处理软件混为一谈,搞得整体架构非常混乱,关系也非常复杂。事实上,决策支持系统和事务处理软件是一个双生关系,而不是互不相关的两种类型软件,即每一种事务处理软件的数据都需要相应的决策支持系统处理,并不会因为有了事务处理软件就不要决策支持系统了,或者有了决策支持系统就不要事务处理软件。
所以,一般组织需要做两个信息系统规划:一个是事务处理软件规划;
数据可以按来源分为内部数据和外部数据,内部数据来源组织内部的信息系统,数据真实、及时、准确、详细,使用没有数据隐私问题,也无须费用。外部数据可以来自网上公开的数据,比如上市公司的定期报告,也可能购买自第三方数据提供商。
从数据的使用对象分,有内部用户和外部用户,对外部用户主要要保护好数据隐私。
对数据的应用基本上是以上分类的一种组合。
2.1.2 数据来源和存储数据是信息技术的产物,人类只有计算机诞生后,才能如此方便、大量地生成数据。
数据的第一个来源是人们通过计算机及上面运行的软件输入的数据,比如在企业ERP 或者OA 等应用软件上输入的数据,在社交网站上输入的数据,这是人们有意识、有目的地输入数据。
数据的第二个来源是人们在操作软件时留下的痕迹,比如网站的日志。
数据的第三个来源是机器运行时自动产生的数据,比如物联网或者是DCS 控制系统产生的数据。
数据存储方式分为在线存储、离线存储和近线存储。
在线存储是指存储设备和所存储的数据时刻保持在线状态,可供用户随意读取,满足计算平台对数据访问的速度要求。就像PC 中常用的磁盘存储模式一样。一般在线存储设备为磁盘和磁盘阵列等,价格相对昂贵,但性能较好。
离线存储是对在线存储数据的备份,以防范可能发生的数据灾难。离线存储的数据不常被调用,一般也远离系统应用,所以人们用离线来生动地描述这种存储方式。
离线存储介质上的数据在读写时是顺序进行的。当需要读取数据时,需要把磁带卷到头,再进行定位。当需要对已写入的数据进行修改时,所有的数据都需要全部进行改写。因此,离线存储的访问速度慢、效率低。
2.1.3 非结构化数据数据一般分成结构化数据和非结构化数据。现在大家比较关注的非结构化数据,比如,视频、图像、声音,实际上应该归为多媒体数据,标准的非结构化数据应该是不能通过普通关系数据库存取的文本数据,比如,JSON 格式或者XML 格式数据。在数据时代,应该以结构化数据和标准的非结构化的数据为主,把非结构化和结构化数据一起处理。
至于视频、图像和声音,在数据时代它的作用不是很大,很可能属于下一个时代,而不属于数据时代。因为必须有技术从这些文档里提取可以保存的结构化数据,才可以对它进行利用,否则这种多媒体格式的文档作用不大。虽然从Hadoop 的应用情况来看,存储多媒体数据成为一个主要目标,但它可能会误导发展方向,因为多媒体数据虽然数据量很大,但含金量很小。就像不一定是铁矿石就可以炼铁,钢铁厂会尽量采用含量高的铁矿石。视频、声音和图片的含金量目前来说是非常有限的。特别是视频,它占据的空间非常大,但含金量比较小,起码我们还没有能力发掘其中的价值。我们的精力应该主要放在这种结构化数据和不是多媒体的非结构化数据上。
2.1.4 数据处理的三个层次:产生、获取和分析数据处理分数据的产生、数据的获取和数据的分析三个层次。
数据的产生在信息技术革命完成的今天已不成问题。现在不但存在大量的数据,同时随着物联网技术和应用的发展,已经出现爆发性增长,面临数据过剩的问题。在数据时代,技术开发的重点不应该在数据的获取上,它应该是信息技术发展的必然结果,而且,数据开发得越好,数据的产生会越多。虽然还有很多数据没有量化,比如有人在做量化历史工作,把历史上存在的档案录入计算机变成数据,但这只是一些特定领域的拾遗补阙工作,不是数据时代工作的主流。
其次是数据的获取问题。由于数据分布的离散性和格式的多样性,现在并不能很方便地获取数据。比如一个企业老板,按理来说他是企业最高
表达的信息很少,而图像可以表达很多。实际上,面对描述很长历史和众多个体的大数据,人类对数据的认识是非常有限的。随着个体的增多,单一个体的识别已失去价值,对群体的识别更为重要。此外,历史数据也应比单一时间点更为重要,但人类对把这两点结合起来的数据的应用还远远不够。
尽管现在人们对图像和视频的存储和识别花费很大精力,但由于占据存储空间很大,在硬件投资上占据很大的预算,从数据含金量的角度来看,他们所含的有价值的信息非常少。由于数据的含金量要大于图像和视频,因此,技术的重点应该放在数据的利用而不是图像和视频的利用上。
那么,在数据时代,图像和视频是否就没有价值了?当然不是。随着识别技术的发展,将可以从图像和视频中抽取有效信息,转换成数据格式,然后和其他数据一起被加以应用。
换言之,无论是现在还是未来,数据的利用才是最大的挑战,图像和视频最终作为大数据里面最小粒度的数据,只是在从一个很大的数据集中发现问题以后,需要钻透至最终的数据时,才会用到图像或者视频。
假设未来能够发明一种癌症识别技术,可以在一个人的照片中提取信息识别出该人是否是癌症患者,那么如何让这项技术发挥最大效益呢?难道仅仅靠医院提供癌症识别服务,让病人拿照片来逐一自动扫描,做出诊断吗?显然,通过和大数据技术的结合,还有更多价值可以挖掘。
具体做法是,通过收集大量癌症患者的图像,从中抽取出每个人的特征数据,建立数据库。利用数据分析,找出这些特征与不同癌症种类、发展阶段、治疗效果之间的关联。有了这些关联数据,就容易找出易患人群的特征,优先筛选的对象。对不同的治疗方案、治疗效果和存活率进行跟踪反馈。
什么时候需要用到个体的图像呢?在跟踪具体患者对象,开始进行治疗时。所以,图像变成数据钻取至最后得到的数据。
2.1.6 数据与程序要分离一个独立的信息系统由硬件、软件以及数据库组成,计算机软件是由程序和相关的文档组成,数据由计算机软件产生,保存在数据库中。
式描述,由行和列组成。一般列数固定,行数可变,可能有几万行、几十万行数据。列可以分为文字格式、日期格式、数字格式。一个最简单的二维表可以用文本格式来保存,文本格式一般称为CSV 文件。CSV 文件每行用换行符分开来,行里面的字段可以用逗号或者制表键分开。在记事本等文本编辑器中看,每行的长度不一样,也不是对齐的,但如果用Excel 程序打开的话,会发现已经自动对齐,一格一格的。CSV 是最简单的数据文件,一个文件里保存了一张表。在稍微复杂的Excel 文件中,一个文件可以通过不同的工作表(Sheet)保存多张二维表。
更常用的数据存储模式是关系数据库。数据库里面包含很多二维表,称为数据表。数据库管理系统有简单的Access,或者常用的SQL Server,它们都由微软公司提供,还有大型企业用的Oracle 数据库,其他还有IBM的DB2、SAP 的Hana 等。
一个数据库系统中可以包含多个数据库,一个数据库又有多个数据表。数据库不仅可以存在一个服务器上,也可以分布在网络中多台服务器上。
多个服务器可以通过网络相连,不同服务器上可以安装不同的数据库系统,通过任何一台连接到该网络的机器可以访问这些数据库。就是说,如果需要,用网络中一台机器上的数据库访问程序可以打开分布在不同的服务器上的数据库,即使服务器在国外,也只要联网即可访问。
还有些数据作为备份数据。一般备份数据是把数据保存在磁带上,这种数据平时不好打开访问,必须把数据恢复到数据库中才能看,因为它要占不少的空间,所以看完以后需要把数据删除,以便恢复和查询其他数据。
随着数据越来越多,出现了专门的数据仓库技术、数据仓库服务器。美国的Teradata 公司专门做这种数据仓库服务器。数据仓库中的数据一般只增加,不删除和修改,只用于查询,保证查询时即使数据量很大访问速度也很快。
面对越来越大的数据库,一种处理方法是把一部分不用的数据备份起来,比如说三年以前的数据备份起来,不放数据库里面,平时也查不到,要查必须临时恢复。第二种处理方法是不断地扩充服务器,原来是一台数据服务器,现在要用3 台或者5 台甚至更多。
上检索文章,每次检索只能得到一篇文章,如果想把两篇文章合成一篇,可以分别查询,再利用软件进行编辑合并。在分布式数据仓库系统里面,近期目标可以先实现对检索数据导出后再进行合并处理;远期的目标一定可以进行联合查询,把处于多个服务器中的数据进行合并,直接输出一个数据集。
2.1.8 需要标准并开源的数据库设计美国的软件产业比较发达,而日本相对来说比较落后,核心原因是效率。
美国软件有两种提供方式:一种方式是软件产品,即开发的通用商业软件,这个软件可以用于不同的单位,软件产品可以直接销售或提供服务(Saas);另一种方式就是开源软件,当开发者觉得这个软件不成熟,自己无力独自完善和推广时,就把源代码开源,其他人可以在开源代码基础上继续完善,定制开发自己的软件。这两种模式导致的结果是:任何一个软件工程师的工作成果可以得到最大限度的应用,从而提高了整个社会的软件生产率。
日本公司是定制化开发,软件都是为特定用户开发的。一个软件工程师的工作成果只能被一个用户内部使用,不能为社会所共享,换一个用户就需要重新开发,因此日本整个软件生产率就比较低。
但现在美国的开源软件只是源代码的开源,还没有涉及数据库的开源。
在数据时代,更重要的是对数据库资源的开源和标准化。从软件开发角度看,数据库的定义常常能决定软件开发的效率和面向应用的弹性,也就是说,一个客户的需求主要体现在数据库的设计和用户界面的设计上,而这两个方面常常是比较关联的。数据库怎么设计,界面常常必须与之对应。
比如,数据库中常用的主从表的设计,一般有一个主表,记录一个订单什么时候下的,客户是谁,一个从表记录销售的明细,订单产品的规格、单价、总价。如果数据库里定义了主从表的结构,程序界面上就要支持这种主从表的结构。所以软件开发中数据库设计是一个非常重要的方面,特别是应用软件开发。
生不同的信息,而数据是客观存在的原始素材,不会随着时间的变迁和外
部条件的变化而改变。
再举一个猪肉价格的例子说明同一个数据产生的不同信息。
商务部全国农产品商务信息公共服务平台发布2016 年7 月25 日南京农副产品物流中心猪肉(白条猪)价格为每千克22.4 元。如果在2016 年3 月看这个数据,得到的信息是猪肉价格涨了,不能买,因为3 月的价格是每千克16.48 元。如果是被位于常州的江苏凌家塘农副产品批发市场的人看到这个数据,得到的信息是这个价格比较低,可以买,因为这个市场当天的价格是每千克26.5 元。
目前很多的书籍和文章给我们传递的信息,虽然在目前有较大价值,但随着时间的推移,会逐渐失去其原有的价值。由于书籍或文章中没有保存原始数据,后人将难以判别信息的真伪,也不能通过和新数据的比较生成新的信息。
由此可看出,数据时代应该保存的是数据而不是信息。
2.2.2 数据含金量在资源领域有含量的概念。比如铁矿石,不同的矿山出品的铁矿石的含铁量不一样,不同的铁矿石炼出来的钢铁的出铁产量也不一样。为什么中国的钢铁厂现在都大量进口巴西和澳大利亚的铁矿石,就是因为这些地区的铁矿测出的铁含量非常高。中国的矿山开采出来的铁矿含铁量非常低,在可以选择含铁量比较高的矿石时,一般就会弃用这些含铁量比较低的。
同样,我们获取的数据也有含金量问题。如果按照字节去计算的话,虽然有些数据量很大,但它的含金量比较低。因此不是数据越大,价值越高。大数据的一个主要特征就是价值密度低。
在数据时代,不仅要关注数据,也要关注数据的含金量,要把更多的注意力投入到含金量比较高的数据上,而不是在含金量比较低的数据上不断投资。
如何区分不同数据的含金量?
大数据技术可分为狭义大数据技术和广义大数据技术。
所谓的广义大数据技术就是包括BI 在内的传统的决策支持系统以及为实现决策支持系统开发的一些商业智能工具,包括报表工具等。在涂子沛的《大数据革命》一书中,有一章专门讲到的大数据技术实际上就是商业智能技术。
从硅谷的技术人员的角度来看,大数据技术主要是指以Hadoop 为主的一批开源的数据工具,而不包括传统的商业智能技术。这可以从开源软件中的菜单设置看出来。在商业智能软件中,有一类工具软件称为ETL 软件,Kettle 是一个开源的ETL 软件,使用的人很多。若是从广义大数据角度来说,ETL 工具本身就是大数据工具的一部分,但实际上,它的菜单中有一组功能,挂在Big Data 的菜单下,都是针对Hadoop、HBase 等开源软件的控件。即从Kettle 的开发者的角度看,只有这些开源的软件才属于大数据技术,而Kettle 软件本身不属于大数据技术。因此,可以把以Hadoop 为主的软件称为狭义大数据技术。
从实际的技术发展来看,狭义大数据技术正是在商业智能技术处于发展停滞阶段以后推出来的一些新技术,他们的目标是一致的,应该也可以融合。比如Hadoop 的出现实际上就解决了大数据原来用传统的数据仓库技术需要很大投资才能解决的问题。
随着狭义大数据技术的发展,出现了和BI 技术结合的需求,比如eBay 公司推出的Kylin(麒麟)开源系统,就是BI 中的OLAP 技术和Hadoop 的结合。
OLAP 有MOLAP、ROLAP 和HOLAP 之分。一般MOLAP 和数据库是比较密切结合的,比如说微软的SSAS 和SQL Server 的结合,OracleOLAP Server 和Oracle 数据库紧密结合,Kylin 软件目标是实现和Hadoop的结合。ROLAP 的技术并不需要把具体的数据保存在特定的数据库中,它只提供了一个访问接口,这个数据库完全可以把数据存在Hadoop 中,通过Hive 的接口来读取,这样仍然可以用原来BI 提供的一些工具和接口去访问数据,只不过这些数据不是存在原来BI 典型的关系数据库中,而是存在以Hadoop 为核心的分布式文件系统中。60 数据革命大数据价值实现方法、技术与案例2.2.5 看懂数据的认知计算很多领域需要用到数据。现在不是没有数据,而是怎么样去利用数据。IBM 把认知计算确立为转型后的重要战略支柱。认知这个名字笔者觉得还是非常适合的。数据不是有了就行,关键是要从数据中看到东西,要把数据包含的信息转换成能够识别、能够了解的信息才有价值。IBM 定义的认知计算指的是要通过以人的自然语言交流及不断学习,通过技术与多个学术领域的结合使人们更好地从海量复杂的数据中获得更多洞察,从而做出更为精准的决策。这里讲的认知不是计算机的认知,而是人类的认知,计算机只是帮助人类认知的工具。人类无法通过大数据认知,只能通过小数据。大数据只有转换为小数据,人们才能理解,才能认知。数据技术要解决如何把大数据转换成人能接收的小数据。IBM 的认知计算包含领域比较多,把认知计算讲得过于神秘,和自己的优势技术结合得过于密切,把门槛提得很高,比如说利用沃森系统的自然语言的识别。认知不一定要自然语言,它的核心本质是对数据的认知,任何方式都可以,而且也没有一个非常具体的认知路线。虽然 IBM 的认知计算更多是一种战略层面包装,但这种思路或是提的角度是完全正确的,也可以消除现在物联网或大数据应用上的一些误区。2.2.6 数据的冷态、温态和热态借用冷数据、热数据和冷备份、热备份的概念,可以把一个组织内部的数据存在状态分为冷状态、温状态和热状态,分别称为冷态数据、温态数据和热态数据。冷态数据是指数据处于不可访问状态,对应冷数据,原因可能是离线、不共享、无文档等状态。离线指数据保存在软盘、光盘、U 盘等媒介中,一般不好直接访问。不共享指数据存在的计算机虽然处于连线状态,但数据所在的文档不可以被其他计算机访问,比如一个单位中许多人都在自己桌面计算机中生成和保存 Excel 文件,文件所在目录和文件本身没有设置共