新書推薦:
《
战争事典085:德国人眼中的欧战胜利日:纳粹德国的最终失败
》
售價:NT$
499.0
《
步履匆匆:陈思和讲当代人文(杰出学者陈思和的人文之思、情怀之笔!)
》
售價:NT$
299.0
《
宋朝三百年
》
售價:NT$
790.0
《
礼制考古经典选读
》
售價:NT$
1340.0
《
MATLAB实用教程(第六版)
》
售價:NT$
695.0
《
中国思想的再发现(壹卷:近观系列,沟口雄三教授以其精湛的学术洞察力,旨在呈现一个全面而立体的中国思想图景)
》
售價:NT$
325.0
《
骨科康复学(第2版)
》
售價:NT$
1140.0
《
笔记启蒙 : 英国皇家学会与科学革命
》
售價:NT$
390.0
編輯推薦:
数据是未来的新石油
风靡斯坦福大学的社交数据革命课
亚马逊前首席科学家、大数据专家心血力作
简体中文版全球首发上市
阿里巴巴、谷歌、脸谱网、亚马逊、沃尔玛、桥水基金正在应用的数据挖掘和机器学习技术
后隐私经济时代的全新游戏规则
社交数据的革命使之前从未量化或无法量化的一切事物都能被量化。当我们有能力对世界上一切事物的数据进行挖掘,在透明性与主动性方面行使我们的权利时,我们的数据将服务于我们。
內容簡介:
《大数据和我们》告诉我们,每当我们在谷歌上搜索某个问题,在脸谱网上跟某人互动,用优步打车去某处,甚至打开一盏灯时,我们都在产生和分享社交数据。无论是被动还是主动分享的数据、强制还是自愿分享的数据、精确还是粗略的数据,社交数据的总量呈指数增长趋势。
在此背景下,数据科学家化身为侦探与艺术家,通过人们留下的电子踪迹为他们绘制出越发清晰的行为素描画,发现人们的偏好或倾向,以及预测人们可能会购买何种商品。
银行通过数据来评定我们的信用等级,保险公司通过数据来评估我们的风险水平,雇主通过数据来决定是否雇用我们,但作为个体,我们却并未充分受益于数据财富。
我们每天都会做出很多决定,我们今天的行为方式可能会影响我们今后几十年的选择,但很少有人能在短期或长期内观察到自己的所有行为或分析出这些行为将产生何种影响。随着我们逐渐认识到社交数据的价值,《大数据和我们》的作者认为,我们的生活不应由数据来驱动,而应让数据为我们的生活服务。
在这个时代的转折点上,人们正在定义创建数据的人与把数据转化成产品和服务的组织之间的关系。不仅游戏规则发生了改变,这个新游戏还要求我们重新界定客户与零售商、投资者与银行、雇主与雇员、患者与医生、学生与老师、公民与政府之间的关系。在《大数据和我们》中,作者总结了自己多年来在商业、教育、医疗、旅游和金融领域做咨询的经验,并在此基础上提炼出大数据如何更好地服务于普通大众的观点。
關於作者:
安德雷斯韦思岸(Andreas Weigend),世界上最杰出的大数据、移动社交技术和消费者行为专家之一,美国亚马逊公司前首席科学家。
他在美国斯坦福大学、加州大学伯克利分校和中国复旦大学任教,还是社交数据实验室(Social Data Lab)的创始人和负责人。
他住在加利福尼亚旧金山。
目錄 :
序 言 当你的一切都被记录在案时 VII
引 言 社交数据革命 001
第1 章 培养数据素养
数据挖掘的力量 020
你的数据有什么价值? 024
老虎机与挑剔的相亲者 031
通过机器学习发现错误 034
用数据模型辅助决策 038
实验!实验!实验! 043
第2 章 数字身份与真实身份
隐私权简史 053
从密不透风到公之于众 057
在互联网上,所有人都知道你是谁 061
使用假名的利与弊 067
真实的信号 074
隐私权和责任心不可兼得 078
第3 章 社交图谱与信任系数
大数据时代的人际关系 090
动态信息功能与分享所爱计划 097
为拥有数据的人提供服务 101
社交数据的影响力有多大 111
信任的价值 119
建设积极的决策环境 127
第4 章 传感器数据大爆炸的时代
如何充分挖掘传感器数据的价值 138
雇用私家侦探的做法过时了! 143
人工智能时代的读心术 155
特克斯勒消逝效应与专注力 162
一次杜撰出来的度假之旅 171
第5 章 计算隐私效率与数据回报
用户访问自己数据的权利 180
用户检查数据挖掘过程的权利 186
用自己的数据投票 205
第6 章 让数据为你服务
拥有修正数据的权利 213
拥有对数据进行模糊处理的权利 219
拥有用数据开展实验的权利 224
拥有自主导入和导出数据的权利 229
人类擅长的事和机器擅长的事 234
第7 章 把未来创造出来
按照你自己的需求购买产品与服务 240
金融的未来 245
公平的职场 250
在数字课堂上学习 258
精确地界定我们对数据的需求 262
决策的量化 271
后 记 走出洞穴,沐浴阳光 277
致 谢 281
內容試閱 :
社交数据革命
如何确保数据会为我们服务?
每一场革命最初都是一个人头脑中的一种思想,一旦同一种思想在另一个人的头脑中出现,它对于这个时代就变得至关重要了。
拉尔夫沃尔多爱默生(Ralph Waldo Emerson)
早晨6点45分,手机闹钟将我叫醒。于是,我拿起手机,一边浏览电子邮件与脸谱网信息,一边走进厨房,我美好的一天就此开始。手机上的全球定位系统应用软件会记录我的位置变化,并显示出我向东、向北移动了几米。我给自己倒了一杯咖啡,然后走出厨房。这时,手机上的加速计会给出我的行走速度,气压计会记录我何时上楼。由于我在手机上安装了谷歌的应用程序,因此谷歌公司拥有我的这些数据的记录。
吃完早饭后,我要去斯坦福大学上班。在我关灯并拔下移动设备的电源插头后,电力公司安装的智能电表就会知道我的用电量开始下降了。当我打开车库门时,电表会探测到与之相匹配的使用签名。当我开车上路时,电力公司已拥有足够的数据断定我已不在家中。当我的手机从另一个基站接收信号时,通信公司也知道我出门了。
驾车行驶在路上时,如果我闯了红灯,安装在街道拐角处的摄像头就会拍下我的车牌号。谢天谢地,我今天遵纪守法,不会收到交通罚单。但在行驶过程中,我的车牌会多次被拍摄。有些摄像头属于当地政府,有些则属于私营公司,它们通过分析数据了解人们的驾驶习惯,并将此作为产品出售给警方、开发商及其他利益群体。
我到达斯坦福大学时,会使用手机上的无忧停车应用支付停车费。停车费自动记入我的银行账户,同时学校的停车管理小组会收到我的付款通知,这样一来,校方与我的开户银行都知道我在上午9点03分到达校园。由于我的手机不再以汽车的行驶速度移动,谷歌公司会推断出我已停车并记录下我的位置,以便我日后查询当时的位置记录。我也可以通过美国车险服务商Metromile公司的保险应用查询我当时所在的位置,这款应用通过我的车载诊断系统实时记录我的驾驶数据。这让我可以立刻发现今天的汽车燃油效率较低每加仑汽油行驶了19英里,我此次通勤花了2.05美元。
上完课后,我打算和旧金山的新朋友见个面。我们在虚拟世界中见过面,当时我们共同的朋友在脸谱网上发了帖子,我们都对它进行了评论,也很赞赏对方的看法。之后,又发现我们在脸谱网上有30多个共同好友,所以我们确实应该见一面。
谷歌地图预计我将在晚上7点12分到达目的地。与往常一样,它的预测误差只有几分钟。这位朋友居住公寓的一层是一家销售烟草产品和吸食大麻器具的商店,而我的智能手机上的全球定位系统应用软件无法区分公寓和商铺。我的车载导航与谷歌导航都告诉我,我今天晚上去了一趟毒品商店这是我上床前查阅第二天的天气预报时,谷歌广告推送告诉我的。
这不只是一场社交数据革命。
将欲取之,必先予之
每天都有10多亿人像我这样产生和分享社交数据。社交数据是有关你本人的信息,例如你的运动、行为、兴趣,以及你和其他人、地点、产品,甚至意识形态之间的关系。其中有些数据是在你本人知情的前提下自愿分享的,例如在使用谷歌地图时登录并键入目的地;其他数据则并非如此,你经常会在不经意间就分享了自己的数据,这是享受互联网与移动设备所带来的便捷性过程的重要部分。显然,在某些情况下,分享数据是你获取服务的必要条件:如果你不向应用软件提供你当前所在的位置和目的地,谷歌公司就无法为你找出最佳的行车路线。在某些情况下,你可能很乐意提供信息,例如你给某个朋友在脸谱网上的发帖点赞或在领英网上对同事的工作表示肯定,以表明你愿意以某种方式鼓励和支持他。
社交数据有时可以做到比较精准,能将你的位置精确到1米之内。但是,在通常情况下,社交数据都很粗略,有时也不够完整。例如,除非我登录可以显示家中智能电表读数的某个应用(比如,为了查看我在去机场之前是否将家中所有的灯都关上了),电力公司才能知道我何时离家,但也仅限于此。这种数据过于粗略,也许对我没有太大的帮助。与此相似,我在拜访旧金山的那位新朋友时,虽然社交数据可以准确地显示出我所在位置的经度和纬度,但对我当晚活动的推测却是完全错误的。有时候,虽然数据看似十分精确,但在很大程度上这是数据解读的结果。实际上,社交数据本身是非常粗略的。粗略的数据很可能不完整、易出错,有时其中还会掺杂欺诈数据。
无论是被动还是主动分享的数据、强制还是自愿分享的数据、精确还是粗略的数据,社交数据的总量呈指数增长趋势。如今,社交数据总量翻一番所需的时间只有18个月。在未来5年内,社交数据总量将增长约10倍,或者说增长一个数量级;在未来10年内,社交数据总量将增长约100倍。换言之,2000年全年产生的数据总量目前只需要1天即可完成。以这样的增长速度计算,预计到2020年,不到1个小时就能产生等量的数据。
要知道,社交数据并非仅适用于社交媒体的流行词汇,这一点很关键。许多社交媒体平台的设计旨在进行播报,以推特为例,沟通几乎总是单向进行的,由名人、权威人士或营销人士向公众传播信息。社交数据更加民主化,你可以通过推特或脸谱网分享你的信息、所在公司的信息、你的成果、你的看法,但你的电子踪迹比这些更深远。根据你在谷歌网站上的搜索记录、你在亚马逊网站上的购买记录、你在讯佳普(Skype)上的通话记录、你手机的实时定位,再将这些信息与其他多种渠道相结合,就能得出有关某个人的一幅独特的肖像画。
此外,社交数据不会止于你本人。在你展示自己通过与亲朋好友、工作同事的沟通建立起的亲密关系时,你便创建并分享了数据。你所创建的社交数据不仅涉及友人,也会涉及陌生人,例如你在评价某件商品或在照片墙(Instagram)上传照片时。空中食宿(Airbnb)是一个租用房间或套房的应用平台,你若要注册账户就需要验证身份不仅要使用政府核发的身份证,还要使用你的脸谱网账户。社交数据正在嵌入你家中的智能温度计、汽车的导航系统以及职场的办公软件,并开始成为教室与医院诊疗室中的亮点。随着手机配备了越来越多的传感器和应用,它们可在我们的家中、商场或单位里跟踪我们的一举一动。你将越来越难以掌控有关你日常活动的数据,甚至包括你内心中最隐秘的愿望。数据科学家将化身为侦探与艺术家,通过人们留下的电子踪迹为他们绘制出越发清晰的行为素描画。
通过检查并提炼这些电子踪迹,可以发现人们的偏好或倾向,还能做出预测,例如人们可能会购买何种商品。在我担任亚马逊公司首席科学家期间,我与杰夫贝索斯共同制定了该公司的数据战略和以客户为中心的文化。我们开展了一系列实验,比较网站编辑或消费者所写的商品评论中哪一种会让客户更开心,并观察依据传统的人口统计信息或个人点击情况为客户做推荐是否成功率更高。在举办厂商赞助的促销活动时,我们发现真正的沟通可以爆发出巨大的力量。我们为亚马逊开发个性化工具,使人们做出购买决定的过程及所购买的商品都产生了根本性改变,并且成为电子商务的标准。
离开亚马逊之后,我在斯坦福大学和加利福尼亚大学伯克利分校为成千上万的本科生和研究生开设了社交数据革命课程,还在中国上海的复旦大学与中欧国际商学院、北京的清华大学教授这门课程。我同时继续经营社交数据实验室,成员是我在2011年结识的一群数据科研人员与思想领袖。在过去10年里,与我合作的公司包括阿里巴巴、美国电话电报公司、沃尔玛、美国联合健康保险集团,以及一些大型航空公司、金融服务公司、交友网站。我积极倡导把数据的决策权与客户或用户分享,他们是与你我一样的普通人。
没有人能够独自处理当下的所有数据并做出明智的决定。但在让数据服务于我们的需要和解决问题的过程中,谁能够获得必要的工具呢?从这些数据中分析得出人们的偏好、倾向和做出预测后,是将其提供给少数强大的组织,还是提供给所有人使用呢?使用社交数据所需支付的费用是多少呢?
随着我们逐渐认识到社交数据的价值,我相信我们的重点不仅是获取数据,还必须采取某些行动。我们每天都会做出很多决定,而有些决定一生中只会做一次。但是,这并不意味着今天产生的社交数据的寿命很短。我们今天的行为方式可能会影响我们今后几十年的选择,很少有人能在短期或长期内观察到自己的所有行为或分析出这些行为将如何影响自己。社交数据分析有助于我们找出各种可能性,但必须经过深思熟虑方可做出最终选择。
毕竟,这些科技无法了解我们每个人乃至整个社会对未来生活的憧憬。许多国家都出台了法律,保护个人在就业或医疗方面不受歧视。未来某一天,这些法律或许将不复存在(在某些国家,直到现在也没有这样的法律)。假设你希望获得有关减肥和锻炼的建议,于是你决定在医疗应用或网站上表达自己对胆固醇过高的担心。这样做会不会对你不利呢?如果法律规定,在医生向你告知健康风险并推荐健康的生活方式之后,你仍然不愿意放弃吃油炸食品,依旧喜欢瘫坐在沙发上,就可以依法对你收取更高的医疗费用,你怎么办?如果你的主管利用某种服务软件在网上查找有关你的信息,他可能认定你的生活方式不适合在他的公司任职,从而拒绝考虑你的求职申请,你怎么办?这些都是实实在在的风险。
如果这些数据是你独立创建并透露出去的,那么,一旦察觉到风险,你或许可以停止这种行为。这会给你带来许多不便,却是可行的。但是,人们对有关自己的许多数据并没有掌控力。由于社交数据被公司和政府用于改善结果、提高效率,因此我们更不可能掌控这些数据。
社交数据关乎社会大众,我们每个人都需要考虑怎样做才是最好的数据利用方式。科技正在飞速发展,收集和分析数据的公司主要从事信息的产出与编码,并不负责制定原则。即使它们考虑那些原则性问题,也仅仅是因为业务需要而临时为之。对人类未来会产生重大影响的原则性问题的决定权,绝不应该交到数据公司手中。
我们可以允许对所有这些数据进行收集、合并、汇聚、分析,以便能在决策过程中更好地做出取舍。取舍是任何重要决策的必要组成部分,在做取舍时,人的判断十分关键。我们的生活不应由数据来驱动,而应让数据为我们的生活服务。
后隐私时代的原则
我们已经认识到数据在生活中发挥着越来越重要的作用,也已经采取了许多措施保护自身的利益。20世纪70年代,美国与欧洲针对信息的公平使用采取了大体相似的原则。人们有权知道谁在收集自己的数据以及这些数据的使用情况,当发现数据不准确时,还可以要求修正数据。然而,对于今天的新型数据来源与分析方法,这些保护措施要么过于严厉,要么过于无力。
之所以说它们过于严厉,是因为这些措施都想当然地认为可以对收集到的所有数据添加标签。亚马逊公司可能会以浅显易懂的术语,准确地解释它是如何使用收集到的个人信息的,它甚至能用这些信息帮助人们做出更明智的决定。但是,对这些信息进行审查需要大量的时间。我们中有多少人会花时间对所有的相关数据进行核查呢?查阅亚马逊公司怎样对每个数据点分配权重,会给你带来什么好处,还是说你宁愿亚马逊交给你一份数据使用简报呢?
之所以说这些保护措施过于无力,是因为即便你能够核查你创建和分享的所有数据,你也无法全盘掌握你的所有相关数据,因为这其中包括其他人创建和分享的关于你的数据,包括你的亲朋好友、同事、老板。你在网上访问的公司和你在实体世界中访问的大部分公司也会产生(有时也会分享)关于你的数据。你在街上遇到的陌生人以及和你打交道的其他许多公共组织和私营组织,同样如此。谁来判定这些数据的准确性呢?今天的数据来自诸多层面,人们无法拥有充分的权利来修正关于自己的数据。此外,即便是准确的数据也可能对你不利。
数据的产生、沟通、处理过程中会发生巨大的定量变化和定性变化,仅有知情权与修正数据权显然是不够的。迄今为止,试图修改这些指导原则的努力几乎全都集中于个人掌控权与隐私权这两个方面。不幸的是,其理念与实践从技术上看已经落后达一个世纪之久。而且,控制与隐私权的标准迫使人们与数据公司签下不平等合约。如果你希望用数据改善你的决策过程,你就必须同意按照数据采集者的条款收集自己的数据。一旦你这样做,就说明数据公司已经按照法律规定为你赋予了个人数据的控制权,而无须考虑你是否真正拥有选择权或你的个人隐私权是否会受到影响。如果你希望保护个人隐私,就不应该同意数据公司收集你的数据,但这会牺牲你对相关数据产品与服务的使用权,降低你从自己的数据中所能获得的价值。只有这样,你才能对你的数据保持掌控权。
如今,我们需要做的是制定一套标准,帮助我们评估因分享和收集数据所产生的风险与回报,同时拥有对数据公司进行问责的权利。基于20年来与数据公司的合作经验,我认为透明性与主动性原则最有可能保护我们免遭社交数据滥用的伤害,并能提高我们从中得到的价值。
透明性涵盖了个人对自己数据的知情权:内容是什么?用途是什么?对用户的好处是什么?数据公司是躲在单向镜的另一面暗中窥探你的隐私,还是也给你打开一扇窗户,让你看到它们如何使用你的数据,从而判断该公司的利益是否(以及何时)与你的自身利益一致?你需要分享多少数据,方能获得你想要的数据产品或数据服务呢?从历史上看,机构与个人之间存在巨大的信息不对称的情况,这使机构占据巨大的优势。机构不仅有强大的能力收集个人数据,还能将你的数据与他人的数据做比较。你需要了解你提供的数据与你得到的数据产品与服务是否对等。
相对于客户与零售商之间的传统关系,亚马逊是如何让购物体验具备透明性的呢?当你打算购买一件商品时,零售商会提醒你之前购买过这件商品吗?这样做会让他损失一单生意。在亚马逊网站上,如果你点击购买已在这家网站上买过的书籍,就会看到网站的提示:你确定要买这本书吗?你在2013年12月17日买过这本书。如果你买过某张音乐专辑中的一首歌曲,之后决定购买该专辑的其他所有歌曲时,亚马逊在完成购买环节会自动从这张专辑的价格中减去你之前所购歌曲的金额。亚马逊对人们的购买数据采取这种使用方式,是为了最大限度地减少客户的不满。与此相似,大多数航空公司的常飞旅客计划都会给客户发送信息,提醒其即将过期的里程数,而不是放任其作废。
不幸的是,透明性远未成为通行的标准。以给客户服务中心打电话这种典型的体验为例,拨通电话后,你肯定会听到一番警告:为保证服务质量,本次通话可能会被录音。你别无选择,如果你想与客服代表通话,就必须接受这样的条款。就算要录音,为什么只有公司有权获得此次通话的录音呢?如果只有通话的一方拥有获取此次通话录音的权利,那么为保证服务质量又意味着什么呢?数据对等原则意味着付款的客户同样可以获得录音。
无论何时,只要我听到客户服务代表说通话可能会被录音时,我就会对他说,我也可能会对此次通话录音,以保证我所获得的服务质量。在大多数情况下,客服代表都会选择与我合作,但偶尔也会直接挂断电话。当然,我也会在不征求客服代表同意的情况下自行对通话进行录音,但我要说明一点,这种做法在某些地方是违法的。如果我没有获得客服代表对我承诺的服务时,我就会利用手头的证据向他的主管投诉。如果这样做仍然无效,我就会将音频文件上传到网上,希望通过音频文件的传播催促该公司迅速解决我的问题。就像康卡斯特公司曾经遇到的情况一样,当时客户想取消服务,但是反复遭到该公司的拒绝,最终客户将通话录音发布在推特上才如愿以偿。
通过这种方式,你不必违反法律就可以摆脱不平等的对待。为了让透明性成为新的默认原则,数据公司需要向公众提供更多的信息而不是更少的信息。
但仅有透明性是不够的,你还需要主动性,主动性包含个人根据自己的数据采取行动的权利。数据公司的默认设置一目了然吗?你能够出于种种原因修改你的数据吗?你能随心所欲地使用公司产生的数据吗?你是被诱导(或被迫)从有限的几个选项中做出选择(这些选项几乎都更有利于数据公司)吗?你能修改参数并探索不同的情景,以发现种种可能性吗?主动性是个人根据数据公司所发现的关于他的偏好与行为模式进行选择的权利,包括要求数据公司按照他提出的条件向他提供信息的权利。
在基本层面上,主动性关乎人们有能力创造出有利于自己的数据。亚马逊公司一直坚持原原本本地在网页上呈现客户的评论,无论评论是好是坏,是五星还是一星,是为了获得他人的认同还是为了实现成为图书评论家这一人生理想,都没有关系。亚马逊更看重的是,这些评论与其他想购买图书的客户之间的关系。比如,通过评论发现,虽然客户没有选择退货,但对此次购买的商品不太满意。这些数据有助于客户判断某件推荐商品是不是自己的最佳选择,由此亚马逊公司给了客户更大的主动性。
许多营销人士津津乐道于市场定位、市场细分与转化。我不了解你们的想法,但我不想被定位、细分、转化,也不想被剖析,这些不是主动性的表达方式。我们不能想当然地认为每个公司都会主动遵循透明性与主动性原则。我们还必须超越这些原则:我们需要拥有明确的权利,这有助于我们表达自己的愿望,将透明性与主动性转化为实实在在的工具。
如果我们能促使数据公司同意提供一系列有意义的权利与工具,就能产生我所说的关系反转,即对个人与机构之间的传统关系予以逆转。亚马逊公司决定由客户撰写大部分商品评论,这也属于关系反转,社交数据革命将会提供更多这样的机会。随着人们拥有越来越多的工具去帮助自己做出更好的决定,过去公司常用的市场营销手段的效果将会越来越差。由公司告诉处于弱势地位的客户应该购买何种商品,这个时代已经一去不复返了。而且很快,就会由你来告诉公司应该为你做些什么。在某些地方,人们已经体会到这种变化了。
关系反转是物理学家观察世界的重要方式。关系反转经常与相变联系在一起,后者指的是外部条件导致物质属性发生突变当加热到沸腾状态时,水就会从液态变为气态。日益增加的数据量对社会所产生的影响就相当于物理系统中热量的增加。在某些条件下当数据公司遵循透明性与主动性原则时,就会产生关系反转,也就是说,这更有利于个人而非公司或公司的首席市场官。
我们所有人的利益都与此次社交数据革命息息相关。如果你希望从社交数据中获益,就必须分享自己的信息。你从社交数据中获得的价值通常在于你拥有了更强的决策能力,即在促成交易的谈判中、购买产品与服务时、申请贷款的过程中、寻找工作时、获取教育与医疗时、改善你所在社区的硬件时,你可以做出更明智的决定。你在分享数据时所付出的代价与承担的风险不应大于你所获得的收益。数据公司收集的数据及其采取的行动应具有透明性,这一点至关重要。另外,你还需要对数据产品与服务拥有一定的掌控力。否则,人们如何判断自己所获得的收益是否大于付出的代价呢?
新的游戏规则
信息是权力的中心。如果你拥有的信息比别人多,那么你很可能从中获利,这就像二手车销售员将劣质车推销给不明真相的客户一样。随着沟通与处理过程变得越来越便宜和普及,巨大的信息不对称风险发生的可能性将越来越大,因为没有人能够掌握所有数据。
在这些产生和分享的数据中,有许多是关于我们的个人生活的:居住的地点、工作的地点、前往的地点,喜欢的人、不喜欢的人、陪伴的人、共进午餐的人,运动量、服用的药物、家用电器、触动心灵的杂志。我们的生活在数据公司面前是透明的,这些公司收集并分析我们的数据,有时它们还会私自销售我们的数据,或者擅自保存我们的数据。在个人数据被修改、交换、销售的过程中,我们需要拥有一定的发言权,此外我们还要对个人数据的使用制定更多的条款。双方(数据创建者与数据公司)都必须遵循透明性与主动性原则。
这需要我们从根本性上改变对数据和自我的看法。在第1章中,我会介绍数据公司分析数据的几种方式,并以提炼过程做类比,说明公司如何将原始数据转化为产品与服务。我将在第2章中讨论个人及其特点,并论述我们在生活中留下的电子踪迹是如何破坏我们的隐私性幻觉的(搜索、点击、评论、使用与刷卡),并在此过程中产生了新的身份概念。无论我们是否愿意,都发出了自己兴趣的真实信号。在第3章中,我将论述重点从个人转移到人与人之间的关系,以及社交网络怎样展示并影响数字化时代的信任。在第4章中,随着各种传感器(不只是摄像头)的联网,我将介绍人们如何利用精确度越来越高的手段记录我们所在的环境,以及数据公司如何分析这些传感器收集的数据,并推断出人们的位置、情绪状态与兴趣。
在此基础上,我提出了6项权利。为了确保未来我们的数据能够真正为我们服务,我认为这些权利十分关键。其中有两项权利是访问数据的权利与核实数据的权利,它们旨在提高透明性。其余4项权利主要通过主动性原则使人们对自身数据具有更强的掌控力,包括修正数据的权利、对数据进行模糊处理的权利、利用数据开展实验的权利、将数据导出给其他公司的权利。通过对个人数据行使上述权利,就能对我们的购物方式、支付与投资方式、工作方式、生活方式、学习方式、使用公共资源的方式等产生影响。在最后一章中,我将论述如何实现这6项权利。
在这个时代的转折点上,人们正在界定创建数据的人与把数据转化成产品和服务的组织之间的关系。不仅游戏规则正在改变,从性质上看,我们正在玩的这个新游戏还要求我们重新界定客户与零售商、投资者与银行、雇主与雇员、患者与医生、学生与老师、公民与政府之间的关系。此时,我们应当表明立场并真正了解数据的用途,以便能够获得利益并清楚由此产生的结果。只有这样,我们才能评估我们的利益是否与数据公司的利益一致。对于大多数新科技而言,并非机器决定一切。只要人们使用机器,调整自己的期望,并在此过程中修订社会规范,社交数据革命就会悄然而至。
如果我们迎接这场挑战,数据就有可能由取之于民、归之于民演变为用之于民。让我们一起投身于这场革命吧!社交数据革命
如何确保数据会为我们服务?
每一场革命最初都是一个人头脑中的一种思想,一旦同一种思想在另一个人的头脑中出现,它对于这个时代就变得至关重要了。
拉尔夫沃尔多爱默生(Ralph Waldo Emerson)
早晨6点45分,手机闹钟将我叫醒。于是,我拿起手机,一边浏览电子邮件与脸谱网信息,一边走进厨房,我美好的一天就此开始。手机上的全球定位系统应用软件会记录我的位置变化,并显示出我向东、向北移动了几米。我给自己倒了一杯咖啡,然后走出厨房。这时,手机上的加速计会给出我的行走速度,气压计会记录我何时上楼。由于我在手机上安装了谷歌的应用程序,因此谷歌公司拥有我的这些数据的记录。
吃完早饭后,我要去斯坦福大学上班。在我关灯并拔下移动设备的电源插头后,电力公司安装的智能电表就会知道我的用电量开始下降了。当我打开车库门时,电表会探测到与之相匹配的使用签名。当我开车上路时,电力公司已拥有足够的数据断定我已不在家中。当我的手机从另一个基站接收信号时,通信公司也知道我出门了。
驾车行驶在路上时,如果我闯了红灯,安装在街道拐角处的摄像头就会拍下我的车牌号。谢天谢地,我今天遵纪守法,不会收到交通罚单。但在行驶过程中,我的车牌会多次被拍摄。有些摄像头属于当地政府,有些则属于私营公司,它们通过分析数据了解人们的驾驶习惯,并将此作为产品出售给警方、开发商及其他利益群体。
我到达斯坦福大学时,会使用手机上的无忧停车应用支付停车费。停车费自动记入我的银行账户,同时学校的停车管理小组会收到我的付款通知,这样一来,校方与我的开户银行都知道我在上午9点03分到达校园。由于我的手机不再以汽车的行驶速度移动,谷歌公司会推断出我已停车并记录下我的位置,以便我日后查询当时的位置记录。我也可以通过美国车险服务商Metromile公司的保险应用查询我当时所在的位置,这款应用通过我的车载诊断系统实时记录我的驾驶数据。这让我可以立刻发现今天的汽车燃油效率较低每加仑汽油行驶了19英里,我此次通勤花了2.05美元。
上完课后,我打算和旧金山的新朋友见个面。我们在虚拟世界中见过面,当时我们共同的朋友在脸谱网上发了帖子,我们都对它进行了评论,也很赞赏对方的看法。之后,又发现我们在脸谱网上有30多个共同好友,所以我们确实应该见一面。
谷歌地图预计我将在晚上7点12分到达目的地。与往常一样,它的预测误差只有几分钟。这位朋友居住公寓的一层是一家销售烟草产品和吸食大麻器具的商店,而我的智能手机上的全球定位系统应用软件无法区分公寓和商铺。我的车载导航与谷歌导航都告诉我,我今天晚上去了一趟毒品商店这是我上床前查阅第二天的天气预报时,谷歌广告推送告诉我的。
这不只是一场社交数据革命。
将欲取之,必先予之
每天都有10多亿人像我这样产生和分享社交数据。社交数据是有关你本人的信息,例如你的运动、行为、兴趣,以及你和其他人、地点、产品,甚至意识形态之间的关系。其中有些数据是在你本人知情的前提下自愿分享的,例如在使用谷歌地图时登录并键入目的地;其他数据则并非如此,你经常会在不经意间就分享了自己的数据,这是享受互联网与移动设备所带来的便捷性过程的重要部分。显然,在某些情况下,分享数据是你获取服务的必要条件:如果你不向应用软件提供你当前所在的位置和目的地,谷歌公司就无法为你找出最佳的行车路线。在某些情况下,你可能很乐意提供信息,例如你给某个朋友在脸谱网上的发帖点赞或在领英网上对同事的工作表示肯定,以表明你愿意以某种方式鼓励和支持他。
社交数据有时可以做到比较精准,能将你的位置精确到1米之内。但是,在通常情况下,社交数据都很粗略,有时也不够完整。例如,除非我登录可以显示家中智能电表读数的某个应用(比如,为了查看我在去机场之前是否将家中所有的灯都关上了),电力公司才能知道我何时离家,但也仅限于此。这种数据过于粗略,也许对我没有太大的帮助。与此相似,我在拜访旧金山的那位新朋友时,虽然社交数据可以准确地显示出我所在位置的经度和纬度,但对我当晚活动的推测却是完全错误的。有时候,虽然数据看似十分精确,但在很大程度上这是数据解读的结果。实际上,社交数据本身是非常粗略的。粗略的数据很可能不完整、易出错,有时其中还会掺杂欺诈数据。
无论是被动还是主动分享的数据、强制还是自愿分享的数据、精确还是粗略的数据,社交数据的总量呈指数增长趋势。如今,社交数据总量翻一番所需的时间只有18个月。在未来5年内,社交数据总量将增长约10倍,或者说增长一个数量级;在未来10年内,社交数据总量将增长约100倍。换言之,2000年全年产生的数据总量目前只需要1天即可完成。以这样的增长速度计算,预计到2020年,不到1个小时就能产生等量的数据。
要知道,社交数据并非仅适用于社交媒体的流行词汇,这一点很关键。许多社交媒体平台的设计旨在进行播报,以推特为例,沟通几乎总是单向进行的,由名人、权威人士或营销人士向公众传播信息。社交数据更加民主化,你可以通过推特或脸谱网分享你的信息、所在公司的信息、你的成果、你的看法,但你的电子踪迹比这些更深远。根据你在谷歌网站上的搜索记录、你在亚马逊网站上的购买记录、你在讯佳普(Skype)上的通话记录、你手机的实时定位,再将这些信息与其他多种渠道相结合,就能得出有关某个人的一幅独特的肖像画。
此外,社交数据不会止于你本人。在你展示自己通过与亲朋好友、工作同事的沟通建立起的亲密关系时,你便创建并分享了数据。你所创建的社交数据不仅涉及友人,也会涉及陌生人,例如你在评价某件商品或在照片墙(Instagram)上传照片时。空中食宿(Airbnb)是一个租用房间或套房的应用平台,你若要注册账户就需要验证身份不仅要使用政府核发的身份证,还要使用你的脸谱网账户。社交数据正在嵌入你家中的智能温度计、汽车的导航系统以及职场的办公软件,并开始成为教室与医院诊疗室中的亮点。随着手机配备了越来越多的传感器和应用,它们可在我们的家中、商场或单位里跟踪我们的一举一动。你将越来越难以掌控有关你日常活动的数据,甚至包括你内心中最隐秘的愿望。数据科学家将化身为侦探与艺术家,通过人们留下的电子踪迹为他们绘制出越发清晰的行为素描画。
通过检查并提炼这些电子踪迹,可以发现人们的偏好或倾向,还能做出预测,例如人们可能会购买何种商品。在我担任亚马逊公司首席科学家期间,我与杰夫贝索斯共同制定了该公司的数据战略和以客户为中心的文化。我们开展了一系列实验,比较网站编辑或消费者所写的商品评论中哪一种会让客户更开心,并观察依据传统的人口统计信息或个人点击情况为客户做推荐是否成功率更高。在举办厂商赞助的促销活动时,我们发现真正的沟通可以爆发出巨大的力量。我们为亚马逊开发个性化工具,使人们做出购买决定的过程及所购买的商品都产生了根本性改变,并且成为电子商务的标准。
离开亚马逊之后,我在斯坦福大学和加利福尼亚大学伯克利分校为成千上万的本科生和研究生开设了社交数据革命课程,还在中国上海的复旦大学与中欧国际商学院、北京的清华大学教授这门课程。我同时继续经营社交数据实验室,成员是我在2011年结识的一群数据科研人员与思想领袖。在过去10年里,与我合作的公司包括阿里巴巴、美国电话电报公司、沃尔玛、美国联合健康保险集团,以及一些大型航空公司、金融服务公司、交友网站。我积极倡导把数据的决策权与客户或用户分享,他们是与你我一样的普通人。
没有人能够独自处理当下的所有数据并做出明智的决定。但在让数据服务于我们的需要和解决问题的过程中,谁能够获得必要的工具呢?从这些数据中分析得出人们的偏好、倾向和做出预测后,是将其提供给少数强大的组织,还是提供给所有人使用呢?使用社交数据所需支付的费用是多少呢?
随着我们逐渐认识到社交数据的价值,我相信我们的重点不仅是获取数据,还必须采取某些行动。我们每天都会做出很多决定,而有些决定一生中只会做一次。但是,这并不意味着今天产生的社交数据的寿命很短。我们今天的行为方式可能会影响我们今后几十年的选择,很少有人能在短期或长期内观察到自己的所有行为或分析出这些行为将如何影响自己。社交数据分析有助于我们找出各种可能性,但必须经过深思熟虑方可做出最终选择。
毕竟,这些科技无法了解我们每个人乃至整个社会对未来生活的憧憬。许多国家都出台了法律,保护个人在就业或医疗方面不受歧视。未来某一天,这些法律或许将不复存在(在某些国家,直到现在也没有这样的法律)。假设你希望获得有关减肥和锻炼的建议,于是你决定在医疗应用或网站上表达自己对胆固醇过高的担心。这样做会不会对你不利呢?如果法律规定,在医生向你告知健康风险并推荐健康的生活方式之后,你仍然不愿意放弃吃油炸食品,依旧喜欢瘫坐在沙发上,就可以依法对你收取更高的医疗费用,你怎么办?如果你的主管利用某种服务软件在网上查找有关你的信息,他可能认定你的生活方式不适合在他的公司任职,从而拒绝考虑你的求职申请,你怎么办?这些都是实实在在的风险。
如果这些数据是你独立创建并透露出去的,那么,一旦察觉到风险,你或许可以停止这种行为。这会给你带来许多不便,却是可行的。但是,人们对有关自己的许多数据并没有掌控力。由于社交数据被公司和政府用于改善结果、提高效率,因此我们更不可能掌控这些数据。
社交数据关乎社会大众,我们每个人都需要考虑怎样做才是最好的数据利用方式。科技正在飞速发展,收集和分析数据的公司主要从事信息的产出与编码,并不负责制定原则。即使它们考虑那些原则性问题,也仅仅是因为业务需要而临时为之。对人类未来会产生重大影响的原则性问题的决定权,绝不应该交到数据公司手中。
我们可以允许对所有这些数据进行收集、合并、汇聚、分析,以便能在决策过程中更好地做出取舍。取舍是任何重要决策的必要组成部分,在做取舍时,人的判断十分关键。我们的生活不应由数据来驱动,而应让数据为我们的生活服务。
后隐私时代的原则
我们已经认识到数据在生活中发挥着越来越重要的作用,也已经采取了许多措施保护自身的利益。20世纪70年代,美国与欧洲针对信息的公平使用采取了大体相似的原则。人们有权知道谁在收集自己的数据以及这些数据的使用情况,当发现数据不准确时,还可以要求修正数据。然而,对于今天的新型数据来源与分析方法,这些保护措施要么过于严厉,要么过于无力。
之所以说它们过于严厉,是因为这些措施都想当然地认为可以对收集到的所有数据添加标签。亚马逊公司可能会以浅显易懂的术语,准确地解释它是如何使用收集到的个人信息的,它甚至能用这些信息帮助人们做出更明智的决定。但是,对这些信息进行审查需要大量的时间。我们中有多少人会花时间对所有的相关数据进行核查呢?查阅亚马逊公司怎样对每个数据点分配权重,会给你带来什么好处,还是说你宁愿亚马逊交给你一份数据使用简报呢?
之所以说这些保护措施过于无力,是因为即便你能够核查你创建和分享的所有数据,你也无法全盘掌握你的所有相关数据,因为这其中包括其他人创建和分享的关于你的数据,包括你的亲朋好友、同事、老板。你在网上访问的公司和你在实体世界中访问的大部分公司也会产生(有时也会分享)关于你的数据。你在街上遇到的陌生人以及和你打交道的其他许多公共组织和私营组织,同样如此。谁来判定这些数据的准确性呢?今天的数据来自诸多层面,人们无法拥有充分的权利来修正关于自己的数据。此外,即便是准确的数据也可能对你不利。
数据的产生、沟通、处理过程中会发生巨大的定量变化和定性变化,仅有知情权与修正数据权显然是不够的。迄今为止,试图修改这些指导原则的努力几乎全都集中于个人掌控权与隐私权这两个方面。不幸的是,其理念与实践从技术上看已经落后达一个世纪之久。而且,控制与隐私权的标准迫使人们与数据公司签下不平等合约。如果你希望用数据改善你的决策过程,你就必须同意按照数据采集者的条款收集自己的数据。一旦你这样做,就说明数据公司已经按照法律规定为你赋予了个人数据的控制权,而无须考虑你是否真正拥有选择权或你的个人隐私权是否会受到影响。如果你希望保护个人隐私,就不应该同意数据公司收集你的数据,但这会牺牲你对相关数据产品与服务的使用权,降低你从自己的数据中所能获得的价值。只有这样,你才能对你的数据保持掌控权。
如今,我们需要做的是制定一套标准,帮助我们评估因分享和收集数据所产生的风险与回报,同时拥有对数据公司进行问责的权利。基于20年来与数据公司的合作经验,我认为透明性与主动性原则最有可能保护我们免遭社交数据滥用的伤害,并能提高我们从中得到的价值。
透明性涵盖了个人对自己数据的知情权:内容是什么?用途是什么?对用户的好处是什么?数据公司是躲在单向镜的另一面暗中窥探你的隐私,还是也给你打开一扇窗户,让你看到它们如何使用你的数据,从而判断该公司的利益是否(以及何时)与你的自身利益一致?你需要分享多少数据,方能获得你想要的数据产品或数据服务呢?从历史上看,机构与个人之间存在巨大的信息不对称的情况,这使机构占据巨大的优势。机构不仅有强大的能力收集个人数据,还能将你的数据与他人的数据做比较。你需要了解你提供的数据与你得到的数据产品与服务是否对等。
相对于客户与零售商之间的传统关系,亚马逊是如何让购物体验具备透明性的呢?当你打算购买一件商品时,零售商会提醒你之前购买过这件商品吗?这样做会让他损失一单生意。在亚马逊网站上,如果你点击购买已在这家网站上买过的书籍,就会看到网站的提示:你确定要买这本书吗?你在2013年12月17日买过这本书。如果你买过某张音乐专辑中的一首歌曲,之后决定购买该专辑的其他所有歌曲时,亚马逊在完成购买环节会自动从这张专辑的价格中减去你之前所购歌曲的金额。亚马逊对人们的购买数据采取这种使用方式,是为了最大限度地减少客户的不满。与此相似,大多数航空公司的常飞旅客计划都会给客户发送信息,提醒其即将过期的里程数,而不是放任其作废。
不幸的是,透明性远未成为通行的标准。以给客户服务中心打电话这种典型的体验为例,拨通电话后,你肯定会听到一番警告:为保证服务质量,本次通话可能会被录音。你别无选择,如果你想与客服代表通话,就必须接受这样的条款。就算要录音,为什么只有公司有权获得此次通话的录音呢?如果只有通话的一方拥有获取此次通话录音的权利,那么为保证服务质量又意味着什么呢?数据对等原则意味着付款的客户同样可以获得录音。
无论何时,只要我听到客户服务代表说通话可能会被录音时,我就会对他说,我也可能会对此次通话录音,以保证我所获得的服务质量。在大多数情况下,客服代表都会选择与我合作,但偶尔也会直接挂断电话。当然,我也会在不征求客服代表同意的情况下自行对通话进行录音,但我要说明一点,这种做法在某些地方是违法的。如果我没有获得客服代表对我承诺的服务时,我就会利用手头的证据向他的主管投诉。如果这样做仍然无效,我就会将音频文件上传到网上,希望通过音频文件的传播催促该公司迅速解决我的问题。就像康卡斯特公司曾经遇到的情况一样,当时客户想取消服务,但是反复遭到该公司的拒绝,最终客户将通话录音发布在推特上才如愿以偿。
通过这种方式,你不必违反法律就可以摆脱不平等的对待。为了让透明性成为新的默认原则,数据公司需要向公众提供更多的信息而不是更少的信息。
但仅有透明性是不够的,你还需要主动性,主动性包含个人根据自己的数据采取行动的权利。数据公司的默认设置一目了然吗?你能够出于种种原因修改你的数据吗?你能随心所欲地使用公司产生的数据吗?你是被诱导(或被迫)从有限的几个选项中做出选择(这些选项几乎都更有利于数据公司)吗?你能修改参数并探索不同的情景,以发现种种可能性吗?主动性是个人根据数据公司所发现的关于他的偏好与行为模式进行选择的权利,包括要求数据公司按照他提出的条件向他提供信息的权利。
在基本层面上,主动性关乎人们有能力创造出有利于自己的数据。亚马逊公司一直坚持原原本本地在网页上呈现客户的评论,无论评论是好是坏,是五星还是一星,是为了获得他人的认同还是为了实现成为图书评论家这一人生理想,都没有关系。亚马逊更看重的是,这些评论与其他想购买图书的客户之间的关系。比如,通过评论发现,虽然客户没有选择退货,但对此次购买的商品不太满意。这些数据有助于客户判断某件推荐商品是不是自己的最佳选择,由此亚马逊公司给了客户更大的主动性。
许多营销人士津津乐道于市场定位、市场细分与转化。我不了解你们的想法,但我不想被定位、细分、转化,也不想被剖析,这些不是主动性的表达方式。我们不能想当然地认为每个公司都会主动遵循透明性与主动性原则。我们还必须超越这些原则:我们需要拥有明确的权利,这有助于我们表达自己的愿望,将透明性与主动性转化为实实在在的工具。
如果我们能促使数据公司同意提供一系列有意义的权利与工具,就能产生我所说的关系反转,即对个人与机构之间的传统关系予以逆转。亚马逊公司决定由客户撰写大部分商品评论,这也属于关系反转,社交数据革命将会提供更多这样的机会。随着人们拥有越来越多的工具去帮助自己做出更好的决定,过去公司常用的市场营销手段的效果将会越来越差。由公司告诉处于弱势地位的客户应该购买何种商品,这个时代已经一去不复返了。而且很快,就会由你来告诉公司应该为你做些什么。在某些地方,人们已经体会到这种变化了。
关系反转是物理学家观察世界的重要方式。关系反转经常与相变联系在一起,后者指的是外部条件导致物质属性发生突变当加热到沸腾状态时,水就会从液态变为气态。日益增加的数据量对社会所产生的影响就相当于物理系统中热量的增加。在某些条件下当数据公司遵循透明性与主动性原则时,就会产生关系反转,也就是说,这更有利于个人而非公司或公司的首席市场官。
我们所有人的利益都与此次社交数据革命息息相关。如果你希望从社交数据中获益,就必须分享自己的信息。你从社交数据中获得的价值通常在于你拥有了更强的决策能力,即在促成交易的谈判中、购买产品与服务时、申请贷款的过程中、寻找工作时、获取教育与医疗时、改善你所在社区的硬件时,你可以做出更明智的决定。你在分享数据时所付出的代价与承担的风险不应大于你所获得的收益。数据公司收集的数据及其采取的行动应具有透明性,这一点至关重要。另外,你还需要对数据产品与服务拥有一定的掌控力。否则,人们如何判断自己所获得的收益是否大于付出的代价呢?
新的游戏规则
信息是权力的中心。如果你拥有的信息比别人多,那么你很可能从中获利,这就像二手车销售员将劣质车推销给不明真相的客户一样。随着沟通与处理过程变得越来越便宜和普及,巨大的信息不对称风险发生的可能性将越来越大,因为没有人能够掌握所有数据。
在这些产生和分享的数据中,有许多是关于我们的个人生活的:居住的地点、工作的地点、前往的地点,喜欢的人、不喜欢的人、陪伴的人、共进午餐的人,运动量、服用的药物、家用电器、触动心灵的杂志。我们的生活在数据公司面前是透明的,这些公司收集并分析我们的数据,有时它们还会私自销售我们的数据,或者擅自保存我们的数据。在个人数据被修改、交换、销售的过程中,我们需要拥有一定的发言权,此外我们还要对个人数据的使用制定更多的条款。双方(数据创建者与数据公司)都必须遵循透明性与主动性原则。
这需要我们从根本性上改变对数据和自我的看法。在第1章中,我会介绍数据公司分析数据的几种方式,并以提炼过程做类比,说明公司如何将原始数据转化为产品与服务。我将在第2章中讨论个人及其特点,并论述我们在生活中留下的电子踪迹是如何破坏我们的隐私性幻觉的(搜索、点击、评论、使用与刷卡),并在此过程中产生了新的身份概念。无论我们是否愿意,都发出了自己兴趣的真实信号。在第3章中,我将论述重点从个人转移到人与人之间的关系,以及社交网络怎样展示并影响数字化时代的信任。在第4章中,随着各种传感器(不只是摄像头)的联网,我将介绍人们如何利用精确度越来越高的手段记录我们所在的环境,以及数据公司如何分析这些传感器收集的数据,并推断出人们的位置、情绪状态与兴趣。
在此基础上,我提出了6项权利。为了确保未来我们的数据能够真正为我们服务,我认为这些权利十分关键。其中有两项权利是访问数据的权利与核实数据的权利,它们旨在提高透明性。其余4项权利主要通过主动性原则使人们对自身数据具有更强的掌控力,包括修正数据的权利、对数据进行模糊处理的权利、利用数据开展实验的权利、将数据导出给其他公司的权利。通过对个人数据行使上述权利,就能对我们的购物方式、支付与投资方式、工作方式、生活方式、学习方式、使用公共资源的方式等产生影响。在最后一章中,我将论述如何实现这6项权利。
在这个时代的转折点上,人们正在界定创建数据的人与把数据转化成产品和服务的组织之间的关系。不仅游戏规则正在改变,从性质上看,我们正在玩的这个新游戏还要求我们重新界定客户与零售商、投资者与银行、雇主与雇员、患者与医生、学生与老师、公民与政府之间的关系。此时,我们应当表明立场并真正了解数据的用途,以便能够获得利益并清楚由此产生的结果。只有这样,我们才能评估我们的利益是否与数据公司的利益一致。对于大多数新科技而言,并非机器决定一切。只要人们使用机器,调整自己的期望,并在此过程中修订社会规范,社交数据革命就会悄然而至。
如果我们迎接这场挑战,数据就有可能由取之于民、归之于民演变为用之于民。让我们一起投身于这场革命吧!
人工智能时代的读心术
加利福尼亚大学旧金山分校的心理学荣誉退休教授保罗艾克曼(Paul Ekman)一直在研究6种基本情感的生理效应。这6种情感分别是生气、伤心、害怕、蔑视、惊讶和愉快。艾克曼让来自5个不同国家(智利、阿根廷、巴西、日本和美国)的人看这6种情感状态的照片,并观察他们有何反应。他预测文化环境的不同会导致人们的反应各异,但结果证明他错了。这个实验重复了许多次,他发现人们在看照片时都会产生相同的表情:与生气相关的是眉头紧锁,眉毛和嘴角下垂表示看到的是伤心的照片,皱鼻子表示蔑视,与真诚笑容相关的是眼角纹。(礼节性假笑因为泛美航空公司的乘务人员总是面带这种笑容,因此又被称作泛美式微笑往往只有嘴部有变化。)1978年,艾克曼与他的同事华莱士弗里森(Wallace V. Friesen)通过总结他们观察到的所有表情,建立面部表情编码系统(FACS)。根据FACS,几名机器学习研究人员开发出了人脸识别软件。
图41?真诚微笑(左)与礼节性微笑(右)的对比。人在真正高兴时,
他的眼角与嘴角的肌肉都会运动,导致皮肤产生皱纹
资料来源:由保罗艾克曼博士和保罗艾克曼有限责任公司提供。
艾克曼假设,情感具有普遍性,因为情感是反映我们的心理状况和彼此关系的真实信号。随着实地研究与实验的进行,他发现每种基本情感还与其他生理指标有关,例如心率、呼吸率、血流量和肌张力等。有时,人们的情感变化非常快,如果不注意,甚至难以捕捉到情感变化的过程。这些微表情常常意味着这个人不想表露自己的情感,或者他没有意识到自己的这种情感。由于这些表情稍纵即逝(持续时间大约只有15秒),没有经过专业训练的话,是很难发现的,需要借助回放视频才能看到。
艾克曼曾经在圣迭戈一家名叫Emotient的公司担任顾问,该公司开发出了可以从摄像头记录的原始数据中实时识别情感的软件。2007年,Emotient公司推出的第一个商业应用程序是 笑脸检测程序,可以安装到索尼数码相机上。当取景框里的人露出笑容时,该程序会立即抢拍。随着Emotient公司的算法不断进步,一台高清照相机就可以监控同处一室的400人),同时读取他们脸上的微表情。该公司还打算将这款软件推广到医学疗域,用于捕捉患儿脸上的痛苦表情。事实上,研究表明,在捕捉身体不适的真实信号这个方面,计算机强于人类。Emotient公司与谷歌早期合作开发的一种眼镜应用程序被推销给公司管理者,帮助他们了解员工的精神面貌,以及情感对顾客购买行为(买什么?从谁那儿买?)的影响力。2016年1月,Emotient公司被苹果公司收购。
伦敦的Realeyes公司也引进了艾克曼的研究成果,以评估人们在看到广告视频时的面部表情。广告显示屏可能是某个人的电脑显示器,也可能是安装在公共场所的显示屏。电子产品生产商LG开展的舞台恐惧症广告活动就以男厕所为广告背景。厕所的小便池上方装有LG显示器,当有男子来小便时,屏幕上就有一名女子把广告推开,摆出一副能看见男子小便的姿态。据Realeyes面部表情分析摄像头的观察,这些男子的表情由困惑、害怕变成高兴。分析结果甚至表明,有一部分男子在视频开始和结束时都表现出厌恶的情绪。麻省理工学院媒体实验室情感计算小组找到Affectiva公司,合作研发可以帮助孤独症患者解读他人面部表情的情感警报系统,从而与Realeyes公司形成了竞争关系。商业客户请Affectiva公司检测人们对广告视频的情感反应,民意调查公司则用它来统计电视辩论期间政治候选人的支持率情况。
在收集、分析人的情感数据时,除面部表情外还有众多数据来源。人说话的音调、音量(声强)、语音质量、持续时间和语速等也能反映人的情感状况。为了创建情感语音检测系统,一些研究人员从5个说英语的国家(澳大利亚、肯尼亚、印度、新加坡和美国)雇用了100名演员,请他们声情并茂地把一些简单的文本(诸如日期和数字)表达出来。
研究人员认为,这些语音表达过于装腔作势,不能成功地训练机器学习系统实时处理真实的人际对话。一些近期的研究旨在利用客户呼叫中心的海量数据,建立情感图书馆。呼叫中心安排业务代表在接听电话的过程中记录客户的情感状态,在音频记录上添加标签,以创建用于机器学习的数据。人们已经在利用这些添加了恼怒、温和、激烈、中性等标签的语音(甚至包括啊、哦、嗯、好的等非常简单的言语),对语音识别系统进行训练。在某些情况下,语音信号与用户满意度调查数据相结合,可以验证情感检测系统的准确性。
云联络中心服务提供商LiveOps公司、人工智能公司Mattersight等利用语音检测软件为客户安排服务代表。如果客户有很重的地方口音,就为他安排一名家在该地区的客服代表,让他们进行更有本地特色的交流吧。如果客户听到呼叫中心的选择菜单后立即做出选择,这可能意味着这名客户十分生气。应该怎么办呢?把他的电话转接给善于处理难题、应对挑剔客户的服务代表。如果客服代表已经竭尽全力,仍没让客户平静下来,而且客户的声音越来越大、越来越尖利,这个呼叫就会升级,交由业务经理处理。除了这些音频数据,LiveOps公司还会针对客户投诉搜索社交媒体和其他数据源,寻找更多的背景资料。有的客户很快就和呼叫中心的客服代表建立了融洽的关系,这次投诉可能就不难处理,而且客服代表还有可能说服这名顾客购买产品或服务。人工智能公司Mattersight宣称可以根据客户的性格类型安排客服代表,为客户提供更有针对性的服务。该公司利用交流记录分析对话内容与方式,把客户分为开朗、尖刻、严肃、内向等类型,并把客户的电话转接给善于同这种性格类型的客户打交道的客服代表,以增加顾客的满意度。这种安排的依据是性格类型,而不是呼叫本身的特点。该公司的很多客户都是需要经常与客户交互的企业,例如医疗保健企业、保险公司和电话公司。
算法还给那些缺乏表达能力的人带来了福利。人们常说,父母可以分辨婴儿哭声传递出的情感需求。但总的来说,这种能力不具有科学性,显而易见的原因就是可供父母学习的样本太小。在与周围世界交互的过程中,人和机器为交互数据建立模型的方式存在若干不同之处,样本大小是一个明显的不同点。参与开发谷歌无人驾驶汽车项目、教育领域初创企业优达学城(Udacity)的联合创始人塞巴斯蒂安特隆(Sebastian Thrun)指出,驾驶员凭借个人经验开车,而谷歌无人驾驶汽车可以从所有无人驾驶汽车犯下的错误中汲取教训,提高驾驶技术。人主要是从自己的成败经历中吸取经验,社交图谱中其他人的成败仅起到辅助作用。此外,他们还可以征求专家的建议。相比之下,机器不仅可以直接从它们犯下的错误中吸取经验,还可以从其他机器所犯的错误中得到教训。
IBM的迪米特里坎尼夫斯基(Dimitri Kanevsky)和同事开发的一项专利技术,可以从婴儿的啼哭声和大脑、心脏及肺部活动中采集数据,开展学习。婴儿哭闹的原因有很多,有时是为了引起注意,有时是因为孤独。数据服务商可以帮助父母们更准确地监控孩子的情感状态,并依此做出决策。
将来,除了面部表情、啼哭声的音调和音量以外,应用程序还可以根据其他更微妙的线索探查我们的情感状况。一些活动追踪系统(例如Fitbit记录器、Withings Pulse智能手环、佳明智能手表)可以记录人们的生命体征,包括静态心率和运动心率,这些生命体征可能与某些情感状态有关。血液流经身体时,皮肤上的红色会加深,因此利用红外传感器(例如,苹果手表后盖上的传感器)就可以测心率。因为佩戴在身体上的设备在推挤碰撞时容易松开,所以很多医院为了得到更准确的测量结果,改用红外摄像头监控病人的心跳。Xbox家用电视游戏机利用红外线追踪玩家身体活动的幅度,实时了解他们兴奋或无聊的程度,并据此推出了一个又一个新游戏。
在生物医学层面上,情感更难遁形。验血可以发现与害怕、紧张、疲劳有关的生物化学物质,验汗也可以实现相同的目的。在美国国防部的资助下,通用电气公司成功地研发出Fearbit,它是一种可以吸附到皮肤上的无线传感器,外形与邦迪创可贴相似。朝向皮肤的那一面是纳米结构,可以吸附特定的生化物质。如果这些生化物质的含量升高,它还会发出警报。嗅探空气中化合物的传感器的体积非常小,可以安装到手机中。用石墨烯制造的传感器具有非常高的灵敏度,可以检测浓度在10亿分率量级的分子。早前的一项研究表明,我们甚至可以通过人的呼吸检测他的紧张情绪。
在具体环境中综合使用多种情感传感器,可以产生革命性的效果。例如,麻省理工学院媒体实验室情感计算小组的几名研究生提议研发AutoEmotive(自动电子功能)系统,将几种既有的传感器嵌入汽车操作系统,改善驾驶员的健康与安全状况。在方向盘上安装传感器,可以监控与紧张情绪有关的重要生物指标,包括掌心出汗、心率、呼吸和手掌抓握力等。利用麦克风监控所有语音的音调和音量,可以判断警报针对的是暂时性情况还是不断加剧的沮丧情绪。一台车载记录仪可以提供驾驶员微表情的精准数据。如果驾驶员表现得十分紧张,数据服务商就会给他推荐一条更通畅的路线,或者让汽车音响播放舒缓的音乐。驾驶员可以从汽车仪表盘背景灯的颜色变化了解自己的情绪状态,并根据生物反馈做出更明智的决定。AutoEmotive的目标是帮助人们在极易导致视野狭窄的高度紧张的情况下做到应对自如,这与埃里克霍尔维茨为美国国家航空航天局地面控制台设计数据优化显示系统的初衷不谋而合。
在思考如何将情感分析应用到决策活动中时我们必须清楚,关于在特定情感状态下身体内部有何变化的问题,心理学家还没有形成一致意见。分歧最大的问题与情感体验的主观性有关。当前的局面与个人的经历对情感反馈的影响到底有多大?如果表现出害怕的几个特征,比如呼吸与心率加速、流汗、血压升高等,一定是因为害怕吗?出现这些状况,或许是因为你恐惧、震惊,或者感到焦虑不安、心烦气躁,但也有可能是因为你刚吃了一颗糖,而且正在锻炼。
保罗艾克曼指出,解读情感时须防范奥赛罗的错误。在莎士比亚的戏剧《奥赛罗》中,奥赛罗指责妻子苔丝狄蒙娜与卡西奥有染,并告诉她已经派人杀了卡西奥。看到妻子脸上害怕与痛苦的神情,奥赛罗认为这表明她真的有罪。他想,很显然,她感到害怕是因为奸情被揭穿了,她感到痛苦则是因为她在哀悼死去的情人。艾克曼指出,苔丝狄蒙娜在那一刻确实表现出了害怕与痛苦的情绪,但是原因与奥赛罗猜测的并不一样。她感到害怕是因为丈夫妒火中烧、失去理智,她感到悲伤是因为她无法自证清白、自知难逃一死。奥赛罗犯下的令人扼腕的错误说明了一个事实:检测某种情感的生理指标比较容易,而发现其背后的原因却难得多。在利用情感数据进行决策时,无论解读这些数据的是人还是机器,都必须时刻牢记奥赛罗的教训。
面部表情、语音线索生理学数据都是真实的信号,情感识别系统可以从中发现我们大多数人都无法发现的规律。如果可以实时获取经过挖掘的情感数据,我们的生活将会大大改观,但是,风险也会因此增加。你是否想了解自己在第一次约会时或者面试之前、之中和之后的情感状态?检测任一阶段的情感状态,都有可能对接下来的行动产生深远的影响。在面试时,如果面试官告诉你他正在使用情感检测应用程序,你的情感状态是否会发生变化,你会更加紧张还是更加自信?在这种情况下,你通常会竭力隐藏自己的情感,但如果应用程序利用你脸上的微表情来寻找蛛丝马迹,你的所有情感反应肯定会暴露无遗。
我在前文中指出,交流各方都应该有权查看交流记录。如果你打给客服代表的电话被录音,你就有权得到这份录音。但是,由于受情感检测程序监控的交流越来越多,我们无法准确地判断仅仅获取这些原始录音对我们是否公平。如果企业利用语音数据探测你的情绪,并且根据分析结果采取不同的方式处理你的来电,那么它们应该为你提供哪些信息呢?如果你真实的情感体验不同于算法的解读,又会导致什么样的结果呢?
此外,如果我们希望借助情感状态的精炼数据,改进我们与亲朋好友或同事之间的交流,仅凭戴在手腕上的传感器或者对准脸部的摄像头是无法实现这个愿望的。我们还需要想办法充实传感器数据,比如,详细描述并公开分享我们的感受,为机器检测的生理指标添加个性化标签。为了深刻了解我们的行为规律,并帮助我们更好地做出决策,我们可以心甘情愿地公开表露哪些情绪和情感呢?