新書推薦:
《
冯友兰和青年谈心系列:不是问题的问题(哲学大师冯友兰和年轻人谈心,命运解读)
》
售價:NT$
254.0
《
月与蟹(青鲤文库)荣获第144届直木奖,天才推理作家经典作品全新译本。一部青春狂想曲,带你登上心理悬疑之巅。
》
售價:NT$
230.0
《
索恩丛书·盛清统治下的太监与皇帝
》
售價:NT$
403.0
《
透过器物看历史(全6册)
》
售價:NT$
2234.0
《
我在台北故宫博物院读名画
》
售價:NT$
500.0
《
尼罗河往事:古埃及文明4000年
》
售價:NT$
347.0
《
一个人·谁也不是·十万人(诺贝尔文学奖得主反思自我的巅峰之作)
》
售價:NT$
250.0
《
重写晚明史(全5册 精装)
》
售價:NT$
3560.0
|
編輯推薦: |
《大数据概论——智能时代的思维方式》使用大量案例深入浅出地讲述了大数据技术,可以有效地培养初学者的大数据思唯。
|
內容簡介: |
大数据是从哪里来的?大数据有什么特点?大数据带来了什么利弊?人们如何在大数据时代活得更好?带着这些疑问,《大数据概论——智能时代的思维方式》将从大数据的意义、大数据的来源、大数据的思维、大数据的应用、大数据的挑战5 方面来和读者一起深入探讨。通过5章的内容,读者能够系统地了解大数据技术产生的背景、发展的历史、涉及的领域以及取得的辉煌成就。
《大数据概论——智能时代的思维方式》可以作为信息科学、数据科学、计算机类专业的入门教材,也可以用作相关专业的技术人员或科普爱好者的参考用书。
|
目錄:
|
第1章 意义:人类文明的基石 1
1.1 如何做出决策 2
1.1.1 祈求神灵的启示 3
1.1.2 战争背后的规律 6
1.1.3 数据治国的理念 9
1.2 科学方法的产生 14
1.2.1 站在前人的肩上 15
1.2.2 事实胜过雄辩 18
1.2.3 提高质量的法宝 20
1.3 智慧从哪里来 25
第2章 来源:科技的突飞猛进 30
2.1 计算机与业务数据 32
2.1.1 数据记录的历史 32
2.1.2 摩尔定律的馈赠 37
2.1.3 数据管理的技术 42
2.2 互联网与行为数据 47
2.2.1 互联互通的开始 47
2.2.2 全体网民的狂欢 52
2.2.3 随时随地的连接 57
2.3 物联网与环境数据 60
2.3.1 给万物打上标签 61
2.3.2 全面深入的感知 67
2.3.3 点亮智慧的地球 71
2.4 大数据的特征 75
第3章 转变:从思维方式开始 81
3.1 全体数据的威力 82
3.1.1 抽样统计的利弊 82
3.1.2 大数据统计分析 86
3.2 观其大略的意识 89
3.2.1 包容错误的数据 89
3.2.2 接受混杂的现状 91
3.2.3 观察事物的全貌 96
3.3 预测未来的能力 98
3.3.1 相关关系的作用 99
3.3.2 科学研究的奥秘 105
第4章 应用:开启智能的革命 110
4.1 创新商业服务的模式 111
4.1.1 互联网企业的优势 112
4.1.2 物联网技术的加成 117
4.2 推动生产制造的转型 122
4.2.1 精准农业 122
4.2.2 智能制造 126
4.3 促进文教卫生的发展 132
4.3.1 指导体育竞技 133
4.3.2 实现因材施教 136
4.3.3 重塑医疗保健 140
4.4 提升社会管理的水平 146
4.4.1 保障社会安全 146
4.4.2 打造便利生活 152
4.4.3 提高工作效率 157
第5章 挑战:威胁与机遇并存 161
5.1 当遗忘变成例外 162
5.1.1 摆不脱的过往阴影 163
5.1.2 难把握的适度健忘 165
5.2 无处安放的隐私 167
5.2.1 全息可见的困境 168
5.2.2 有效保护的尝试 171
5.3 被出让的决策权 172
5.3.1 数据主义的危局 173
5.3.2 打破常规的能力 175
参考文献 179
|
內容試閱:
|
如果你感到自己正处在黑暗之中,你要做的不是犹豫,而是开灯。
—万维钢(科学作家,物理学家)
在当今时代,自动化的机器、个性化的服务、人性化的商品无处不在,这一切都是因为采用了人工智能的算法,并构筑在大数据之上。一旦我们停止供应数据,智能世界也将停止运行。所谓的智能,事实上就是主动地获取万事万物的数据,然后为人类提供一些程序化、自动化、个性化的服务。从本质上看,这些服务都是对数据的收集、处理和反馈。
数据如此重要,但是我们大多数人却没有投入精力认真地学习它。为什么呢?一种情况是,大多数人听说了数据很重要,但不知道它为什么重要,重要到什么程度;另一种情况是,大多数人在学习或工作中掌握了一些处理数据的技术,但依然没有数据思维,更谈不上主动利用数据进行决策。高水平的数据思维应该是什么样子的?涂子沛先生在《数商》一书中给出了一个经典的案例,下面我们简要地了解一下。
2011年10月,美国佛罗里达州发生了一起恶性交通事故—一名退休警察开快车,肇事致人重伤。当地《太阳哨兵报》的女记者萨莉·克斯汀注意到了此事件,并翻阅了历年的新闻报道,发现类似事故发生过好多次。于是她意识到,警察超速行驶这件事,很可能是一个非常值得关注的社会问题。
那怎么证实警察经常违规开快车呢?采访?显然不可能。就算有警察愿意告诉你一些情况,那也只是个例,不是事情的全貌。抓现行?也不可能。克斯汀尝试过抱着测速雷达在高速公路旁边蹲守,一发现有车辆超速,立刻驱车追赶。但很快发现这根本行不通:超速的不一定是警车,追了半天,发现不是警车就白费功夫了;就算运气好,碰上了警车,你也无权截停,仅仅有影像,证据并不充分,无法指证。
克斯汀最后想到了解决办法—申请数据公开。因为警车是公务用车,根据美国的《信息自由法》,公民有权了解其使用状态。因此,她获得了110万条当地警车通过不同高速公路收费站的原始记录。警车通过收费站都有时间记录,这段路程的行驶时间就知道了。而收费站之间的距离是已知的,两个数据一除,平均速度就出来了。
克斯汀和她的团队用了3个月的时间对这些数据进行了整合分析。结果发现,在13个月里,当地3900辆警车一共有5100宗超速事件,也就是说,警车超速天天发生。而且时间记录表明,绝大部分超速都发生在上下班时间和上下班途中,这说明警察超速并不是为了执行公务。
2012年2月,克斯汀发表了系列报道,头篇报道的标题就是《他们凌驾法律之上》。在大量数据和调查访谈的基础上,克斯汀得出结论:因为工作需要和警察的特权意识,开快车成了警察群体的习惯性行为,即使下班后,身着便服,其开车速度也没能降下来,而路上执勤的警察也相互理解和纵容这种行为!
报道一出,舆论一片哗然,在当地警务部门引发了一场“大地震”。5100宗超速事件涉及12个部门的近800名警察,一些坐实违纪的警察陆续受到处理:48名州高速公路巡警被处以警告或者被勒令纪律反省;44名地方刑警被剥夺开车上下班的权利;迈阿密市有38名警察被处理,其中1名被开除,10名被停发工资。
《太阳哨兵报》只是一份地方小报,总发行量才20余万份,但因为克斯汀的报道而名声大振。克斯汀也因为这个系列报道,获得了2013年度的普利策新闻奖。这是美国新闻传播界最重要的奖项。
从这个真实的故事里,我们可以体会到:数据思维不同于数据技能,它是一种方法论,着重于培养人们利用数据提出问题和求解问题的意识。从专业角度看,女记者克斯汀的数据技能是不够的,她不会编程,不会设计数据库,也不会使用数据挖掘工具(110万条数据的规模不算大,一个数据分析师可以轻松处理这类简单任务,克斯汀却还需要组建一个团队)。不过,克斯汀提出了要解决的问题,并知道怎么利用数据产生她需要的结果,而这些结果又能完美地印证她要讲述的新闻故事—这就是数据思维。
相对于数据思维来说,大数据思维还要进一步升级,要更多地了解信息技术的基础理论和前沿知识。再举一个例子,假设我们在楼上办公,需要实时了解楼下房间内的咖啡是否煮好了,你会怎么解决这个问题?是每隔一会儿亲自跑下去检查,还是雇人看护汇报?其实,你可以在咖啡壶旁安装一个联网的摄像头,这样就能坐在办公室里用手机或计算机随时查看咖啡壶的状态了。早在1991年,剑桥大学特洛伊计算机实验室的科学家们就是这么做的,而且这套“特洛伊咖啡壶”系统在升级更新后,通过实验室网站连接到了互联网上。没想到的是,仅仅为了窥探“咖啡煮好了没有”,全世界互联网用户蜂拥而至,近240 万人点击过这个名噪一时的“咖啡壶”网站。据说,这就是物联网的起源。
为什么很多人想不到用联网摄像头来收集数据呢?因为在他们头脑中,收集数据的方法只局限于人工观测,想不到其他的方案。就像现在很多人还把市场调研局限于在超市或商厦中请求顾客填表,而不知道通过网络爬虫获取海量的间接数据。正如著名计算机科学家、图灵奖得主迪杰斯特拉所说:“我们所使用的工具影响着我们的思维方式和思维习惯,从而也将深刻地影响着我们的思维能力。”
2020年初,全球各地陆续暴发新型冠状病毒感染。仅仅一开始的1年半,新型冠状病毒感染确诊人数(累计确诊)就超过2.5亿,死亡人数超过500万,这场突如其来的灾难成了21世纪以来人类面临的最大挑战。自古以来,对抗此类疫情的第一步也是关键一步就是要“群防群控”,核心是四个“早”—早防护、早发现、早诊断、早隔离。而如何做到四个“早”呢?目前看来,最有用、最高效的工具就是大数据。
由于新冠病毒的传染性极强,一旦某人被确诊,我们就要知道他去过哪里,和哪些人接触过。只有把所有潜在的病毒传染源全部找到并及时隔离,才能把损失减小到最低程度。以前我们只能依靠确诊患者的回忆,但患者如果正在被病魔折磨,不可能记清楚所有的细节,难免出现错漏。这时候,大数据就可以发挥作用了。
公共卫生防疫部门可以通过电信运营商和互联网公司获取这个人近期的行踪轨迹,包括:他每天去过哪里,用过何种交通工具,在每个地方停留过多久,和哪些人的行踪有交集。相关机构也很快开发出了“健康宝”等手机App,每天进入商场、小区、办公楼时都让你“扫码”登记个人信息。如此一来,每个人的数据都在云端进行“碰撞”,一旦发现和患者有接触,系统就会发出警报提示其需要重点关注或隔离。疫情初期,我国的数字地图公司还绘制出了人口迁徙大数据地图,可以回溯2020年春节前后武汉近500万人的流动情况,这对疫情的防控也起到了很大的作用。
除此之外,对于病毒传播的方式和危害程度的认知,需要利用大数据进行举证和辟谣;对于疫情产生的社会影响和经济问题,也需要大数据的反馈和预测;甚至分析病毒基因、研制有效疫苗,也需要大数据技术的帮助。
这几年,市面上已经有了很多关于大数据的书籍,但绝大多数都是聚焦于搭建平台、编写代码等方面的,不仅非专业人士很难读懂,就算是信息技术领域的学生也得费一番苦功夫。其实,多数人学习大数据并不是为了开发专业的工具或者进行具体的技术研究,而是基于两个动机:一是为了在数据无处不在的世界中生存得更好,二是在这样的世界里工作得更得力。
本书更着重于和读者一起探讨:大数据对人类文明有什么意义?大数据都是从哪里来的?大数据具备哪些特点?大数据带来了什么利弊?我们应该如何应用大数据技术?多年来的教学实践表明,兴趣是第一位的,思维方式的转变是最为关键的。这并不是说具体的理论与技术不重要,而是当读者有了兴趣、转变了思维方式之后,自然会去学习和钻研。
本书第1章由曹健老师编写,第2~4章由魏星老师编写,第5章由祝晓斌老师编写,全书由魏星老师统稿。
非常感谢北京科技大学计算机与通信工程学院、北京工商大学计算机学院的鼎力支持,使我们能在繁忙的教学与科研工作之余完成本书。
编者
2023年12月
于北京
|
|