新書推薦:
《
唐宋绘画史 全彩插图版
》
售價:NT$
449.0
《
“御容”与真相:近代中国视觉文化转型(1840-1920)
》
售價:NT$
505.0
《
鸣沙丛书·大风起兮:地方视野和政治变迁中的“五四”(1911~1927)
》
售價:NT$
454.0
《
海洋、岛屿和革命:当南方遭遇帝国(文明的另一种声音)
》
售價:NT$
485.0
《
铝合金先进成型技术
》
售價:NT$
1214.0
《
英雄之旅:把人生活成一个好故事
》
售價:NT$
398.0
《
分析性一体的涌现:进入精神分析的核心
》
售價:NT$
556.0
《
火枪与账簿:早期经济全球化时代的中国与东亚世界
》
售價:NT$
352.0
|
編輯推薦: |
在我们如今的生活和职场中,无可避免地要接触大量的数据。数据是怎样被用来讲故事的?它又是如何“说服”,乃至有时“欺骗”我们的?资深数据科学家在《像数据达人一样思考和沟通》中给你答案。
|
內容簡介: |
《像数据达人一样思考和沟通:数据科学、统计学与机器学习》是一本完备的数据科学指南,尤其适用于职场人。本书既包括了职场中应用数据的场景介绍,也包括了算法背后的数学知识。两位作者在数据科学普及领域深耕多年,立志打造一本有趣、贴近生活,且非常具有可读性的数据科学入门书。每个人都能成为数据达人,积极地参与与数据科学、统计、机器学习相关的工作。本书适合作为商务专业人员、工程师、行政人员,以及有志成为数据科学家的研究人员的自学参考读物,也可以作为数据科学相关培训机构的教材。
|
目錄:
|
第1篇掌握数据达人的思维
第1章定义问题3
1.1数据达人应该掌握的问题4
1.2了解数据项目失败的原因10
1.3解决重要的问题14
本章小结15
第2章何为数据16
2.1数据与信息17
2.2数据类型19
2.3数据的收集与组织方式20
2.4基本汇总统计23
本章小结24
第3章统计学思维25
3.1学会质疑26
3.2无处不在的随机波动29
3.3概率与统计34
本章小结41像数据达人一样思考和沟通目录第2篇掌握数据达人的语言
第4章质询数据45
4.1你会怎么做?47
4.2数据的来源是什么?53
4.3数据是否具有代表性?56
4.4是否缺少某些数据?57
4.5数据集的大小59
本章小结60
第5章探索数据61
5.1探索性数据分析62
5.2培养探索心态64
5.3数据是否能解答问题?65
5.4你是否能从数据中发现某些相关性?71
5.5你是否从数据中发现了新的机会?76
本章小结77
第6章检查概率78
6.1猜概率: 笔记本电脑是否感染病毒79
6.2游戏规则80
6.3概率思想实验87
6.4谨慎做出独立性假设90
6.5一切概率都是条件概率92
6.6保证概率数字有意义96
本章小结99
第7章质疑统计100
7.1统计推断的简短讨论101
7.2统计推断的过程108
7.3用于质疑统计结果的问题109
本章小结118
第3篇理解数据科学家的工具箱
第8章寻找未知分组121
8.1无监督学习123
8.2数据降维123
8.3主成分分析法(PCA)126
8.4聚类131
8.5k均值聚类133
本章小结137
第9章理解回归模型139
9.1监督学习140
9.2线性回归能做些什么142
9.3线性回归带给我们什么146
9.4线性回归的隐患149
9.5其他回归模型155
本章小结156
第10章理解分类模型157
10.1分类模型介绍158
10.2逻辑回归160
10.3决策树165
10.4集成方法169
10.5谨防陷阱172
10.6准确性的误解174
本章小结178第11章理解文本分析179
11.1文本分析的期望180
11.2文本如何变成数字182
11.3主题建模192
11.4文本分类194
11.5实际处理文本分析的细节200
本章小结203
第12章解析深度学习概念204
12.1神经网络206
12.2深度学习的应用213
12.3深度学习的实践223
12.4人工智能与你227
本章小结230
第4篇确 保 成 功
第13章注意陷阱235
13.1数据中的偏差和怪象236
13.2陷阱大清单242
本章小结247
第14章知人善任248
14.1沟通中断的7个场景249
14.2数据个性255
本章小结257
第15章未完待续259术语表263
|
內容試閱:
|
对于许多旁观者而言,传统数据分析、大数据和人工智能是全然不同,且毫不相关的事物。然而,《像数据达人一样思考和沟通》这本书将要匡正这样的认知,并指出这3个领域事实上是高度相关的。它们都涉及统计思维,而一些传统的分析方法,例如回归分析、数据可视化技术等,对这3个领域同样适用。统计学中的“预测分析”与人工智能领域的“监督式机器学习”基本上就是一回事。而且,大多数的数据分析技术也适用于各种规模的数据集。简而言之,一位优秀的数据达人可以高效地处理好这3方面的工作,而花费大量时间去细究它们之间的差异则往往是无用功。固有观念2: 只有专业的数据科学家才能成为“数据热潮”中的弄潮儿。
人们有时对数据科学家盲目崇拜,认为只有他们才有可能有效地处理和分析数据。然而,近来兴起了一阵全新的、极为重要的潮流,旨在让数据思维变得更加全民化。越来越多的机构开始注重培养普通员工的数据思维和数据分析能力。自动化机器学习工具使得人们可以更轻松地建立数学模型,并利用模型出色地完成预测工作。当然,我们仍需要专业的数据科学家负责开发新算法,并为那些进行复杂数据分析工作的普通员工把关。但是,一些单位选择把与数据分析相关的工作交给单位中那些“非科班出身”的数据达人负责,这样做往往能够让数据科学家专注更重要的工作。固有观念3: 数据科学家无所不能,他们掌握着从事数据活动所需的全部技能。
数据科学家是受过专业训练,从事模型开发和代码编写工作的人。人们往往想当然地认为,数据科学家同样能够包揽模型的实际应用工作。换句话说,人们认为数据科学家是无所不能的。但实际上这样的人凤毛麟角。对于一个数据科学项目来说,那些不仅了解数据科学的基础知识,而且了解所处行业、能够有效地管理项目,并擅长建立业务关系的数据达人才是无价之宝。他们不但能够胜任数据科学工作,还能提升数据科学项目的商业价值。固有观念4: 人们需要具有非常高的数学天赋,并经受大量训练,才有可能在数据和分析方面取得成功。
一个相关的假设是,为了从事数据科学工作,人们必须在该领域接受过良好的培训,因此一个数据达人也必须非常擅长和数字打交道。数据方面的天赋与训练固然对从事数据科学相关工作有帮助,但《像数据达人一样思考和沟通》这本书中的一个观点令我深感认同: 一个拥有动力的学习者能够掌握数据和分析知识,并在数据科学项目中贡献力量。部分原因是,统计分析的基本概念远没有那么深奥;同时,想要参与数据科学项目,也并不需要极高水平的数据和分析能力。与专业数据科学家协作,或是参与自动化人工智能项目,需要的只是提出关键问题的能力和好奇心、在业务问题和定量结果之间建立联系并识别出可疑假说的能力而已。固有观念5: 如果你在大学或研究生阶段的主要研究方向并非定量(quantitative)领域,那么现在学习数据和分析方法所需的知识就为时已晚。
这一观念甚至得到了调查数据的支持: 在Splunk公司于2019年对全球约1300名高管的调查报告中,几乎所有受访者 (98%) 都认为数据技能对他们未来的工作很重要。81%的高管认同数据技能是成为高级领导者所必需的,而85%的人认为掌握数据技能会让他们在公司中变得更有价值。尽管如此,仍有67%的人表示他们不习惯自己获取或使用数据,73%的人认为数据技能相较于其他业务技能更难习得,53%的人认为自己年纪太大,已经错过了学习数据技能的黄金时期。这种“数据失败主义”(data defeatism)对个人和组织都是有害的,而本书作者和我都认为这不过是无稽之谈。仔细阅读本书正文,你会发现其中不涉及任何艰深难懂的知识!
因此,抛开这些固有的观念吧,让自己成为一个数据达人。你将成为职场上更有价值的员工,并帮助你所在的机构变得更加成功。这就是世界的发展方向,是时候开始加入浪潮,更加深入地了解数据及其分析方法了。我相信,阅读《像数据达人一样思考和沟通》,探索数据科学,你将会收获一段富有价值且充满乐趣的旅程。前言对于本书的读者来说,无论主观意愿如何,数据或许已经成为你工作中最重要的一部分,没有之一。而你之所以翻开这本书,大概是因为希望能够了解数据究竟是怎么一回事。
首先,有必要重复一个老生常谈的问题: 在这个时代,每个人创造和接收的信息比以往任何时候都多。毫无疑问,现在是一个数字的时代。而这个数字时代也催生了一个充斥着承诺、行话和产品的行业,其中许多是翻开本书的你,你的经理、同事和下属正在或将要接触的。但是,尽管与数据相关的承诺和产品不断涌现,数据科学方面的商业项目却往往会很快就陷入失败。美国科技博客VentureBeat在2019年进行了一个调查,其中显示87%以上的数据项目以失败告终。
这里需要澄清一下,我们并非暗示所有关于数据的承诺都言之无物,或所有的产品都糟糕透顶。相反,要真正了解这个领域,必须首先接受一个基本事实: 事情远比我们想象的要复杂。从事数据方面的工作意味着与数字、细微差别和不确定性打交道。数据至关重要,这毫无疑问,但与此同时,它并不简单。然而,有一个行业却在试图让人们忽视这一点——这是一个在不确定的世界中试图承诺确定性,并利用公司对落伍的恐惧而牟利的行业。我们在本书中将其称为数据科学工业复合体(Data Science Industrial Complex)。
数据科学工业复合体
对于身处其中的每个人来说,数据科学工业复合体都是一个有待关注的问题。企业不断买入产品,期待它们能代替自己进行思考;经理们雇佣名不副实的专家;各种机构都在招聘数据科学家,却并没有做好迎接他们的准备;高管们不得不聆听无穷无尽的行业黑话,并假装理解。这样的现状造成了大量数据项目的停滞和资金的浪费。
|
|