|
編輯推薦: |
北京市优质本科教材;国家级一流本科课程、国家精品开放在线课程“数据科学导论”的配套教材;一本系统讲解全球范围内的数据科学的新理论与代表性实践的好书。
|
內容簡介: |
《数据科学理论与实践》(第3版)重点讲解数据科学的核心理论与代表性实践,在编写过程中充分借鉴了国外著名大学设立的相关课程以及全球畅销的外文专著,同时考虑了国内相关课程定位与专业人才的培养需求。内容包括数据科学的基础理论、理论基础、流程与方法、技术与工具、数据产品及开发、典型案例及实践和附录等。 《数据科学理论与实践》(第3版)的读者范围很广,可以满足数据科学与大数据技术、计算机科学与技术、管理工程、工商管理、数据统计、数据分析、信息管理与信息系统等专业的教师和学生(含硕士生和博士生)的教学与自学需要。
|
目錄:
|
第1章基础理论
1.1术语定义
1.2研究目的
1.3研究视角
1.4发展简史
1.5理论体系
1.6基本原则
1.7相关理论
1.8人才类型
习题
参考文献
第2章理论基础
2.1数据科学的学科地位
2.2统计学
2.3机器学习
2.4数据可视化
习题
参考文献
第3章流程与方法
3.1基本流程
3.2数据加工
3.3数据审计
3.4数据分析
3.5数据可视化
3.6数据故事化
3.7数据科学项目管理
习题
参考文献
第4章技术与工具
4.1数据科学的技术体系
4.2MapReduce
4.3Hadoop
4.4Spark
4.5NoSQL与NewSQL
4.6R与Python
4.7数据湖与湖仓一体化
4.8发展趋势
习题
参考文献
第5章数据产品及开发
5.1定义
5.2主要特征
5.3关键活动
5.4数据柔术
5.5数据能力
5.6数据战略
5.7数据治理
5.8数据安全、隐私、道德与伦理
习题
参考文献
第6章典型案例及实践
6.1统计分析
6.2机器学习
6.3数据可视化
6.4Spark编程
6.52012年美国总统大选
习题
参考文献
附录A本书案例的R语言版代码
附录B数据科学的重要资源
附录C大数据与数据科学领域的名人名言
附录D术语索引
图目录
图11传统统计学中的总体与样本的关系3
图12DIKW 金字塔模型3
图13数据与数值的区别5
图14数字信号与模拟信号5
图152010—2025年全球数据规模估计和预测数据(单位: ZB)6
图16大数据的特征7
图17大数据的本质8
图18人工智能、机器学习和深度学习的区别与联系10
图19数据洞见11
图110业务数据化与数据业务化11
图111常用驱动方式12
图112数据的层次性12
图113大数据生态系统示意图13
图114数据科学的新研究视角14
图115Gartner技术成熟度曲线16
图116数据科学的萌芽期(1974—2009年)16
图117数据科学的快速发展期(2010—2013年)17
图118数据科学的逐渐成熟期(2014年至今)18
图119数据科学的理论体系20
图120数据科学的主要内容20
图121数据科学的“三世界原则”22
图122科学研究范式23
图123数据科学的“三个要素”及“3C精神”24
图124计算密集型应用与数据密集型应用的区别25
图125算法的性能与可解释的矛盾25
图126数据范式与知识范式的区别26
图127数据管理范式的变化27
图128数据的“资产”属性27
图129常用驱动方式29
图130CAPTCHA方法的应用30
图131ReCAPTCHA项目31
图132数据与算法之间的关系31
图133BellKors Pragmatic Chaos团队获得Netflix大奖32
图134Netflix大奖公测结果33
图135数据科学与商务智能的区别与联系34
图136数据科学与数据工程在企业应用中的区别与联系35
图137数据科学的DevOps35
图138DevOps的流程及常用工具36
图139DevOps生命期流程36
图140数据科学人才类型及其收入37
图141RStudio中编辑Markdown的窗口39
图142数据科学家团队42
图143大数据人才应具备的不同知识结构44
图144学习数据科学的四则运算原则48
图21数据科学的理论基础55
图22Jeffrey D.Ullman对Conway的数据科学维恩图的评价57
图23Jeffrey D.Ullman提出的数据科学维恩图57
图24统计方法的分类(行为目的与思路方式视角)58
图25统计学中的数据推断59
图26数据统计方法的类型(方法论视角)59
图27数据统计基本方法60
图28元分析与基本分析60
图29GFT预测与美国疾病控制中心数据的对比62
图210GFT估计与实际数据的误差(2013年1月)63
图211大数据时代的思维模式的转变64
图212西洋双陆棋65
图213机器人驾驶65
图214机器学习的示意图66
图215机器学习的三要素68
图216机器学习的类型69
图217KNN算法的基本步骤70
图218决策树示例——识别鸟类73
图219MP神经元的结构74
图220前向神经网络75
图221归纳学习与分析学习77
图222增强学习77
图223深度学习与传统机器学习的区别78
图224机器学习的类型79
图225IBM Watson80
图226Pepper机器人81
图227可解释性人工智能系统82
图228机器学习中的数据83
图229Anscombe四组数据的可视化88
图230John Snow所绘的地图88
图231在Tableau中加利福尼亚州政府收入来源数据的可视化89
图31数据科学的基本流程93
图32量化自我94
图33干净数据与规整数据的区别95
图34规整数据示意图96
图35残差99
图36数据分析的类型100
图37Analytics 1.0~3.0101
图38数据加工方法102
图39数据审计与数据清洗104
图310缺失数据处理的步骤104
图311冗余数据处理的方法104
图312数据分箱处理的步骤与类型106
图313均值平滑与边界值平滑106
图314内容集成109
图315结构集成109
图316数据脱敏111
图317数据连续性的定义及重要性115
图318可视化审计示例116
图319Gartner分析学价值扶梯模型117
图320数据分析的类型及方法对应关系118
图321冰激凌的销售量与谋杀案的发生数量119
图322数据分析的类型121
图323拿破仑进军俄国惨败而归的历史事件的可视化123
图324可视分析学的相关学科124
图325可视分析学模型124
图326数据可视化的方法体系125
图327视觉图形元素与视觉通道126
图328雷达图示例126
图329齐美尔连带126
图330视觉隐喻的示例——全球变暖127
图331地铁路线图的创始人Henry Beck128
图332Henry Beck的伦敦地铁线路图128
图333视觉突出的示例129
图334完图法则的示例129
图335黄金比例示意图131
图336黄金比例示意图1131
图337黄金比例示意图2132
图338视觉通道的精确度对比132
图339视觉通道的可辨认性133
图340上下文导致视觉假象1133
图341上下文导致视觉假象2133
图342对亮度和颜色的相对判断容易造成视觉假象的示例134
图343文学故事与数据故事的对比138
图344数据的可视化和数据的故事化的区别和联系138
图345数据故事的金字塔模型141
图346数据故事化的作用143
图347数据故事认知的PCA模型143
图348KISS原则144
图349项目管理的主要内容145
图412017大数据产业全景图152
图42大数据参考架构154
图43MapReduce执行过程156
图44MapReduce对中间数据的处理160
图45以MapReduce为核心和以YARN为核心的软件栈对比162
图46下一代MapReduce框架163
图47Apache的Hadoop项目163
图48Hadoop生态系统164
图49Hadoop MapReduce数据处理过程165
图410Apache Hive官方网站167
图411Apache Pig官方网站168
图412Apache Mahout官方网站169
图413Apache HBase官方网站169
图414HBase与Hadoop项目170
图415HBase的逻辑模型171
图416Apache ZooKeeper官方网站172
图417Apache Flume官方网站173
图418Apache Sqoop官方网站174
图419Spark技术架构175
图420Spark的基本流程176
图421Spark的执行步骤181
图422Lambda 架构的主要组成部分183
图423传统关系数据库的优点与缺点184
图424关系数据库技术与NoSQL技术之间的关系186
图425NoSQL数据分布的两个基本途径187
图426分片处理188
图427主从复制189
图428对等复制190
图429数据不一致性191
图430CAP理论192
图431CAP理论的应用策略192
图432Memcached官方网站195
图433一致性散列的分配方式196
图434服务器增加时的变化197
图435Databricks的Delta Lake数据管理架构201
图436云计算的演变过程202
图437数据管理的新变化204
图4382021年数据科学及机器学习平台的魔术象限207
图439基于Databricks的统一分析平台的架构209
图51数据产品开发中的数据与数据柔术216
图52知识范式与数据范式218
图53数据产品的多样性219
图54数据产品的层次性220
图55Google全球商机洞察221
图56数据产品链222
图57传统产品开发与数据产品开发的区别223
图58D.J.Patil223
图59UI(User Interface)设计方案与设计思维225
图510Google搜索的用户体验226
图511人与计算机图像内容识别能力的不同226
图512Amazon Mechanical Turk平台228
图513一个HIT的生命周期228
图514基于人与计算机的数据处理成本曲线229
图515亚马逊的数据产品——其他商家(Other Sellers)230
图516LinkedIn的数据产品——你可能认识的人们231
图517LinkedIn的数据产品——你的观众是谁231
图518逆向交互定律232
图519LinkedIn的数据产品——岗位推荐234
图520LinkedIn的数据产品——帮助你的朋友找到工作235
图521Facebook的良好用户体验235
图522DMM模型基本思路238
图523CMM基本思想239
图524CMM成熟度等级240
图525DMM关键过程域241
图526DMM层级划分及描述243
图527IDEAL模型245
图528组织机构数据管理能力成熟度评估结果的可视化246
图529DoD数据战略框架247
图530数据战略与数据管理目标的区别248
图531数据战略的目标248
图532数据战略的侧重点249
图533数据战略的范畴249
图534数据管理与数据治理的区别250
图535IBM提出的企业数据管理的范畴251
图536数据治理的PDCA模型252
图537DGI数据治理框架253
图538P2DR模型255
图539从欧洲大陆的空战中返回的轰炸机256
图61KMeans算法的基本步骤287
图62奥巴马2012年总统竞选芝加哥总部307
图63George Clooney308
图64Sarah Jessica Parker308
图65奥巴马及“快速捐赠计划”310
图66奥巴马通过Reddit与选民互动311
图672012年美国总统竞选财务数据官方网站312
图A1女性体重与身高的线性回归分析334
图A2工资数据的可视化347
图A3起飞延误时间359
图A4到达延误时间359
图A5捐助人职业、党派及捐助额度分析372
图A6分箱处理后的捐款数据可视化373
图A7捐款日期与金额的可视化374
图A8捐款月份与金额变化分析375
图A9投票结果的可视化377
表目录
表11结构化数据、非结构化数据与半结构化数据的区别与联系5
表12数据量及大小6
表13某位数据科学家的画像40
表21参数估计与假设检验的主要区别59
表22统计学与机器学习的术语对照64
表23机器学习的相关学科69
表24已知6部电影的类型及其中出现的接吻次数和打斗次数71
表25已知电影与未知电影的距离71
表26分析学习和归纳学习的比较77
表27深度学习与传统机器学习的应用场景比较79
表28Anscombe的四组数据87
表31测试数据A96
表32测试数据B96
表33测试数据C96
表34Pew论坛部分人员信仰与收入数据统计(规整化处理之前)97
表35Pew论坛部分人员信仰与收入数据统计(规整化处理之后)97
表36探索性统计中常用的集中趋势统计量99
表37探索性统计中常用的离散程度统计量99
表38探索性统计中常用的数据分布统计量99
表39常见的数据变换策略107
表310过滤式方法与包裹式方法的区别107
表311十进制第一数字的使用概率114
表312数据分析中常见错误121
表313数据类型及所支持的操作类型130
表314数据类型与视觉通道的对应关系130
表315数据故事与文学故事的区别139
表316数据故事化的相关概念及其区别142
表317数据科学项目中的主要角色及其任务145
表41Transformation常用函数178
表42Action常用函数178
表43RDD的存储级别179
表44Spark数据类型和R数据类型之间的映射关系182
表45较有代表性的云数据库产品186
表46NoSQL数据库中常用的数据模型187
表47R与Python对比198
表48数据湖与数据仓库的对比200
表49云计算的基本类型203
表410数据科学平台的分类206
表411数据科学及机器学习平台的魔术象限208
表51数据转换与数据加工的区别217
表52Google公司的十大产品和服务217
表53数据管理原则237
表54数据管理成熟度模型的过程域分类242
表55信息系统安全等级及保护基本要求254
表56肾结石治疗数据分析——两种治疗方案的分别统计258
表57两种治疗方案的汇总统计258
表61数据集women268
表62Protein数据集286
表63工资信息294
表64各字段的名称及含义312
表A1Spark版本差异性351
表A2Spark与R的数据类型对比352
表A3SparkR与sparklyr比较360
|
內容試閱:
|
本书为作者负责建设的国家级一流本科课程“数据科学导论”的配套教材。自第2版出版以来,已成为我国数据科学领域出版最早、影响力很大的经典教材之一,于2020年荣获“北京市高等学校优质本科教材”称号。本书第3版主要从以下5方面进行修订:
(1) 实时更新知识内容。数据科学仍处于快速发展和迭代期,新理论和新实践不断涌现,而且有些理念与工具已经过时。为此,本版根据数据科学领域的理论与实践进展,更新、删减和补充知识点,力争教材具备更高的实用价值。例如,更新了Gartner数据科学及机器学习平台魔力象限、全球数据规模估计和预测数据、数据科学的发展史、非专业级数据科学家(Citizen Data Scientist)、数据科学项目中常见错误等内容; 新增了数据湖及湖仓一体化、统一分析(Unified Analytics)、数据管理原则、《中华人民共和国个人信息保护法》目录、《中华人民共和国数据安全法》目录、数据攻击和谷歌炸弹以及机器学习的可解释性等内容。
(2) 更加符合学习者的需要。根据相关高校教师的教材使用反馈,进一步优化教材结构与内容,使其更加符合课堂教学和自学的需要。同时,结合作者在中国人民大学开设的“数据科学导论”(本科)、“数据科学理论与实践”(硕士)、“信息分析前沿研究”(博士)三门课程,建设国家精品开放在线课程“数据科学导论”的教学经验以及在企事业单位担任首席数据科学家和参与部分高校数据科学专业建设的经验,并结合自己在数据科学与大数据技术领域的学术研究,对本书内容进行了调整与优化。例如,重写了机器学习部分的解读,补充了深度学习的知识,增减了部分章节。
(3) 对标世界一流大学的数据科学教材。自2012年以来,作者每年坚持调研世界一流大学的数据科学教材和课程建设现状,确保本书内容与世界一流大学数据科学课程的教材无缝对接,为我国相关专业的人才培养提供较为权威的参考方案。例如,补充了Drew Conway的数据科学维恩图的讨论及Jeffrey D.Ullman的改进; 重写了数据故事化部分; 重写了数据可视化的知识; 调整了CAP理论的解读; 补充了美国国防部数据战略框架的介绍; 新增了伯克森悖论(Burkson Paradox)以及机器学习中的性能与可解释性之间的矛盾的解读。
(4) 聚焦社会对数据科学人才的能力要求。从2015年开始,作者每年坚持跟踪调研数据科学领域的岗位面试题、用人单位招聘信息中的能力要求及岗位职责,并将调研结果及时吸收至本书内容之中。例如,加强了对数据驱动、特征工程、DevOps、数据误用、数据分析的能力和经验解读; 新增了Ghavami的八个分析法则、数据湖及湖仓一体化、非专业级数据科学家的能力要求以及大数据与数据科学领域的名人名言等实用性较强的内容。
(5) 同步更新本书配套资源。按照作者首次提出的“开源课程倡议”,在GitHub上建立配套社区,与同行老师共同维护课程资源,并重画了部分重要图表,更新了所有教学资源,使本书内容更加符合我国大数据人才培养的需求。
本书旨在系统讲解数据科学领域的经典理论与最佳实践,满足不同层次读者的需求。因此,建议读者结合自己的教学或学习需要,对本书进行定制使用,参考方案如表1所示。
表1本书的教学与学习建议
内容
导论类课程非导论类课程
非大数据类
专业大数据类
专业本科
低年级本科高年级
或硕士
第1章基础理论
√
√
√
√
第2章理论基础
√
第3章流程与方法
√
√
√
第4章技术与工具
√
√
第5章数据产品及开发
√
√
第6章典型案例及实践
√
√
√
√
注: 与数据科学相关的导论类课程有“数据科学导论”“大数据导论”“数据科学与大数据技术导论”等; 非导论类课程有“数据科学”“数据科学理论与实践”“数据科学原理与实践”“数据科学方法与技术”等; 常见的大数据类专业有数据科学与大数据技术、大数据管理与应用、大数据技术与应用和大数据分析等。
朝乐门
2022年8月18日
|
|