新書推薦:
《
城市轨道交通绿色低碳规划设计研究——深圳地铁6号线工程创新与实践
》
售價:NT$
1010.0
《
艾尔米塔什国家博物馆 少年游学 人一生一定要看的博物馆
》
售價:NT$
173.0
《
世界四大博物馆4册套装 卢浮宫大英大都会艾尔米塔什博物馆 青少年游学艺术参观科普书
》
售價:NT$
694.0
《
艺术家之路 塑造插画风格
》
售價:NT$
759.0
《
古乐钩沉(中国音乐学院60周年校庆中青年学者文集)
》
售價:NT$
602.0
《
我和抑郁症的3000天
》
售價:NT$
301.0
《
与骸骨交谈:我希望每一个真相都被发现
》
售價:NT$
347.0
《
人体使用手册3:自愈力的逻辑(全面解读身体面对疾病时的反应逻辑,学习更多有效的系列家庭按摩)
》
售價:NT$
281.0
|
編輯推薦: |
《数据科学》(第2版)为国家一流本科课程《数据科学导论》配套建设教材、中国人民大学“十四五”规划教材,作者因数据科学课程荣获北京市高等学校教学创新大赛一等奖、产学合作协同育人项目优秀案例项目、北京市优质教材、数据科学50人等多项奖励,在国内有较大的影响力。本书为作者10余年从事数据科学教学和科研一线的经验积累。
|
內容簡介: |
《数据科学》(第2版)是一部系统阐述数据科学理论与实践的入门教材,内容与时俱进,联系实际,致力于将最新的数据科学动
态、国内外名校的教学经验,以及当前社会对数据科学人才的需求整合到内容中,同时融入思政教育内容,彰显中国
特色。
本书共7 章,主要内容包括数据科学的术语与理念、流程与活动、方法与技术、社会及人文、产品与产业、人才
与职业发展以及应用与实践等,旨在实现理论与实践、基础知识与前沿技术、学术研究与实际应用之间的有机融合,
使之成为一部既实用又富有前瞻性的数据科学教材。
本书适合作为高等学校数据科学与大数据技术、大数据管理与应用、计算机科学与技术、统计学、工商管理、信
息管理与信息系统、商业分析等多个专业本科生数据科学课程的教材,也可供数据科学从业人员参考使用。
|
目錄:
|
第1 章 数据科学的术语与理念 1
1.1 关键术语 2
1.1.1 DIKW 模型 2
1.1.2 大数据 4
1.1.3 数据科学 7
1.2 核心理念 10
1.2.1 数据驱动型决策 10
1.2.2 数据密集型科学发现 12
1.2.3 数据分析式思维 14
1.2.4 数据科学向善 16
1.2.5 概率近似正确 19
1.2.6 数据资产化管理 19
1.3 学科特征 21
1.3.1 Drew Conway 数据科学韦恩图 21
1.3.2 Jeffrey D. Ullman 数据科学韦恩图 23
1.4 典型应用 24
1.4.1 GFT 流感趋势分析 24
1.4.2 Metromile 的汽车保险创新 25
习题 27
第2 章 数据科学的流程与活动 33
2.1 数据加工 36
2.1.1 数据大小及规范化 36
2.1.2 缺失数据及其处理 37
2.1.3 异常数据及其处理 38
2.1.4 数据维度及降维处理 42
2.2 数据管理 44
VIII 数据科学 第2 版
2.3 数据分析 46
2.3.1 数据分析方法 46
2.3.2 数据分析工具 48
2.4 数据可视化 51
2.4.1 视觉编码与视觉通道 53
2.4.2 可视分析学 56
2.4.3 常用统计图表 58
2.5 数据故事化 62
2.5.1 与数据可视化的关系 62
2.5.2 主要特征 64
2.5.3 故事金字塔模型 67
2.5.4 EEEs 模型 68
习题 70
第3 章 数据科学的方法与技术 76
3.1 人工智能 77
3.1.1 定义及特征 77
3.1.2 主要类型 78
3.1.3 与数据科学的关系 80
3.1.4 主要内容 80
3.2 机器学习 81
3.2.1 定义及特征 82
3.2.2 主要类型 83
3.2.3 与数据科学的关系 84
3.2.4 常用机器学习算法 85
3.3 深度学习 88
3.3.1 定义及特征 88
3.3.2 主要类型 88
3.3.3 与数据科学的关系 89
3.3.4 常用深度学习算法 90
3.4 大数据技术 91
3.4.1 定义与特征 91
3.4.2 主要类型 93
3.4.3 与数据科学的关系 94
目 录 IX
3.4.4 常用大数据技术 95
3.5 数据科学的编程语言 104
3.5.1 定义与特征 104
3.5.2 主要类型 105
3.5.3 与数据科学的关系 105
3.5.4 常用数据科学编程语言 106
习题 110
第4 章 数据科学的社会及人文 117
4.1 偏见及悖论 118
4.1.1 幸存者偏差 118
4.1.2 辛普森悖论 119
4.1.3 伯克森悖论 121
4.2 伦理及道德 122
4.3 隐私保护 123
4.4 A/B 测试 126
4.5 数据安全保障 128
4.5.1 数据安全法 128
4.5.2 P2DR 模型 130
4.6 解释与信任 130
习题 134
第5 章 数据科学的产品与产业 139
5.1 数据产品 140
5.1.1 数据产品研发的特征 140
5.1.2 数据柔术 141
5.2 数据能力 143
5.2.1 关键过程域 144
5.2.2 成熟度等级 146
5.2.3 成熟度评价 147
5.3 数据治理 148
5.3.1 主要内容 149
5.3.2 参考框架 150
5.4 数据科学平台 152
X 数据科学 第2 版
5.4.1 数据科学平台的类型 153
5.4.2 数据科学平台的评价 154
5.5 数据科学的产业 156
习题 158
第6 章 数据科学的人才与职业 162
6.1 数据职业的主要类型 163
6.2 数据科学家的岗位职责 166
6.2.1 以数据为中心的解决方案的提出 166
6.2.2 从海量数据中发现有价值的洞察 166
6.2.3 面向具体业务的算法/ 模型研发 167
6.2.4 假设检验与试验设计 168
6.2.5 数据治理与数据质量控制 168
6.2.6 数据产品的研发及基于数据的传统产品的创新 168
6.2.7 数据全流程的参与 169
6.2.8 跨部门和跨领域合作 169
6.3 数据科学家的能力要求 170
6.3.1 与数据科学直接相关的知识和技能 170
6.3.2 与数据科学无直接相关的能力要求 171
习题 173
第7 章 数据科学的应用与实践 178
7.1 业务理解 179
7.2 数据读入 180
7.3 数据理解 180
7.4 数据准备 181
7.5 模型构建 183
7.6 模型预测 187
7.7 模型评价 187
习题 190
参考文献 195
附录A Python 数据分析中常用的语法要点及讲解 197
附录B 例题R 语言版本代码 205
|
內容試閱:
|
很高兴有这个难得的机会再次与您见面。我要向您介绍的是一本集理论、
实践、创新与实用性于一体的全新修订版教材——《数据科学》第2 版。
本书是我国系统阐述数据科学的理论、方法、技术、工具、应用和
实践的教材。自2016 年第1 版问世以来,受到广大读者和专家的一致好评,
是他们的鼓励使本书得以再次呈现于世,以满足更多读者对于数据科学深度
与广度的追求与学习。
本书入选中国人民大学“十四五”规划教材;配套建设课程“数据科学
导论”先后荣获国家级一流本科课程、国家精品在线开放课程、北京市高等
学校教学创新大赛一等奖、产学合作协同育人项目优秀案例项目、中
国人民大学课程思政示范课程等多项荣誉;编者先后荣获数据科学50 人、
IBM 全球卓越教师奖、CSC-IBM 中国优秀教师奖教金等荣誉。
编者汇聚了十余年的教学经验与教材打磨的精华,始终坚持个人的教学
理念——“打开思路、奠定基础、增强信心和培养兴趣”,呈现给读者一部
全面、系统、富有前瞻性的数据科学入门教材。本次修订工作主要涉及三方
面:一是全面升级内容,新内容全景展示了数据科学领域的最新理论和实践
进展;二是重新设计结构,新结构更加符合数据科学导论类课程教与学的需
要;三是改进编写方法,新方法提升了教材的可读性和使用性,确保带给读
者更好的阅读体验。新版教材不仅实现了与国际一流大学相关课程和教材的
对标,而且更富有中国特色,注重国内教材和课程的思政建设。在内容上,
它融合了最新的数据科学动态和实际需求,强调了实践应用与实用性,致力
于为学生提供系统性、全景式的数据科学理论与实践解读。本书专注于呈现
数据科学的核心理论知识,深入探讨了数据科学的实际应用及其在多个领域
的典型应用案例,以前瞻性和实用性为核心,旨在为学生提供最具价值和实
际应用的学习体验,并助力他们全面、深入地理解和掌握数据科学。
本书能够顺利出版,要感谢广大读者和专家学者的支持,尤其要感谢中
国人民大学各级领导和清华大学出版社的大力协助。在本书的编写过程中参
考和引用了大量国内外文献资料,特此向有关作者表示感谢。虽然尽可能地
标注了出处,但也难免有所疏漏,期待读者多提宝贵意见。
II 数据科学 第2 版
希望本书能进一步帮助广大读者打开数据科学的大门,同时也希望更多
同行加入到数据科学的教学与研究中来,一同推动这个年轻而充满活力的学
科不断发展壮大。
衷心感谢您的支持与陪伴,愿您在阅读本书的同时,能够获得知识与智
慧的双丰收!
朝乐门
2023 年国庆节于中国人民大学静园
第1 版前言
数据科学已成为领域专家的知识和能力之一。如今,几乎所有的专
家都在谈论大数据,但是部分“专家”并不是真正懂得大数据及其背后的科
学——数据科学。在国内,数据科学的系统性研究仍属空白,人们只知道需
要学习这门新兴科学,但并不知道如何学习。为此,本书:
● 是我国最早的系统阐述数据科学的专著之一;
● 以“经典理论 × 最佳实践”为编写思路,吸收了国内外重要的研究
进展与实践经验;
● 提出了数据科学的理论体系,而不是现有文献的简单汇编;
● 加入了作者的创造性研究工作;
● 利用三年时间精心撰写的图书。
但是,学习数据科学确实存在一定的“难度”。就数据科学的理论基
础——统计学、机器学习和可视化分析学而言,很多读者,尤其是社会科学
领域的读者,很容易对其产生“恐惧感”或“距离感”。为此,本书:
● 以“最深奥的理论 ? 最简单的逻辑”为编写思路,深入浅出,力争
做到“阅读障碍的最小化”;
● 以“导读”形式给出学习建议;
● 以“图表”形式揭示数据科学中的重点知识;
● 以“脚注”形式解释读者容易曲解或需要深入了解的难点;
● 以“实用性”为内容选择的重要标准,不断给读者带来学习的“成
就感”;
● 以“培养兴趣和信心”为撰写宗旨,并非停留在介绍知识和信息
层次。
学习数据科学需要注意理论与实践相结合。数据科学与其他传统科学的
重要区别之一在于其与实践经验的耦合度高,读者不仅需要具备扎实的理论
功底,而且应具有熟练的操作能力。为此,本书:
● 以“理论精讲 R 编程”为编写思路,协助读者提升理论联系实践
的能力;
● 在“案例分析”部分提供了两个不同的案例——最佳实践和 R 编程,
第1 版前言
IV 数据科学 第2 版
供读者选择性阅读;
● 以“独特的 R 代码注解”和“R 编程中的常见问题解答”的方式,
帮助读者快速掌握R 编程;
● 在“习题”中给出的问题不是课程内容的低级重复,而是帮助读者
提升理论联系实践能力与自主学习能力;
● 在“参考文献与扩展阅读文献”中列出了相关领域的核心文献。
学习数据科学还需要注意与读者自己的领域知识相结合。数据科学与其
他传统科学的另一个主要区别在于对领域知识的依赖度高。因此,学习应
以“掌握面向领域的数据科学”或“发现领域中的数据科学”为主要目的,
脱离具体领域的方式学习数据科学必将导致学习行为的空洞化和学习动力不
足。为此,本书:
● 以“全集知识 - 领域差异性知识”为编写思路,在基本内容的设计与
选择上,力争做到领域共性;
● 在学习建议和习题安排上,尽量体现出不同领域的差异性;
● 在内容细节的编写思路上,鼓励读者在自己的领域中使用数据科学
知识;
● 从数据科学视角介绍机器学习、统计学、数据可视化等基础知识,
而不是简单重复这些课程。
数据科学是一门快速发展的新兴学科,目前仍处于快速发展和不断演变
的过程之中。为此,本书:
● 充分考虑其未来发展中“变与不变”的问题,并重点描述“不变”
部分;
● 以“本章小结”方式给出相关理论的发展趋势,即未来可能“如何
变”的问题;
● 以“习题”方式给出未来理论的变化趋势及新理论的获得方法,即
“如何跟踪最新变化”的问题;
● 在第 1 章理论基础中给出数据科学领域的主要期刊、会议、课程、
学位项目、代表人物等,以便读者跟踪学习,也是属于“如何跟踪
最新变化”的范畴。
在本书的撰写过程中,参阅了大量国内外教材、专著、论文、原始数据
和相关资料,虽然书中对参考文献多有标注,但也难免有所疏漏,敬希相关
作者见谅,笔者在此谨表示诚挚的谢意。同时,特别感谢:
● 中国人民大学原常务副校长冯惠玲教授,中国人民大学数据工程与
知识工程重点实验室主任、信息学院院长杜小勇教授,信息
第 1版前言 V
资源管理学院院长张斌教授为本书的出版给予的大量指导与关心;
● 中国人民大学路海娟、杨倩倩、马广惠、张莹等学生参与了部分章
节的校对和PPT 制作工作;
● 清华大学出版社领导及编辑,尤其是刘向威博士和薛阳编辑为本书
的出版付出的辛勤劳动;
● 国家自然科学基金项目(71103020)、国家社会科学基金项目
(15BTQ054,12&ZD220)对本书相关研究提供的资金支持;
● 长期以来,亲人的理解与支持,本人从事基础研究,淡泊名利,他
们却从不抱怨;
● 即将为本书提出宝贵意见的您,书中必有不足之处,希望不吝赐教,
让我们共同为数据科学的发展做出贡献!
朝乐门
2016 年5 月于中国人民大学
|
|