新書推薦:
《
跨界:蒂利希思想研究
》
售價:NT$
500.0
《
千万别喝南瓜汤(遵守规则绘本)
》
售價:NT$
203.0
《
大模型启示录
》
售價:NT$
510.0
《
东法西渐:19世纪前西方对中国法的记述与评价
》
售價:NT$
918.0
《
养育男孩:官方升级版
》
售價:NT$
230.0
《
小原流花道技法教程
》
售價:NT$
500.0
《
少女映像室 唯美人像摄影从入门到实战
》
售價:NT$
505.0
《
詹姆斯·伍德系列:不负责任的自我:论笑与小说(“美国图书评论奖”入围作品 当代重要文学批评家詹姆斯·伍德对“文学中的笑与喜剧”的精湛研究)
》
售價:NT$
398.0
|
編輯推薦: |
本书可作为大数据相关专业、计算机类所有专业的导论课教材。
|
內容簡介: |
本书是一本集“数据思维训练、数据能力培养、批判性思维实践”于一体的关于数据科学的引导性图书,以循序渐进引发读者自主思考与探究为宗旨,在建立数据思维的同时,注重逻辑思维、批判性思维能力的提升。
本书共4篇。第1篇“数据思维”,从数据科学的“道”出发,探究数据科学的起源、数据思维的特点、DIKW模型及其应用; 第2篇“数据价值”和第3篇“数据技术”则是数据科学“术”的全面覆盖,包括数据预处理、描述性分析、探索性分析、数据挖掘、机器学习、深度学习、大数据存储、分布式计算、大数据云平台等内容; 第4篇“数据未来”则从科学、工程与技术层面,畅想数据科学的未来、人工智能的未来,以及你我的未来。
本书适合作为高等学校大数据类专业的导论性必修课教材,也适用于计算机类及工科各专业、统计及商业类各专业相关选修课和通识课程,对数据科学爱好者及相关领域从业者来说也是一本值得研读的书。
|
目錄:
|
第1篇数 据 思 维
第1章数据时代
开篇案例: 你听说过“大数据杀熟”吗?
学习目标
1.1数、数据与大数据
1.1.1数与数据
1.1.2信息化浪潮与大数据
1.1.3从IT时代到DT时代
思考题
1.2大数据时代的变革
1.2.1大数据时代的思维变革
1.2.2大数据时代的商业变革
1.2.3大数据时代的生活方式变革
思考题
1.3大数据时代的挑战
思考题
1.4探究与实践
第2章数据科学
开篇案例: 啤酒与尿不湿
学习目标
2.1什么是数据科学
2.1.1数据科学的产生
2.1.2数据科学的定义
2.1.3数据科学的维恩图
思考题
2.2科学范式及演化
2.2.1范式及范式的演变
2.2.2第四范式的特点
2.2.3第四范式的挑战
思考题
2.3数据科学项目的实施
2.3.1数据科学流程
2.3.2数据特征与数据准备
2.3.3从商业问题到数据科学问题
思考题
2.4探究与实践
第3章数据思维
开篇案例: 别轻易点赞,它会泄露你的性格秘密
学习目标
3.1统计学与统计思维
3.1.1什么是统计
3.1.2统计学原理与统计思维
3.1.3像统计学家一样思考
思考题
3.2计算机与计算思维
3.2.1计算与自动计算
3.2.2算法与程序
3.2.3什么是计算思维
3.2.4像计算机专家一样思考
思考题
3.3大数据与数据思维
3.3.1数据思维的特点
3.3.2一切皆可量化
3.3.3像数据科学家一样思考
思考题
3.4探究与实践
第4章DIKW模型
开篇案例: 《纸牌屋》背后的数据故事
学习目标
4.1数据与DIKW模型
4.1.1什么是DIKW模型
4.1.2DIKW模型中的过去与未来
思考题
4.2数据价值链与DIKW
4.2.1从数据到信息
4.2.2从信息到知识
4.2.3基于数据驱动的决策
4.2.4数据科学与DIKW
思考题
4.3从DIKW视角看世界
4.3.1数据思维实现的要素
4.3.2大数据原理与DIKW模型
4.3.3DIKW的应用及创新
思考题
4.4探究与实践
第2篇数 据 价 值
第5章从数据到知识
开篇案例: “百度指数”能告诉你什么?
学习目标
5.1知识与知识发现
5.1.1什么是知识
5.1.2知识发现的任务
5.1.3决策与决策支持
思考题
5.2数据分析、数据挖掘与人工智能
5.2.1知识发现的方法
5.2.2数据分析与业务分析
5.2.3数据挖掘与知识发现
5.2.4机器学习与人工智能
5.2.5从数据到知识
思考题
5.3数据科学项目的选择
5.3.1数据科学的认知误区
5.3.2成功的数据科学项目
5.3.3数据科学项目的选择之旅
思考题
5.4探究与实践
第6章数据分析——描述与探索
开篇案例: 如果你在“泰坦尼克号”上会怎样?
学习目标
6.1数据分析常用方法
6.1.1因素分解法——相关思维
6.1.2对比法——比较思维
6.1.3象限分析法——分类思维
6.1.4漏斗分析法——漏斗思维
思考题
6.2数据描述性分析
6.2.1认识数据
6.2.2数据统计量及分布
6.2.3数据统计的可视化
6.2.4数据描述性分析
思考题
6.3数据探索性分析
6.3.1什么是探索性分析
6.3.2探索性分析与数据清洗
6.3.3探索性分析与可视化
思考题
6.4探究与实践
第7章从结构化数据中挖掘价值
开篇案例: Target的精准营销靠谱吗?
学习目标
7.1机器学习概述
7.1.1什么是机器学习
7.1.2机器学习算法分类
7.1.3机器学习的要素及流程
7.1.4机器学习中的“哲学”思想
思考题
7.2监督回归——线性与非线性
7.2.1线性回归
7.2.2模型的泛化及优化
7.2.3模型的评估
思考题
7.3监督分类——目标明确、八仙过海
7.3.1逻辑回归
7.3.2支持向量机——学习
7.3.3决策树——基于规则
7.3.4朴素贝叶斯——基于概率
7.3.5分类模型评价及优化
思考题
7.4非监督探索——自学成才
7.4.1聚类——物以类聚、人以群分
7.4.2关联分析——猜你还喜欢
思考题
7.5探究与实践
第8章在非结构化数据中深度学习
开篇案例: ImageNet数据库有什么用?
学习目标
8.1模拟人脑的学习
8.1.1机器学习的本质
8.1.2复杂数据及场景的突破
8.1.3神经网络——模拟人的大脑
思考题
8.2神经网络与深度学习
8.2.1神经元模型
8.2.2深度神经网络模型
8.2.3深度学习的实现
思考题
8.3卷积神经网络
8.3.1图像与图像卷积
8.3.2卷积神经网络(CNN)
8.3.3CNN应用
思考题
8.4循环神经网络
8.4.1为什么需要循环神经网络
8.4.2循环神经网络的基本结构
8.4.3循环神经网络的长短记忆
8.4.4RNN的应用
思考题
8.5图神经网络
8.5.1图数据与图结构表征
8.5.2图神经网络(GNN)
8.5.3GNN的应用
思考题
8.6强化学习——从监督学习到自主学习
8.6.1什么是强化学习
8.6.2如何强化学习
8.6.3从AlphaGo到AlphaZero
思考题
8.7探究与实践
第3篇数 据 技 术
第9章数据存储与管理
开篇案例: 阿里巴巴数据仓库架构
学习目标
9.1数据库与数据库管理系统
9.1.1数据存储管理的演变
9.1.2关系型数据库的设计
9.1.3数据库操作与SQL查询
思考题
9.2数据仓库与商业智能
9.2.1OLTP与OLAP
9.2.2数据仓库及其分层架构
9.2.3数据立方体构建及查询
9.2.4数据挖掘与商业智能
思考题
9.3大数据的挑战
9.3.1大数据存储与管理
9.3.2Google颠覆性技术创新
9.3.3数据科学生态系统
思考题
9.4探究与实践
第10章大数据分布式存储
开篇案例: 春晚抢红包大战究竟“战”什么?
学习目标
10.1分布式文件系统
10.1.1分布式文件系统概述
10.1.2HDFS存储原理及操作
10.1.3HDFS应用场景
思考题
10.2分布式数据库HBase
10.2.1BigTable的创新思考
10.2.2HBase数据模型
10.2.3HDFS与HBase
10.2.4HBase应用场景
思考题
10.3NoSQL数据库
10.3.1NoSQL数据库的兴起
10.3.2NoSQL数据库的4大类型
10.3.3从NoSQL到NewSQL
思考题
10.4探究与实践
第11章大数据计算与分析
开篇案例: 你的用户画像是如何构建出来的?
学习目标
11.1分布式计算MapReduce
11.1.1分布式并行计算
11.1.2MapReduce流程
11.1.3MapReduce的特点及应用
思考题
11.2内存计算与Spark
11.2.1什么是内存计算
11.2.2RDD原理及操作
11.2.3Spark机器学习库及工作流
思考题
11.3流计算
11.3.1大数据与流分析
11.3.2Spark Streaming流计算
11.3.3流计算的应用
思考题
11.4探索与实践
第12章大数据平台与云计算
开篇案例: 淘系的“生意参谋”
学习目标
12.1大数据平台
12.1.1Hadoop的原则
12.1.2Hadoop生态系统
12.1.3Hadoop与实时数据仓库
思考题
12.2云计算与云服务
12.2.1什么是云计算
12.2.2面向分析的云服务
12.2.3百度深度学习开源云平台
思考题
12.3业务中台与数据中台
12.3.1什么是中台
12.3.2数据中台与AI中台
12.3.3阿里巴巴数加大数据平台
思考题
12.4探索与实践
第4篇数 据 未 来
第13章从DIKW视角看技术未来
开篇案例: 通用人工智能是AI的终点吗?
学习目标
13.1工业物联网
13.1.1物联网要素
13.1.2传统物联网与工业物联网
13.1.3面向物联网的数据分析
思考题
13.2AutoML——自动机器学习
13.2.1AutoML的目标
13.2.2AutoML的流程
思考题
13.3知识图谱
13.3.1什么是知识图谱
13.3.2如何构建知识图谱
13.3.3知识图谱的自动构建
思考题
13.4大语言模型ChatGPT
13.4.1自然语言模型的变迁
13.4.2注意力机制与Transformer模型
13.4.3GPT与ChatGPT
13.4.4AIGC智能创作时代
思考题
13.5探究与实践
第14章从DIKW视角看产业未来
开篇案例: 腾讯进军“新能源”
学习目标
14.1数字化转型与数据驱动
14.1.1数字化转型与数据驱动
14.1.2数据驱动的特征
14.1.3数字化转型与赋能
思考题
14.2大数据产业的趋势
14.2.1政府大数据从管理走向服务
14.2.2电信大数据从小圈子走向大生态
14.2.3健康医疗大数据从大走向精准
14.2.4工业大数据围绕小场景从项目走向产品
14.2.5营销大数据从流量营销走向精细运营
14.2.6金融大数据从强管控走向创新服务
思考题
14.3智能时代
14.3.1AI的角色
14.3.2从弱AI到强AI
14.3.3人机融合的未来
思考题
14.4探究与实践
第15章数据科学的未来
开篇案例: 数据科学的4.0版
学习目标
15.1数据科学的挑战
15.1.1数据科学的4大科学任务
15.1.2数据科学的10大技术方向
15.1.3数据科学的发展趋势
思考题
15.2数据科学家团队
15.2.1数据科学与系统开发
15.2.2数据科学家和开发人员的合作
15.2.3数据科学相关职位与技能
15.2.4数据科学家团队
思考题
15.3探究与实践
参考文献
附录
附录A布鲁姆(Bloom)认知分类法
附录B商业分析方法
附录C批判性思维工具
附录D哈佛大学“思维可视化”路径集
数据科学导论
案例目录
【开篇案例】
第1章开篇案例: 你听说过“大数据杀熟”吗?4
第2章开篇案例: 啤酒与尿不湿26
第3章开篇案例: 别轻易点赞,它会泄露你的性格秘密46
第4章开篇案例: 《纸牌屋》背后的数据故事68
第5章开篇案例: “百度指数”能告诉你什么?88
第6章开篇案例: 如果你在“泰坦尼克号”上会怎样?108
第7章开篇案例: Target的精准营销靠谱吗?127
第8章开篇案例: ImageNet数据库有什么用?161
第9章开篇案例: 阿里巴巴数据仓库架构196
第10章开篇案例: 春晚抢红包大战究竟“战”什么?221
第11章开篇案例: 你的用户画像是如何构建出来的?243
第12章开篇案例: 淘系的“生意参谋”263
第13章开篇案例: 通用人工智能是AI的终点吗?284
第14章开篇案例: 腾讯进军“新能源”308
第15章开篇案例: 数据科学的4.0版325
【想一想】
想一想1.1: “大”数据10
想一想1.2: Excel中的数据格式12
想一想1.3: 什么是推荐系统18
想一想1.4: 你的超星(学习通)数据及价值21
想一想2.1: 统计学与数学30
想一想2.2: “大数据买披萨”的故事35
想一想2.3: 什么是整洁数据(Tidy Data)37
想一想3.1: 文字“可能”“差不多”等词可以量化吗60
想一想4.1: 生活中的DIKW69
想一想4.2: 你听说过“信息茧房”吗74
想一想4.3: Analysis与Analytics有什么区别75
想一想5.1: 知识的不确定性及不确切性的表示 90
想一想5.2: 你能从下面对“知识”的描述中得到什么95
想一想5.3: 到底是“算法”还是“模型”99
想一想5.4: 数据科学还是什么101
想一想5.5: 数据收集要考虑什么104
想一想6.1: 中位数与众数的计算114
想一想6.2: 为什么数据准备那么花时间121
想一想7.1: “回归”的含义133
想一想7.2: 空间变换——从非线性到线性142
想一想7.3: 智慧决策到底做什么150
想一想7.4: 建模是一个过程——大厨做菜152
想一想7.5: 关联规则能使东北小菜馆重获新生吗157
想一想8.1: 人类是如何思考的——为什么需要RNN178
想一想8.2: 知识从哪里来185
想一想8.3: 游戏中的AI三要素——数据、算法与算力189
想一想9.1: 什么是元数据215
想一想10.1: Google工程师是如何思考的——定义清楚问题比解决问题更难229
想一想10.2: 行存储与列存储231
想一想10.3: NoSQL数据库的特点238
想一想10.4: 从DIKW视角看数据管理240
想一想11.1: 分布式机器学习的原理249
想一想11.2: 静态数据与流数据、批处理与实时处理256
想一想11.3: Spark中数据抽象的演变——RDD、DataFrame及DStream258
想一想12.1: 网络时代,我们可以享受哪些云服务271
想一想13.1: 边缘计算的未来288
想一想13.2: 人类反馈是如何打分的304
想一想14.1: 数据驱动你体会到了吗309
想一想14.2: 免费WiFi谁会受益314
想一想14.3: 你的智能手环真的“智能”吗315
想一想14.4: 现在的自动驾驶到了哪一级322
想一想15.1: 科学、工程与技术329
想一想15.2: 入职的门槛你准备好了吗334
想一想15.3: 你想转行吗336
【试一试】
试一试1.1: 十进制、二进制、十六进制5
试一试2.1: 开放数据29
试一试2.2: 数据一致性及Excel变换39
试一试3.1: 排序算法——计算思维的实践55
试一试3.2: 网站重要性度量 59
试一试3.3: 余弦定理与文本相似度61
试一试4.1: 微信指数72
试一试4.2: 幸福与爱情77
试一试7.1: 胜率几何——小明能抢到票吗148
试一试7.2: Kmeans算法的结果是如何来的153
试一试7.3: 支持度、置信度、提升度怎么算156
试一试8.1: 神经元计算166
试一试8.2: 神经网络游乐场PlayGround171
试一试9.1: SQL实践——查询与统计204
【技术洞察】
技术洞察1.1: 图灵模型与冯·诺依曼计算机6
技术洞察1.2: 第二次工业革命——电力革命8
技术洞察1.3: CRM的起源与发展 9
技术洞察1.4: 什么是摩尔定律14
技术洞察1.5: 用户数据的价值知多少 18
技术洞察1.6: 什么是“爬虫”19
技术洞察1.7: 什么是用户画像22
技术洞察2.1: 自然语言处理——从规则到统计、从理性到经验33
技术洞察2.2: 什么是“埋点数据”36
技术洞察2.3: 数据标注40
技术洞察3.1: 大数定律与中心极限定律——统计学的基石49
技术洞察3.2: 统计描述与统计推断51
技术洞察3.3: “人”计算与“机器”计算的思维差异52
技术洞察3.4: 三种基本算法的结构及流程53
技术洞察3.5: 蒙特卡罗方法——统计模拟法56
技术洞察3.6: 计算中的递归与迭代57
技术洞察3.7: 用户偏好计算——TFIDF62
技术洞察5.1: 什么是A/B测试——奥巴马当选美国总统背后的故事93
技术洞察5.2: 自动驾驶中的数据科学、机器学习与人工智能97
技术洞察5.3: 什么是利润曲线102
技术洞察6.1: 数据分析前的准备——明确目标、定义指标109
技术洞察6.2: 同比和环比109
技术洞察6.3: RFM模型——客户分类110
技术洞察6.4: AARRR漏斗模型111
技术洞察6.5: 理解数据——变量说明表113
技术洞察6.6: 探索性可视化分析实例122
技术洞察7.1: 什么是特征工程131
技术洞察7.2: 回归建模背后的底层逻辑134
技术洞察7.3: 模型参数的“迭代优化”——梯度下降法136
技术洞察7.4: 什么是“正则化”139
技术洞察7.5: Python代码实现线性回归算法140
技术洞察7.6: 核函数高维映射144
技术洞察7.7: SVM的隐含假设145
技术洞察7.8: 结点不纯度——信息熵146
技术洞察8.1: 为什么需要非线性激活函数167
技术洞察8.2: BP学习算法169
技术洞察8.3: 神经网络的参数与超参数170
技术洞察8.4: 卷积核与卷积计算——垂直边缘检测173
技术洞察8.5: 激活函数Sigmoid与Softmax175
技术洞察8.6: Seq2Seq模型——编码/解码结构180
技术洞察8.7: 图的表示——邻接矩阵与邻接链表182
技术洞察8.8: 蒙特卡罗树搜索188
技术洞察9.1: 从计算思维看数据模型198
技术洞察9.2: 实体与ER图199
技术洞察9.3: 刚性事务与ACID原则202
技术洞察9.4: 关系模型与 SQL的诞生203
技术洞察9.5: 数据解读的六字箴言——时间、对象、指标、对比、细分、溯源211
技术洞察9.6: 模型标记语言(PMML)213
技术洞察9.7: 柔性事务与BASE原则216
技术洞察10.1: Google论文“Google File System”(2003年)——引言(译文)222
技术洞察10.2: 写时模式与读时模式224
技术洞察10.3: HDFS的文件操作命令226
技术洞察10.4: Hadoop大事记(截至2011年)227
技术洞察10.5: Google论文“BigTable: A Distributed Storage System for Structured Data”(2006年)——摘要(译文)228
技术洞察10.6: HBase的存储示例232
技术洞察10.7: HBase常用操作234
技术洞察11.1: Google论文“MapReduce: Simplified Data Processing on Large Clusters”(2004年)——引言(译文)244
技术洞察11.2: Spark诞生记250
技术洞察11.3: 从RDD再看计算思维的实践——抽象、自动化251
技术洞察12.1: 从Hadoop 1.0到Hadoop 2.0264
技术洞察12.2: 推荐系统的Hadoop实现266
技术洞察12.3: 基于云的深度学习框架272
技术洞察12.4: 算力——CPU、GPU、TPU及NPU274
技术洞察12.5: 阿里巴巴数据中台的演进之路277
技术洞察12.6: 模型迭代(Refit)与模型重构(Rebuild)278
技术洞察13.1: 传感器285
技术洞察13.2: 采样与采样频率286
技术洞察13.3: “5G 工业互联网”成为数字经济“新名片”287
技术洞察13.4: AutoSklearn——基于Python的开源工具包292
技术洞察13.5: 注意力机制与注意力模型297
技术洞察13.6: ChatGPT的预训练数据从哪里来300
技术洞察13.7: 什么是“在上下文中学习”302
技术洞察13.8: 百度“文心一言”305
技术洞察14.1: AGI何时实现——来自顶级大佬的预测321
技术洞察15.1: 2023年Gartner新兴技术成熟度327
技术洞察15.2: 数据科学与开发系统的工作流331
【应用案例】
应用案例2.1: Google的核心——PageRank算法41
应用案例2.2: 使用CRM构建全方位用户画像42
应用案例3.1: 面包的故事48
应用案例3.2: 幸运者偏差50
应用案例3.3: 淘宝的“淘气值”64
应用案例4.1: 国民阅读率71
应用案例4.2: 什么是多维度?——百度“吃货”排行榜75
应用案例4.3: 东数西算——国家大数据战略77
应用案例4.4: 用户画像的构建——标签分级80
应用案例4.5: 坐姿与汽车防盗82
应用案例5.1: 什么是“可执行的知识”91
应用案例6.1: 哪个NBA球员发挥更稳定115
应用案例6.2: 直方图与箱线图116
应用案例6.3: 描述性分析实例——驾驶员出险因素分析及结论118
应用案例6.4: 出租车GPS数据的探索性分析123
应用案例7.1: FICO信用分(美国征信体系)是怎么来的138
应用案例7.2: 逻辑回归预测点击率(ClickThroughRate,CTR)143
应用案例7.3: “泰坦尼克号”上的生还预测147
应用案例7.4: 垃圾邮件识别149
应用案例7.5: 航空公司RFM聚类155
应用案例8.1: 手写数字识别——参数知多少166
应用案例8.2: ImageNet大赛176
应用案例8.3: 语言模型的演进——从统计到神经网络181
应用案例8.4: GNN应用——增强推荐系统184
应用案例9.1: 阿波罗登月计划与数据管理197
应用案例9.2: 学生选课管理数据库系统201
应用案例9.3: 零售企业中的事实表与星状模式209
应用案例9.4: 数据仓库与用户标签210
应用案例10.1: HBase在滴滴出行中的最佳实践235
应用案例11.1: 词频统计WordCount的MapReduce实现246
应用案例11.2: 用户行为(clickstream日志)数据分析247
应用案例11.3: 基于MapReduce的视频语义分类247
应用案例11.4: 一个基于Spark的WordCount253
应用案例11.5: 用于文本分析的机器学习工作流255
应用案例11.6: 滴滴出行的ETA预测260
应用案例12.1: 基于阿里云的实时数据仓库268
应用案例13.1: 阿里巴巴的“犀牛工厂”289
应用案例13.2: 无人驾驶汽车传感器知多少289
应用案例13.3: 个性化推荐研究热点: 深度学习、知识图谱、强化学习、可解释推荐
296
应用案例13.4: 一个伟大的公司需要几个人306
应用案例14.1: 数字孪生与数字城市313
应用案例14.2: 自动驾驶迎来这样一个新阶段316
应用案例14.3: 广告投放从“千人一面”到“一人千面”317
应用案例14.4: 你的芝麻信用评分是多少317
|
內容試閱:
|
当今社会,数据已经成为了我们生活和工作中不可或缺的一部分。随着技术的不断进步,数据的规模和种类也在快速增长,数据在企业、政府乃至个人决策过程中所起的作用越来越大。人们渴望了解数据科学,国家需要培养大数据人才。随着全国高校“数据科学与大数据技术”及相关专业建设的持续推进,一大批专业性强的好书已经陆续推出,满足相关专业人士的需求,但通识导论性书籍目前还处于稀缺状态。
大数据时代的“数据科学导论”教学应该关注数据思维,由知识传授型课程转变为思维能力培养型课程,这种共识变得越来越强烈,因此也亟需覆盖面广、应用性强,能够深入浅出引导人们进入数据科学世界、帮助读者培养数据思维的书籍。目前,市面上数据科学导论类的教材多以概念讲概念或以概念述原理,引入大量数据科学的相关术语却又未能阐释这些术语的来源及相互之间的关系,使初学者掉入概念与术语的海洋中越发茫然; 也有另一类以“导论”为题的教材,则更多地偏重技术描述,几乎变成某种数据分析课程的微缩版,且Python及R语言等编程语言基础知识占据大量篇幅,内容较单一,更缺乏数据思维的引导及训练。
本书的最大特色在于将数据思维和数据科学基本概念、方法与技术工具、应用实践紧密结合,旨在培养并提高读者在数据时代必须具备的数据思维及批判性思维的能力。书中创新性地提出以“数据信息知识智慧”(DataInformationKnowledgeWisdom,DIKW)模型作为数据思维总框架的构想,并将这条主线贯穿始终,将DIKW模型应用于概念理解、案例分析、探究实践等方方面面,便于读者构建关于数据科学的点线面知识体系及数据思维框架。这与徐宗本等多位院士在2022年出版的论著《数据科学 : 它的内涵、方法、意义与发展》中提出的数据科学目标是完成“从数据到信息、从信息到知识、从知识到决策的转换,并实现对现实世界的认知和操控”的描述完美契合。
本书围绕构建读者数据思维宗旨展开: 第1篇“数据思维”从数据科学的“道”出发,探究数据科学的起源,阐述统计思维、计算思维及数据思维的不同及演化过程,提倡像统计学家、计算机专家和数据科学家那样去思考,从DIKW模型的不同层次理解数据科学的内涵。第2篇“数据价值”和第3篇“数据技术”两大部分则是对数据科学流程的全面覆盖,从数据分析到数据挖掘、从神经网络到深度学习、从关系型数据库到数据仓库、从Hadoop框架到云平台、从MapReduce分布式计算到流计算和图计算,为读者展开了一个基于DIKW模型层次的数据科学全景图。所有对这些数据科学“术”的阐述强调结合案例挖掘技术的“演进脉络”及创新的“底层逻辑”, 高阶性、创新性与挑战性并存,不过分拘泥于编程代码细节及实操。第4篇“数据未来”则以DIKW的视角审视未来,包括物联网、自动机器学习、知识图谱及ChatGPT等学科前沿的未来,以及不同产业发展的未来。希望这种接触和体验的方式能够激发出读者在感兴趣领域进一步探索的好奇心及潜力,结合本书最后部分关于数据科学相关职位及所需技能的分析,找到自己的定位及未来学习与提升的方向。
相较于市面上其他数据科学类的教材,本书以DIKW模型为整体框架,强调数据思维的重要性; 采取案例驱动的创作方法,以知识点为载体循序渐进地引发读者自主思考与探究,在建立数据思维的同时,注重逻辑思维、批判性思维能力的培养。具体体现在以下几点:
近80个“技术洞察”带领读者发现技术背后的奥秘,探究其底层逻辑;
50多个“应用案例”既贴近生活也面向学科前沿,启发读者对过去、现在、未来的思考;
近百个“想一想”、“试一试”及“探索与实践”互动主题,以其独特的视角及开放性,充分挖掘读者的好奇心,开拓读者的视野;
“布鲁姆学习分类”自检题、“商业思维分析方法”问题集、“批判性思维”工具、“哈佛思维可视化”路径的引入,让思维训练有章可循。
本书作者有多年高校教学、科研及项目开发的经验,曾先后在日本川崎重工、美国IBM、加拿大Manulife等世界500强公司担任过软件工程师、项目开发经理、高级数据分析师等职位。本书是作者从2018年开始为计算机类专业本科学生开设的,“数据科学导论”课程已被认定为省级“线上线下混合式一流本科课程”。本书凝聚了教学团队十几轮授课的探索及积累,由张旗教授主要执笔,魏惠梅老师参与第2篇中部分小节的编写工作。在整个撰写过程中,申丽然老师、薄喻老师就教材构思提出了具体且有益的建议; 李瑶老师、路旭明老师提供了宝贵的教学资源及素材; 张钥迪老师、齐航老师参与绘制图表及其他辅助工作。衷心感谢各位老师的辛勤付出。
“立体看世界、底线想问题”,期望各位读者通过本书的阅读和学习,感受数据科学的魅力,构建自己的数据思维,提升面向未来的能力!“未来已来”,你准备好了吗?
本书除配套常规的教学辅助资料外,还提供微课视频、概念逻辑导图、思维训练模板、省级一流课程线上资源等。
由于笔者能力有限,书中难免存在不足之处,望广大读者不吝赐教。
作〓者
2020年8月
|
|