《数据科学理论与实践（第2版）》 - 台灣·大書城 - 朝乐门 - 清华大学出版社

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　聯絡我們　 \|　運費計算　 \|　幫助中心　\|　加入書簽
		會員登入新用戶註冊

HOME

新書上架

暢銷書架

好書推介

2024年度TOP

香港／國際用戶

最新/最熱/最齊全的簡體書網

品種：超過100萬種書，正品正价，放心網購，悭钱省心

送貨：速遞 / 物流，時效：出貨後2-4日

『簡體書』数据科学理论与实践（第2版）

書城自編碼： 3415473
分類：簡體書→大陸圖書→教材→研究生/本科/专科教材
作者：朝乐门
國際書號(ISBN)： 9787302531913
出版社：清华大学出版社
出版日期： 2019-09-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：NT$ 440

我要買件

** 我創建的書架 **
未登入.

編輯推薦：

（1）国家精品开放在线课程《数据科学导论》的配套教材（2）一本系统讲解全球范围内的数据科学的新理论与代表性实践的教材；

內容簡介：

重点介绍数据科学中的新理论和代表性实践，填补数据科学与大数据技术专业的核心教材的空白。主要内容包括：基础理论（术语定义、研究目的、发展简史、理论体系、基本原则、数据科学家）、理论基础（数据科学的学科地位、统计学、机器学习、数据可视化）、流程与方法（基本历程、数据加工、数据审计、数据分析、数据可视化、数据故事化、项目管理）、技术与工具（技术体系、MapReduce、Hadoop、Spark、NoSQL与NewSQL、R与Python）、数据产品及开发（主要特征、关键活动、数据柔术、数据能力、数据战略、数据治理）、典型案例及实践等

關於作者：

中国人民大学副教授，博士生导师；国家精品在线开放课程《数据科学导论》负责人；中国计算机学会信息系统专委员会委员、中国软件行业协会中国软件专业人才培养工程专家委员、全国高校人工智能与大数据创新联盟专家委员会副主任、全国高校大数据教育联盟大数据教材专家指导委员会委员；

目录

第1章基础理论
如何开始学习
1.1术语定义
1.2研究目的
1.3研究视角
1.4发展简史
1.5理论体系
1.6基本原则
1.7相关理论
1.8人才类型
如何继续学习
习题
参考文献
第2章理论基础
如何开始学习
2.1数据科学的学科地位
2.2统计学
2.3机器学习
2.4数据可视化
如何继续学习
习题
参考文献
第3章流程与方法
如何开始学习
3.1基本流程
3.2数据加工
3.3数据审计
3.4数据分析
3.5数据可视化
3.6数据故事化
3.7数据科学项目管理
3.8数据科学中的常见错误
如何继续学习
习题
参考文献
第4章技术与工具
如何开始学习
4.1数据科学的技术体系
4.2MapReduce
4.3Hadoop
4.4Spark
4.5NoSQL与NewSQL
4.6R与Python
4.7发展趋势
如何继续学习
习题
参考文献
第5章数据产品及开发
如何开始学习
5.1定义
5.2主要特征
5.3关键活动
5.4数据柔术
5.5数据能力
5.6数据战略
5.7数据治理
5.8数据安全、隐私、道德与伦理
如何继续学习
习题
参考文献
第6章典型案例及实践
如何开始学习
6.1统计分析
6.2机器学习
6.3数据可视化
6.4Spark编程
6.52012年美国总统大选
如何继续学习
习题
参考文献
附录A本书例题的R语言版代码
附录B数据科学的重要资源
附录C术语索引
后记

图目录
图11DIKW金字塔模型3
图12数据与数值的区别4
图13数字信号与模拟信号4
图1420082015年全球数据规模及类型的估计6
图15大数据的特征7
图16大数据的本质8
图17人工智能、机器学习和深度学习的区别与联系10
图18DIKUW模型及应用11
图19数据洞见12
图110业务数据化与数据业务化12
图111常用驱动方式13
图112数据的层次性13
图113大数据生态系统示意图14
图114数据科学的新研究视角15
图115Gartner技术成熟度曲线16
图116数据科学的萌芽期（19742009年）17
图117数据科学的快速发展期（20102013年）18
图118数据科学的逐渐成熟期（2014年至今）19
图119数据科学的理论体系20
图120数据科学的主要内容20
图121数据科学的三世界原则22
图122数据科学的三个要素及3C精神23
图123计算密集型应用与数据密集型应用的区别24
图124数据范式与知识范式的区别25
图125数据管理范式的变化25
图126数据的资产属性26
图127常用驱动方式28
图128CAPTCHA方法的应用28
图129ReCAPTCHA项目29
图130数据与算法之间的关系30
图131BellKors Pragmatic Chaos团队获得Netflix奖30
图132Netflix奖公测结果31
图133数据科学与商务智能的区别与联系32
图134数据科学与数据工程在企业应用中的区别与联系33
图135数据科学人才类型及其收入33
图136RStudio中编辑Markdown的窗口35
图137数据科学家团队38
图138大数据人才应具备的不同知识结构40
图139学习数据科学的四则原则43
图21数据科学的理论基础50
图22统计方法的分类（行为目的与思路方式视角）52
图23统计学中的数据推断53
图24数据统计方法的类型（方法论视角）53
图25数据统计基本方法54
图26元分析与基本分析54
图27GFT预测与美国疾病控制中心数据的对比55
图28GFT估计与实际数据的误差（2013年2月）56
图29大数据时代的思维模式的转变58
图210西洋双陆棋58
图211机器人驾驶58
图212机器学习的基本思路59
图213机器学习的三要素61
图214机器学习的类型62
图215KNN算法的基本步骤63
图216决策树示例识别鸟类65
图217感知器示例67
图218前向神经网络67
图219归纳学习与分析学习70
图220增强学习70
图221机器学习的类型71
图222IBM Watson72
图223Pepper机器人73
图224机器学习中的数据73
图225Anscombe四组数据的可视化77
图226John Snow的鬼地图（Ghost Map）78
图227在Tableau中加利福尼亚州政府收入来源数据的可视化79
图31数据科学的基本流程83
图32量化自我84
图33规整数据与干净数据的区别85
图34规整数据示意图86
图35残差89
图36数据分析的类型90
图37Analytics 1.0~3.091
图38数据加工方法92
图39数据审计与数据清洗93
图310缺失数据处理的步骤94
图311冗余数据处理的方法94
图312数据分箱处理的步骤与类型96
图313均值平滑与边界值平滑96
图314内容集成98
图315结构集成99
图316数据脱敏处理100
图317数据连续性的定义及重要性104
图318可视化审计示例106
图319Gartner分析学价值扶梯模型106
图320冰激凌的销售量与谋杀案的发生数量108
图321数据分析的类型110
图322拿破仑进军俄国惨败而归的历史事件的可视化111
图323可视分析学的相关学科111
图324可视分析学模型112
图325数据可视化的方法体系113
图326视觉图形元素与视觉通道113
图327雷达图示例114
图328齐美尔连带114
图329视觉隐喻的示例美国政府机构的设置114
图330地铁路线图的创始人Henry Beck115
图331Henry Beck的伦敦地铁线路图116
图332视觉突出的示例116
图333完图法则的示例117
图334视觉通道的选择与展示119
图335视觉通道的精确度对比119
图336视觉通道的可辨认性某公司产品销售示意图120
图337视觉通道的可分离性差120
图338上下文导致视觉假象1121
图339上下文导致视觉假象2121
图340对亮度和颜色的相对判断容易造成视觉假象的示例121
图341数据可视化表达与数据故事化描述126
图342数据的故事化描述及故事的展现127
图343项目管理的主要内容130
图344数据科学项目的基本流程131
图412017大数据产业全景图140
图42大数据参考架构142
图43MapReduce执行过程144
图44MapReduce对中间数据的处理148
图45以MapReduce为核心和以YARN为核心的软件栈对比150
图46下一代MapReduce框架151
图47Apache的Hadoop项目151
图48Hadoop生态系统152
图49Hadoop MapReduce数据处理过程153
图410Apache Hive官方网站155
图411Apache Pig官方网站156
图412Apache Mahout官方网站157
图413Apache HBase官方网站157
图414HBase与Hadoop项目158
图415HBase的逻辑模型159
图416Apache ZooKeeper官方网站160
图417Apache Flume官方网站161
图418Apache Sqoop官方网站162
图419Spark 技术架构163
图420Spark的基本流程164
图421Spark的执行步骤169
图422Lambda 架构的主要组成部分171
图423传统关系数据库的优点与缺点172
图424关系数据库技术与NoSQL技术之间的关系174
图425NoSQL数据分布的两个基本途径175
图426分片处理176
图427主从复制177
图428对等复制178
图429数据不一致性179
图430CAP理论180
图431Memcached官方网站183
图432一致性散列的分配方式184
图433服务器增加时的变化184
图434云计算的演变过程188
图435数据管理的新变化190
图43620162018年数据科学相关项目中软件产品的使用率（%）192
图4372019年Gartner数据科学和机器学习平台魔力194
图51数据产品开发中的数据与数据柔术201
图52知识范式与数据范式203
图53数据产品的多样性204
图54数据产品的层次性205
图55Google全球商机洞察（Google Global Market Finder）206
图56数据产品链207
图57传统产品开发与数据产品开发的区别208
图58D.J.Patil209
图59UIUser Interface设计方案与设计思维210
图510Google搜索的用户体验211
图511人与计算机图像内容识别能力的不同211
图512Amazon Mechanical Turk平台213
图513一个HIT的生命周期213
图514基于人与计算机的数据处理成本曲线214
图515亚马逊的数据产品其他商家（Other Sellers）215
图516LinkedIn的数据产品你可能认识的人们（People you may know）216
图517LinkedIn的数据产品你的观众是谁216
图518逆向交互定律217
图519LinkedIn数据产品岗位推荐219
图520LinkedIn的数据产品帮助你的朋友找到工作220
图521Facebook的良好用户体验220
图522DMM模型基本思路222
图523CMM基本思想222
图524CMM成熟度等级224
图525DMM关键过程域225
图526DMM层级划分及描述227
图527IDEAL模型229
图528组织机构数据管理能力成熟度评估结果的可视化229
图529数据战略与数据管理目标的区别230
图530数据战略的目标231
图531数据战略的侧重点231
图532数据战略的范畴231
图533数据管理与数据治理的区别233
图534IBM提出的企业数据管理的范畴233
图535数据治理的PDCA模型234
图536DGI数据治理框架235
图537P2DR模型237
图538从欧洲大陆的空战中返回的轰炸机238
图61KMeans算法的基本步骤267
图62奥巴马2012年总统竞选芝加哥总部287
图63George Clooney288
图64Sarah Jessica Parker288
图65奥巴马及快速捐赠计划290
图66奥巴马通过Reddit与选民互动291
图672012年美国总统竞选财务数据官方网站292
图A1女性体重与身高的线性回归分析314
图A2工资数据的可视化327
图A3起飞延误时间339
图A4到达延误时间339
图A5捐助人职业、党派及捐助额度分析352
图A6分箱处理后的捐款数据可视化353
图A7捐款日期与金额的可视化354
图A8捐款月份与金额变化分析355
图A9投票结果的可视化357

表目录
表11结构化数据、非结构化数据与半结构化数据的区别与联系5
表12某数据科学家的画像（Profile）37
表21参数估计与假设检验的主要区别53
表22统计学与机器学习的术语对照表57
表23机器学习的相关学科61
表24已知6部电影的类型及其中出现的接吻次数和打斗次数64
表25已知电影与未知电影的距离64
表26分析学习和归纳学习的比较70
表27Anscombe的四组数据（Anscombes Quartet）76
表31测试数据A86
表32测试数据B86
表33测试数据C86
表34Pew论坛部分人员信仰与收入数据统计（规整化处理之前）87
表35Pew论坛部分人员信仰与收入数据统计（规整化处理之后）87
表36探索性统计中常用的集中趋势统计量89
表37探索性统计中常用的离散程度统计量89
表38探索性统计中常用的数据分布统计量89
表39常见的数据变换策略97
表310十进制第一数字的使用概率103
表311数据分析中常见错误109
表312数据类型及所支持的操作类型118
表313数据类型与视觉通道的对应关系118
表314数据故事化描述应遵循的基本原则128
表315数据科学项目中的主要角色及其任务130
表41Transformation常用函数166
表42Action常用函数166
表43RDD的存储级别167
表44Spark数据类型和R数据类型之间的映射关系170
表45较有代表性的云数据库产品174
表46NoSQL数据库中常用的数据模型175
表47R与Python对比186
表48云计算的基本类型189
表49排名前10位数据科学产品的使用率及变化情况%194
表51数据转换与数据加工的区别202
表52Google公司的十大产品与服务202
表53数据管理成熟度模型的过程域分类226
表54信息系统安全等级及保护基本要求237
表55肾结石治疗数据分析两种治疗方案的分别统计240
表56两种治疗方案的汇总统计240
表61数据集women248
表62Protein数据集266
表63工资信息274
表64各字段的名称及含义292
表A1Spark版本差异性331
表A2Spark与R的数据类型对比332
表A3SparkR与sparklyr比较340

內容試閱：

前言
自第1版出版以来，本教材得到了国内外专家的高度评价。目前，国内多数高校的相关课程均选择本教材为指定教材或主要参考书。本书第2版中进行了如下修订。
（1）调查研究国内外大数据与数据科学相关工作岗位的用人要求及岗位面试题，对第1版内容进行了删减与补充。例如，新增了Lambda架构、AB测试、Tableau、VizQL技术、大数据算法偏见、大数据算法与模型、Jupyter NotebookLab、Python编程等面试中常见的问题。同时，还补充了数据产品开发、PythonR数据分析等内容，力争使本教材具备更高的实用价值和更多的干货知识。
（2）调查研究国内外大数据与数据科学相关的国际国家标准、调研报告和理论研究现状，补充了必要的标准、报告和理论，如《信息技术大数据术语》（GBT 352952017）、《信息技术大数据技术参考模型》（GBT 355892017）、《信息技术服务治理第5部分：数据治理规范》（GBT 34960.52018）、《数据管理能力成熟度评估模型》（GBT 360732018）以及来自Gartner、DataCamp、KDnuggets等专业机构的著名调查报告，力争全景展现国内外数据科学领域的重要理论与代表性实践。
（3）在深入研究世界一流大学数据科学课程的教材建设、教学大纲和教学内容的基础上，广泛征求兄弟院校师生就本教材第1版的意见与建议，对本书内容进行了补充和调整，如全书例题采用Python和R双语言版本，并补充了一些经典小理论、案例及其数据科学的内在联系，如亚马逊预期货运（Amazons Anticipatory Shipping）、幸存者偏差（Survivorship Bias）、辛普森悖论（Simpsons Paradox）、大数据杀熟、Google图片搜索Idiot事件、Facebook -剑桥分析公司数据丑闻（FacebookCambridge Analytica Data Scandal）、P2DR模型和奥卡姆剃刀Occams Razor，力争使本教材与世界顶级大学接轨。
（4）结合自己在中国人民大学开设的数据科学（本科）、数据科学理论与实践（硕士）、信息分析前沿研究（博士）课程以及建设国家精品开放在线课程数据科学导论的教学经验以及在企事业单位担任首席数据科学家和参与部分高校数据科学专业建设的经验，并结合自己在数据科学与大数据技术领域的学术研究，对第1版内容进行了调整与优化，突显了数据产品开发在数据科学教与学中的抓手地位，并按照本人首次提出的开源课程倡议，在GitHub上建立配套社区，与同行老师共同维护课程资源，使本教材的内容更加符合我国大数据人才培养的需求。
本书旨在系统讲解数据科学领域的经典理论与最佳实践，满足不同层次读者的需求。因此，建议读者结合自己的教学或学习需要，对本书进行定制使用，参考方案如表1所示。

表1本教材的教学与学习建议

章名
导论类课程非导论类课程
非大数据类
专业大数据类
专业本科
低年级本科高年级
或硕士
第1章基础理论
第2章理论基础〖5〗
第3章流程与方法〖3〗
第4章技术与工具〖3〗
第5章数据产品及开发〖4〗
第6章典型案例及实践
注：与数据科学相关的导论类课程有数据科学导论、大数据导论、数据科学与大数据技术导论等；非导论类课程有数据科学、数据科学理论与实践、数据科学原理与实践、数据科学方法与技术等；常见的大数据类专业有数据科学与大数据技术、大数据管理与应用、大数据技术与应用和大数据分析等。
作者以本教材为基础，将提供MOOC公开课，帮助培养数据科学领域的人才。
朝乐门
2019年6月

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	台灣用户　\|　香港/海外用户

megBook.com.tw
Copyright (C) 2013 - 2025 （香港）大書城有限公司　All Rights Reserved.