登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入   新用戶註冊
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / 物流,時效:出貨後2-4日

2024年10月出版新書

2024年09月出版新書

2024年08月出版新書

2024年07月出版新書

2024年06月出版新書

2024年05月出版新書

2024年04月出版新書

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

2023年09月出版新書

『簡體書』数据科学理论与实践

書城自編碼: 3075366
分類: 簡體書→大陸圖書→教材研究生/本科/专科教材
作者: 朝乐门
國際書號(ISBN): 9787302480549
出版社: 清华大学出版社
出版日期: 2017-11-01
版次: 1
頁數/字數: 294/475000
書度/開本: 16开 釘裝: 平装

售價:NT$ 425

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
爱丁堡古罗马史-罗马城的起源和共和国的崛起
《 爱丁堡古罗马史-罗马城的起源和共和国的崛起 》

售價:NT$ 349.0
大宋悬疑录:貔貅刑
《 大宋悬疑录:貔貅刑 》

售價:NT$ 340.0
人生解忧:佛学入门四十讲
《 人生解忧:佛学入门四十讲 》

售價:NT$ 490.0
东野圭吾:分身(东野圭吾无法再现的双女主之作 奇绝瑰丽、残忍又温情)
《 东野圭吾:分身(东野圭吾无法再现的双女主之作 奇绝瑰丽、残忍又温情) 》

售價:NT$ 295.0
浪潮将至
《 浪潮将至 》

售價:NT$ 395.0
在虚无时代:与马克斯·韦伯共同思考
《 在虚无时代:与马克斯·韦伯共同思考 》

售價:NT$ 260.0
日内交易与波段交易的资金风险管理
《 日内交易与波段交易的资金风险管理 》

售價:NT$ 390.0
自然信息图:一目了然的万物奇观
《 自然信息图:一目了然的万物奇观 》

售價:NT$ 640.0

建議一齊購買:

+

NT$ 310
《 R语言与数据可视化 》
+

NT$ 425
《 Python机器学习实践:测试驱动的开发方法 》
+

NT$ 425
《 实用数据分析(原书第2版) 》
+

NT$ 497
《 数据思维:从数据分析到商业价值 》
+

NT$ 929
《 数据挖掘与分析 概念与算法 》
+

NT$ 1210
《 深度学习 》
編輯推薦:
朝乐门老师的《数据科学理论与实践》是一本值得推荐的优秀教材。陈国良(中国科学院院士)
朝老师的《数据科学理论与实践》是一本通俗易懂且充满智慧,读了之后有收获与感动的精品教材,让我觉得相见恨晚!庞艳蓓(哥伦比亚大学硕士研究生中国人民大学本科生)
Data Science is transforming every sphere of human endeavor. His book is an invaluable resource to anyone who wants to create the future. 数据科学正在改变着人类探索的每一个领域。对于致力于创造未来的人们,朝乐门老师的这本书是无价之宝。Leon Katsnelson IBM全球战略合作总监与数据科学社区首席技术官
內容簡介:
本书重点讲解数据科学的核心理论与代表性实践,在编写过程中充分借鉴了国外著名大学设立的相关课程以及全球畅销的外文专著,而且也考虑到了国内相关课程定位与专业人才的培养需求。
全书共包括8个部分: 数据科学的基础理论、理论基础、流程与方法、技术与工具、数据产品及开发、典型案例及实践、R语言学习笔记与参考手册以及数据科学的重要资源。
本书的读者范围广,可以满足数据科学与大数据技术、计算机科学与技术、管理工程、工商管理、数据统计、数据分析、信息管理与信息系统等多个专业的老师、学生含硕士生和博士生的教学与自学需要。作者以本教材为基础,将提供MOOC公开课,助力培养数据科学领域的人才。
關於作者:
朝乐门,1979年生,中国人民大学数据工程与知识工程教育部重点实验室、信息资源管理学院副教授,博士生导师;章鱼大数据首席数据科学家;中国计算机学会信息系统专委员会委员、ACM高级会员、国际知识管理协会正式委员、全国高校大数据教育联盟大数据教材专家指导委员会委员;主持完成国家自然科学基金、国家社会科学基金等重要科学研究项目10余项;参与完成核高基、973、863、国家自然科学基金重点项目、国家社会科学基金重大项目等国家重大科研项目10余项;获得北京市中青年骨干教师称号、国际知识管理与智力资本杰出成就奖、EmeraldEFMD国际杰出博士论文奖、国家自然科学基金项目优秀项目、中国大数据学术创新奖、中国大数据创新百人榜单、中国人民大学优秀博士论文奖等多种奖励30余项。朝乐门是我国第一部系统阐述数据科学理念、理论、方法、技术和工具的重要专著《数据科学》(清华大学出版社,2016)的作者,也是数据科学与大数据技术专业第一个领域本体DataScienceOntology研发团队的总负责人。
目錄
目录
第1章基础理论

如何开始学习

1.1术语定义

1.2研究目的

1.3发展简史

1.4理论体系

1.5基本原则

1.6数据科学家

如何继续学习

习题

参考文献

第2章理论基础

如何开始学习

2.1数据科学的学科地位

2.2统计学

2.3机器学习

2.4数据可视化

如何继续学习

习题

参考文献

第3章流程与方法

如何开始学习

3.1基本流程

3.2数据加工

3.3数据审计

3.4数据分析

3.5数据可视化

3.6数据故事化

3.7项目管理

如何继续学习

习题

参考文献

第4章技术与工具

如何开始学习

4.1技术体系

4.2MapReduce

4.3Hadoop

4.4Spark

4.5NoSQL与NewSQL

4.6R与Python

4.7发展趋势

如何继续学习

习题

参考文献

第5章数据产品及开发

如何开始学习

5.1定义

5.2主要特征

5.3关键活动

5.4数据柔术

5.5数据能力

5.6数据战略

5.7数据治理

如何继续学习

习题

参考文献

第6章典型案例及实践

如何开始学习

6.12012年美国总统大选

6.2统计分析

6.3机器学习

6.4数据可视化

6.5SparkR编程

如何继续学习

习题

参考文献

附录AR语言学习笔记与参考手册

学习与参考指南

1. R变量定义方法

2. R语句的写法

3. R中的赋值语句

4. R的文件读写路径当前工作目录

5. R的变量查找机制搜索路径

6. R中查看帮助的方法

7. R区分大小写字母

8. R的注释

9. R的语句

10. R中的变量命名规范

11. R中的关键字保留字

12. R中的默认数据类型

13. R中数据类型的判断与强制类型转换

14. R中的向量

15. R中的列表

16. R中的数据框

17. R中的因子类型

18. R中的循环语句

19. R中的选择语句

20. R中的特殊运算符

21. R中的快速生成数列的方法

22. R中自定义函数

23. R中常用的数学函数

24. R中的字符串处理函数

25. R中的常用统计函数

26. R中的随机数

27. R包的用法

28. R中的矩阵

29. R中的数组

30. R中的面向对象编程

31. R中的S4类

32. R中的数据可视化

33. R的输入输出

34. R中的正则表达式

35. R的数据集

36. R第三方包R的灵魂

37. 基于R的数据加工

附录B数据科学的重要资源

1. 学术期刊

2. 国际会议

3. 研究机构

4. 课程资源

5. 硕士学位项目

6. 专家学者

7. 相关工具

附录C术语索引

后记










图目录
图11DIKW金字塔2

图12数据与数值的区别3

图13大数据的本质4

图14大数据的特征5

图15DIKUW模型及应用8

图16数据洞见8

图17业务数据化与数据业务化9

图18常用驱动方式9

图19数据的层次性9

图110大数据生态系统10

图111Gartner技术成熟度曲线11

图112数据科学的萌芽期(19742009年)11

图113数据科学的快速发展期(20102013年)12

图114数据科学的逐渐成熟期(2014年至今)13

图115数据科学的理论体系14

图116数据科学的主要内容15

图117数据科学的三世界原则16

图118数据科学的三个要素及3C精神17

图119数据范式与知识范式的区别18

图120数据管理范式的变化18

图121大数据的资产属性19

图122常用驱动方式20

图123CAPTCHA项目21

图124ReCAPTCHA项目21

图125数据与算法之间的关系22

图126BellKors Pragmatic Chaos团队获得Netflix奖23

图127Netflix奖公测结果23

图128RStudio中编辑Markdown的窗口25

图129数据科学家团队28

图130学习数据科学的四则原则29

图21数据科学的理论基础35

图22统计方法的分类(目的与思路视角)37

图23统计学中的数据推断37

图24数据统计方法的类型(方法论视角)38

图25数据统计基本方法38

图26元分析与基本分析39

图27GFT预测与美国疾病控制中心数据的对比40

图28GFT估计与实际数据的误差(2013年2月)40

图29大数据时代的思维模式的转变41

图210西洋双陆棋42

图211自动驾驶42

图212机器学习的基本思路42

图213机器学习的三要素44

图214机器学习的类型45

图215KNN算法的基本步骤46

图216决策树示例识别鸟类48

图217感知器示例50

图218前向神经网络50

图219归纳学习与分析学习52

图220增强学习53

图221IBM Watson54

图222Pepper机器人54

图223机器学习及其应用55

图224Anscombe四组数据的可视化57

图225John Snow的鬼地图(Ghost Map)58

图31数据科学的基本流程62

图32量化自我63

图33整齐数据与干净数据的区别64

图34整齐数据示意图64

图35残差67

图36数据分析的类型68

图37Analytics 1.0~3.069

图38数据加工方法70

图39数据审计与数据清洗71

图310缺失数据的处理步骤72

图311冗余数据的处理方法72

图312数据分箱处理的步骤与类型73

图313均值平滑与边界值平滑74

图314内容集成76

图315结构集成76

图316数据脱敏处理77

图317数据连续性的定义及重要性81

图318可视化审计82

图319Gartner分析学价值扶梯模型83

图320冰激凌的销量与谋杀案的发生数量84

图321数据分析的类型86

图322拿破仑进军俄国惨败而归的历史事件的可视化87

图323可视化分析学的相关学科87

图324可视化分析学模型88

图325数据可视化的方法体系89

图326视觉图形元素与视觉通道89

图327雷达图示例89

图328齐美尔连带89

图329视觉隐喻的示例美国政府机构的设置90

图330地铁路线图的创始人Henry Beck91

图331Henry Beck的伦敦地铁线路图91

图332视觉突出的示例92

图333完图法则的示例92

图334视觉通道的选择与展示94

图335视觉通道的精确度对比94

图336视觉通道的可辨认性某公司产品销售示意图95

图337视觉通道的可分离性差95

图338上下文导致视觉假象196

图339上下文导致视觉假象296

图340对亮度和颜色的相对判断容易造成视觉假象的示例96

图341数据可视化与数据故事化描述97

图342数据的故事化描述及故事的展现98

图343项目管理的主要内容101

图344数据科学项目的基本流程102

图41大数据产业全景图107

图42基础设施108

图43分析工具109

图44企业应用109

图45行业应用110

图46跨平台基础设施和分析工具110

图47开源系统111

图48数据源与Apps111

图49数据资源111

图410MapReduce执行过程113

图411MapReduce对中间数据的处理116

图412以MapReduce为核心和以YARN为核心的软件栈对比118

图413下一代MapReduce框架118

图414Apache Hadoop官网119

图415Apache Hadoop生态系统119

图416Hadoop MapReduce数据处理流程121

图417Apache Hive官网122

图418Apache Pig官网123

图419Apache Mahout官网124

图420Apache HBase官网125

图421HBase与Hadoop项目125

图422HBase逻辑模型126

图423Apache Zookeeper官网127

图424Apache Flume官网127

图425Apache Sqoop官网128

图426Spark 技术架构130

图427Spark执行流程130

图428Spark Scheduler134

图429传统关系数据库的优点与缺点136

图430关系数据库与NoSQL数据库之间的关系138

图431NoSQL数据分布的两个基本途径139

图432分片处理140

图433主从复制141

图434对等复制142

图435数据不一致性142

图436CAP理论143

图437Memcached官网146

图438一致性散列的分配方式147

图439服务器增加时的变化147

图440计算模式的演变150

图441数据管理的新变化152

图51数据产品开发中的数据与数据柔术157

图52数据产品开发与数据柔术160

图53数据产品的多样性160

图54数据产品的层次性161

图55Google全球商机洞察(Global Market Finder)162

图56数据产品链162

图57传统产品开发与数据产品开发的区别163


图58D J Patil164

图59UIUser Interface设计方案与设计思维165

图510Goolge搜索的用户体验166

图511人与计算机图像内容识别能力的不同166

图512Amazon MTurk平台168

图513HIT生命周期168

图514基于人与计算机的数据处理成本曲线169

图515亚马逊数据产品:
其他商家(Other Sellers)170

图516LinkedIn的数据产品你可能认识的人们(People You May Know)170

图517LinkedIn的数据产品你的观众是谁171

图518逆向交互定律172

图519LinkedIn数据产品职位推荐174

图520LinkedIn的数据产品帮助你的朋友找到工作174

图521Facebook的良好用户体验175

图522DMM基本思路175

图523CMM基本思想177

图524CMM成熟度等级177

图525DMM关键过程域178

图526DMM层级划分及描述180

图527IDEAL模型182

图528机构数据管理能力成熟度评估结果的可视化182

图529数据战略与目标的区别183

图530数据战略的目标183

图531数据战略的侧重点184

图532数据战略的影响因素184

图533数据管理与数据治理的区别185

图534IBM提出的企业数据管理的范畴186

图535数据治理的PDCA模型187

图536DGI数据治理框架188

图61奥巴马2012年总统竞选芝加哥总部191

图62George Clooney192

图63Sarah Jessica Parker192

图64奥巴马及快速捐赠计划193

图65奥巴马通过Reddit与选民互动195

图66女性体重与身高的线性回归分析198

图67KMeans算法的基本步骤208

图68工资数据的可视化215

图69起飞延误时间227

图610落地延误时间227

图附A1如何参考附录A232










表目录
表11结构化数据、非结构化数据与半结构化数据的区别与联系3

表12某数据科学家的画像(Profile)27

表21参数估计与假设检验37

表22机器学习的相关学科45

表23已知6部电影的类型及片中出现的接吻和打斗次数47

表24已知电影与未知电影的距离47

表25分析学习和归纳学习的比较52

表26Anscombe四组数据(Anscombes Quartet)56

表31测试数据A65

表32测试数据B65

表33测试数据C65

表34Pew论坛部分人员信仰与收入数据统计(整齐化处理之前)65

表35Pew论坛部分人员信仰与收入数据统计(整齐化处理之后)66

表36探索性统计中常用的集中趋势统计量67

表37探索性统计中常用的离散程度统计量67

表38探索性统计中常用的数据分布统计量67

表39数据变换的类型74

表310十进制首位数字的出现概率80

表311数据分析中常见错误85

表312数据类型及所支持的操作类型93

表313数据类型与视觉通道的对应关系图93

表314数据故事化中的应该与不应该99

表315数据科学项目中的主要角色及其任务101

表41RDD常用的Transformation132

表42RDD常用的Actions132

表43RDD的存储级别133

表44R与Spark数据类型的映射关系135

表45典型云数据库产品138

表46NoSQL中常用的数据模型139

表47R与Python对比149

表48云计算的层次性151

表51数据转换与数据加工的区别158

表52谷歌十大产品与服务158

表53数据管理成熟度模型的过程域分类179

表61数据集Women195

表62Protein数据集206

表63Salaries数据集213

表64Spark版本差异性220

表65Spark与R的数据类型对比220

表66SparkR与sparklyr比较228
內容試閱


大数据时代的到来催生了一门新学科数据科学,并在全球范围内引发了相关课程和专业建设的大讨论。核心教材的开发是课程设计与专业建设的关键环节。作为一门新兴学科,数据科学与大数据技术类课程亟待一批优秀教材来揭示其核心理论体系及代表性实践。为此,全国高校大数据教育联盟于2016年牵头成立数据科学与大数据技术教材专家指导委员会,并特邀中国人民大学朝乐门老师主持《数据科学理论与实践》一书的编写工作。
不负众望,朝乐门老师完成了一本极具特色的、高水平优秀教材。本书的主要特色包括以下四点。
一是坚持系统性与重点突出并重。本书并不是相关知识的简单汇编,不仅给出了数据科学的知识体系,而且还重点讲解了一些关键细节性知识和新知识,如数据产品开发、数据加工、数据故事化描述和数据连续性保障等。
二是重视理论与实践相结合。数据科学是一门实践性很强的课程,不但需要扎实的理论功底,而且还要具备丰富的实战经验。为此,本书吸收了国内外重要的研究进展与实践经验。
三是遵循教与学的规律。每章的开始和结尾之处分别给出了如何开始学习和如何继续学习,并以图表、小故事形式解读重要知识点,使得原本有所枯燥的课程变得有趣,不仅提升了教材的可读性,更重要的是培养了学生的学习信心与兴趣。
四是力争继承与创新相结合。本书不仅吸收了国内外相关领域的最新研究成果,而且结合作者自己的研究,有很强的系统性和前瞻性,体现了作者的科学态度、坚实理论功底和独到见解。
继《数据科学》一书出版以来,朝乐门老师专注于数据科学与大数据技术的研究,在数据科学理论与实践方面做出了诸多有益探索。他的认真负责、开拓进取、刻苦钻研的做事态度值得鼓励。在此,也希望更多的专家学者加入数据科学队伍之中,本书将是带您走进数据科学与大数据技术之门的金钥匙。

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 台灣用户 | 香港/海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.