新書推薦:
《
女人的胜利
》
售價:NT$
254.0
《
数据有道:数据分析+图论与网络+微课+Python编程(鸢尾花数学大系:从加减乘除到机器学习)
》
售價:NT$
1214.0
《
500万次倾听:陪伤心的人聊聊
》
售價:NT$
245.0
《
英国商业500年(见证大国崛起与企业兴衰,启迪未来商业智慧。)
》
售價:NT$
367.0
《
万千心理·儿童心理治疗中的心智化:临床实践指导
》
售價:NT$
398.0
《
自我囚禁的人:完美主义的心理成因与自我松绑(破除你对完美主义的迷思,尝试打破自我评价过低与焦虑的恶性循环)
》
售價:NT$
301.0
《
周易
》
售價:NT$
203.0
《
东南亚的传统与发展
》
售價:NT$
306.0
編輯推薦:
《数据科学实用算法》将重点讲述数据分析的基石算法。要成为一名数据分析专家,你必须了解算法原理,否则会产生挫败感、进入死胡同、浪费时间以及失败。本书将基本原理、算法和数据融为一体,提供大量Python和R代码,执行真实的数据分析,帮助你熟练编写程序,处理富有挑战性的数据。在学习过程中,你将沉浸在Python中,深入了解数据科学的基本算法和方法,获得根据新问题改编算法和进行创新分析的能力。
《数据科学实用算法》面向数学、统计学和计算机科学专业的高年级本科生和研究生,可用作一学期或两学期的数据分析课本。先修科目要求不高,学过一两门概率论或统计学课程、接触过向量和矩阵、学过编程课程的学生不会遇到任何困难。每章结尾处通常进行扩展,介绍数据科学从业者感兴趣的创新内容,提供不同难度的练习。本书也非常适合自学,可作为从业人员的参考书籍。
內容簡介:
《数据科学实用算法》分为三部分。第I部分“数据约简”首先讨论数据约简和数据映射等概念,然后讲述关联统计、可扩展算法和分布式计算等基础知识。第II部分“从数据中提取信息”呈现线性回归、数据可视化和聚类分析等主题,用一章的篇幅介绍医疗分析的关键领域。第III部分“预测分析”通过开发两个基本且广泛使用的预测函数k近邻和朴素贝叶斯向读者介绍预测分析技术,用一章的篇幅专门论述预报,*后一章重点介绍数据流。
關於作者:
Brian Steele是蒙大拿州立大学的数学教授,是SoftMath咨询公司的资深数据科学家。 Steele博士发表过多篇关于EM算法、精确bagging、bootstrap和诸多统计应用的技术文章。Steele主要讲授数据分析和统计课程,并为客户提供与数据科学和统计有关的咨询。
John Chandler自1999年以来一直从事最前沿的营销和数据分析工作,曾帮助多家《财富》100强公司评价广告效果,改善绩效。Chandler博士从2015年开始在蒙大拿州立大学商学院担任市场营销教授,讲授高级营销分析和数据科学课程。Chandler也是Ars Quanta咨询公司的创始人和首席数据科学家。
Swarna Reddy是蒙大拿州立大学数学系教授,也是SoftMath咨询公司的创始人、首席执行官和资深数据科学家。Reddy专门研究计算数学和运筹学,曾发表过多篇论文,已开发出多个重大的生物信息学、网络安全和商业分析方案。
目錄 :
第I部分 数据约简
第1 章 数据科学概述3
1.1 什么是数据科学?3
1.2 美国的糖尿病数据5
1.3 《联邦党人文集》的作者数据6
1.4 预测纳斯达克股价8
1.5 述评9
1.6 关于本书10
1.7 算法12
1.8 Python语言13
1.9 R语言13
1.10 术语和符号14
1.11 本书网站16
第2 章 数据映射和数据字典17
2.1 数据约简17
2.2 政治捐款18
2.3 字典19
2.4 教程:大金主20
2.5 数据约简24
2.5.1 符号和术语24
2.5.2 政治捐款示例25
2.5.3 映射26
2.6 教程:选举周期捐款27
2.7 相似度度量33
2.8 教程:计算相似度37
2.9 关于字典的总结性述评41
2.10 练习41
2.10.1 概念练习41
2.10.2 计算练习42
第3 章 可扩展算法和联合统计45
3.1 引言45
3.2 示例:美国的肥胖症数据46
3.3 关联统计数据47
3.4 单变量观测48
3.4.1 直方图50
3.4.2 直方图的构建51
3.5 函数52
3.6 教程:直方图的构建53
3.7 多变量数据65
3.7.1 符号和术语65
3.7.2 估计量66
3.7.3 增广矩矩阵69
3.7.4 述评70
3.8 教程:计算相关矩阵70
3.9 线性回归简介77
3.9.1 线性回归模型77
3.9.2 的估计值78
3.9.3 准确性评估81
3.9.4 计算82
3.10 教程:计算83
3.11 练习89
3.11.1 概念练习89
3.12.2 计算练习90
第4 章 Hadoop和MapReduce93
4.1 引言93
4.2 Hadoop生态系统94
4.2.1 Hadoop分布式文件系统94
4.2.2 MapReduce95
4.2.3 映射96
4.2.4 约简97
4.3 开发Hadoop应用程序98
4.4 医疗保险支付98
4.5 命令行环境99
4.6 教程:编程实现MapReduce算法100
4.6.1 映射器102
4.6.2 约简器105
4.6.3 概要108
4.7 教程:使用亚马逊网络服务109
4.8 练习113
4.8.1 概念练习113
4.8.2 计算练习113
第II部分 从数据中提取信息
第5 章 数据可视化117
5.1 引言117
5.2 数据可视化的原则118
5.3 做出正确选择121
5.3.1 单变量数据122
5.3.2 双变量和多变量数据125
5.4 利用好这台机器132
5.4.1 绘制图5.2134
5.4.2 绘制图5.3135
5.4.3 绘制图5.4136
5.4.4 绘制图5.5136
5.4.5 绘制图5.8138
5.4.6 绘制图5.10139
5.4.7 绘制图5.11140
5.5 练习141
第6 章 线性回归方法143
6.1 引言143
6.2 线性回归模型144
6.2.1 示例:抑郁症、宿命论和简单化145
6.2.2 最小二乘法147
6.2.3 置信区间149
6.2.4 分布条件150
6.2.5 假设检验151
6.2.6 警示语154
6.3 R语言简介155
6.4 教程:R语言156
6.5 教程:大数据集和R语言159
6.6 因子164
6.6.1 交互166
6.6.2 扩展平方和F检验168
6.7 教程:共享单车171
6.8 残差分析175
6.8.1 线性176
6.8.2 示例:共享单车问题177
6.8.3 独立性179
6.9 教程:残差分析182
6.10 练习185
6.10.1 概念练习185
6.10.2 计算练习185
第7 章 医疗分析189
7.1 引言189
7.2 行为风险因素监测系统190
7.2.1 患病率的估计192
7.2.2 发病率的估计193
7.3 教程:糖尿病的患病率和发病率194
7.4 预测具有患病风险的个人203
7.5 教程:确认具有患病风险的个体208
7.6 非寻常的人口特征213
7.7 教程:构建近邻集合215
7.8 练习219
7.8.1 概念练习219
7.8.2 计算练习220
第8 章 聚类分析223
8.1 引言223
8.2 凝聚层次聚类224
8.3 各州间的对比225
8.4 教程:各州的层次聚类228
8.5 k均值算法235
8.6 教程:k均值算法236
8.7 练习242
8.7.1 概念练习242
8.7.2 计算练习242
第III部分 预测分析
第9 章 k近邻预测函数247
9.1 引言247
9.2 符号和术语249
9.3 距离度量251
9.4 k近邻预测函数252
9.5 指数加权k近邻253
9.6 教程:数字识别255
9.7 准确性估计262
9.8 k近邻回归264
9.9 预测标准普尔500指数265
9.10 教程:利用模式回归进行预测266
9.11 交叉验证273
9.12 练习275
9.12.1 概念练习275
9.12.2 计算练习275
第10 章 多项式朴素贝叶斯预测函数279
10.1 引言279
10.2 联邦党人文集280
10.3 多项式朴素贝叶斯预测函数281
10.4 教程:约简《联邦党人文集》285
10.5 教程:预测有争议的《联邦党人文集》的作者291
10.6 教程:客户细分294
10.6.1 加法平滑295
10.6.2 数据296
10.6.3 述评303
10.7 练习303
10.7.1 概念练习303
10.7.2 计算练习304
第11 章 预报307
11.1 引言307
11.2 教程:处理时间309
11.3 分析方法313
11.3.1 符号313
11.3.2 均值和方差的估计313
11.3.3 指数预报315
11.3.4 自相关316
11.4 教程:计算318
11.5 漂移和预报322
11.6 Holt-Winters指数型预报323
11.7 教程:Holt-Winters预报326
11.8 基于回归的股价预报330
11.9 教程:基于回归的预报331
11.10 时变回归预报器336
11.11 教程:时变回归预报器337
11.12 练习339
11.12.1 概念练习339
11.12.2 计算练习339
第12 章 实时分析343
12.1 引言343
12.2 用纳斯达克报价数据流进行预报344
12.3 教程:预报Apple公司信息流346
12.4 Twitter信息流API351
12.5 教程:访问Twitter数据流352
12.6 情感分析357
12.7 教程:主题标签分组的情感分析358
12.8 练习360
附录 A 练习答案363
附录 B 使用Twitter API377
参考文献379
內容試閱 :
前言
自2001年以来,数据科学被公认为一门科学。其根源在于技术的进步产生了几乎不可思议的海量数据。我们已经意识到,新数据的产生速度在一段时间内不太可能放缓,我们需要研究产生这些数据的系统和过程。原始数据的价值较小;矛盾的是,此类数据越多,价值越低。必须对其进行约简,以便从中提取真正有用的价值。从数据中提取信息是数据科学的主题。
成为一名成功的数据科学实践者是一项真正的挑战。所学的知识包含统计学、计算机科学乃至数学等多领域的主题。此外,特定领域的知识也非常有用,即使这些知识未必是关键知识。为这些领域培养学生是非常有必要的。但某些时候,这些学科领域需要作为连贯的一揽子方案汇集在一起,成为一门课程数据科学data science。一个未学习数据科学课程的学生就没有为实践数据科学做好充分准备。《数据科学实用算法》作为一门课程的主干,介绍了主要的学科领域。
我们已注意到雇主对初级数据科学家的需求,以及这些新数据科学家所缺乏的技能。其中最缺乏的是编程能力。从教育者的角度看,我们要讲授原则和理论,让学生自行学习所需的具体知识。我们不可能教给他们职业生涯中所需的一切知识,即使是短期内的也不可能。但教学原则和基础是为独立学习做好充分准备。
《数据科学实用算法》要研究数据约简原理,分析数据科学中的核心算法。了解基本原理对于适应现有算法和创建新算法至关重要。《数据科学实用算法》为读者提供了许多提高编程技能的机会。每个详细讨论的算法都有一个指南,引导读者通过Python或R实现算法,然后将算法应用于真实的数据集。为便于描述,我们自编的编码命令清除了一些重要的预测分析算法。
《数据科学实用算法》主要针对两类读者。第一类读者是数据科学、统计学、数学和计算机科学相关领域的实践者。如果这些读者有兴趣提高分析能力也许他们的目标是成为一名数据科学家,那么他们就会阅读《数据科学实用算法》。第二类读者是数据科学、商业分析、数学、统计和计算机科学的高年级本科生和研究生,这些读者将参加数据分析课程或自学课程的学习。
根据读者水平的不同,《数据科学实用算法》可用于一到两个学期的数据分析课程。如果用于一学期的课程,那么教师可采用多种方式选择课程内容。所有方式都要选择第1章和第2章,以便牢固树立数据约简和数据字典的概念。
1 如果教学重点是计算,那么务必学习第3章、第4章和第12章。第3章和第4章讨论用于大规模数据和分布式计算的方法。第12章是关于流数据的,所以这一章是结束课程的好选择。第7章介绍医疗分析,这一章是可选的,可在时间允许的情况下讲授;该章涉及较多具有挑战性的数据集,这些数据集为学生和教师提供了许多接触有趣项目的机会。
2 面向一般分析方法的课程可跳过第3章和第4章,而选择讲授第5章 数据可视化和第6章 线性回归方法。最后选择第9章k近邻预测函数以及第11章预报。
3 面向预测分析的课程将侧重于第9章和第10章多项式朴素贝叶斯预测函数。最后选择第11章预报和第12章实时分析。