新書推薦:
《
台风天(大吴作品,每一种生活都有被看见的意义)
》
售價:NT$
245.0
《
打好你手里的牌(斯多葛主义+现代认知疗法,提升当代人的心理韧性!)
》
售價:NT$
301.0
《
新时代硬道理 广东寻路高质量发展
》
售價:NT$
352.0
《
6S精益管理实战(精装版)
》
售價:NT$
458.0
《
异域回声——晚近海外汉学之文史互动研究
》
售價:NT$
500.0
《
世界文明中的作物迁徙:聚焦亚洲、中东和南美洲被忽视的本土农业文明
》
售價:NT$
454.0
《
无端欢喜
》
售價:NT$
347.0
《
股票大作手操盘术
》
售價:NT$
245.0
|
編輯推薦: |
《Python数据科学导论》部分内容已用于西班牙巴塞罗那大学“数据科学和大数据”课程。本书具有如下特色:
1 提供了许多基于真实世界数据的实际案例研究。
2 通过使用Python解决数据科学问题的实践经验来加深理解。
3 介绍了用于统计分析、机器学习、图像分析和并行编程的技术和工具。
4 回顾了数据科学的一系列应用,包括推荐系统和基于文本数据的情感分析。
5 在相关网站上提供了补充代码资源和数据(见本书前言)。
|
內容簡介: |
《Python数据科学导论》通过理论与实践相结合的方式来阐述数据科学的一系列重要概念及算法,以使读者学会如何管理并利用数据。本书共有11章,第1章概要地介绍了数据科学的现状并给出了一些使用本书的建议;第2章介绍了Python语言数据科学生态系统,涉及NumPy、SciPy和Pandas等热门第三方库;第3~7章着重讲解了统计学和机器学习的知识,涉及描述统计学、统计推断、监督学习、回归分析、无监督学习等主题;第8~10章详细介绍了数据科学的一些主要应用,如网络分析、推荐系统和情感分析;第11章介绍了并行计算及性能优化方法。
|
關於作者: |
Laura Igual博士是巴塞罗那大学数学和计算机科学系的副教授。她于2000 年获得西班牙瓦伦西亚大学的数学学位,并于2006 年获得西班牙庞培法布拉大学的博士学位。她的研究领域包括计算机视觉、医学成像、机器学习和数据科学。
Santi Seguí博士是巴塞罗那大学数学和计算机科学系的助理教授。自2007 年起,他担任了西班牙巴塞罗那自治大学的计算机科学工程师。他于2011 年获得西班牙巴塞罗那大学的博士学位。他的研究领域包括计算机视觉、应用机器学习和数据科学。
|
目錄:
|
译者序
原书前言
作者和贡献者简介
第1章 数据科学概述 1
1.1 什么是数据科学 1
1.2 关于本书 2
第2章 数据专家的工具箱 4
2.1 引言 4
2.2 为什么选择Python 4
2.3 数据专家的基本Python库 5
2.3.1 数值和科学计算:NumPy和SciPy 5
2.3.2 Scikit-learn:Python中的机器学习库 5
2.3.3 Pandas:Python数据分析库 5
2.4 数据科学生态系统的安装 6
2.5 集成开发环境 6
2.5.1 网络集成开发环境:Jupyter 7
2.6 数据专家从Python开始 7
2.6.1 读取 11
2.6.2 选择数据 13
2.6.3 筛选数据 14
2.6.4 筛选缺失的数据 15
2.6.5 处理数据 15
2.6.6 排序 19
2.6.7 分组数据 20
2.6.8 重排数据 21
2.6.9 对数据进行排名 22
2.6.10 绘图 23
2.7 小结 24
第3章 描述统计学 25
3.1 引言 25
3.2 数据准备 25
3.2.1 Adult数据集示例 26
3.3 探索性数据分析 28
3.3.1 汇总数据 28
3.3.2 数据分布 31
3.3.3 离群点的处理 33
3.3.4 测量不对称性:偏度和皮尔逊中值偏度系数 36
3.3.5 连续分布 38
3.3.6 核密度 39
3.4 估计 41
3.4.1 样本和估计均值、方差和标准记分 41
3.4.2 协方差、皮尔逊相关和斯皮尔曼秩相关 42
3.5 小结 44
参考文献 45
第4章 统计推断 46
4.1 引言 46
4.2 统计推断:频率论方法 46
4.3 测量估计的差异性 47
4.3.1 点估计 47
4.3.2 置信区间 50
4.4 假设检验 53
4.4.1 用置信区间检验假设 53
4.4.2 使用p值检验假设 55
4.5 效应E是真实的吗 57
4.6 小结 57
参考文献 58
第5章 监督学习 59
5.1 引言 59
5.2 问题 60
5.3 第一步 60
5.4 什么是学习? 69
5.5 学习曲线 70
5.6 训练、验证和测试 73
5.7 两种学习模型 76
5.7.1 学习三要素 76
5.7.2 支持向量机 77
5.7.3 随机森林 79
5.8 结束学习过程 80
5.9 商业案例 81
5.10 小结 83
参考文献 83
第6章 回归分析 84
6.1 引言 84
6.2 线性回归 84
6.2.1 简单线性回归 85
6.2.2 多元线性回归和多项式回归 90
6.2.3 稀疏模型 90
6.3 逻辑斯蒂回归 97
6.4 小结 99
参考文献 99
第7章 无监督学习 100
7.1 引言 100
7.2 聚类 100
7.2.1 相似度和距离 101
7.2.2 什么是一个好的聚类?定义衡量聚类质量的度量 101
7.2.3 聚类技术的分类标准 104
7.3 案例学习 113
7.4 小结 118
参考文献 119
第8章 网络分析 120
8.1 引言 120
8.2 图的基本定义 121
8.3 社交网络分析 122
8.3.1 NetworkX基础 122
8.3.2 实际案例:Facebook数据集 123
8.4 中心性 125
8.4.1 在图中绘制中心性 130
8.4.2 PageRank 132
8.5 自我网络 134
8.6 社区发现 138
8.7 小结 139
参考文献 139
第9章 推荐系统 140
9.1 引言 140
9.2 推荐系统如何工作? 140
9.2.1 基于内容的过滤 141
9.2.2 协作过滤 141
9.2.3 混合推荐系统 141
9.3 建模用户偏好 142
9.4 评估推荐系统 142
9.5 实际案例 143
9.5.1 MovieLens数据集 143
9.5.2 基于用户的协作过滤 145
9.6 小结 153
参考文献 153
第10章 用于情感分析的统计自然语言处理 154
10.1 引言 154
10.2 数据清洗 155
10.3 文本表示 158
10.3.1 二元组和n元组 163
10.4 实际案例 163
10.5 小结 168
参考文献 168
第11章 并行计算 169
11.1 引言 169
11.2 架构 170
11.2.1 入门指南 171
11.2.2 连接到集群(引擎) 171
11.3 多核编程 172
11.3.1 引擎的直接视图 172
11.3.2 引擎的负载均衡视图 175
11.4 分布式计算 176
11.5 实际应用:纽约出租车旅行 177
11.5.1 直接视图非阻塞方案 178
11.5.2 实验结果 180
11.6 小结 182
参考文献 182
|
內容試閱:
|
《Python数据科学导论》的主题范围
在这个时代,来自不同领域的大量信息被收集和存储,其分析和价值提取已成为公司和社会普遍关注的课题之一。需要多学科团队共同设计方案来解决数据带来的新问题。计算机科学家、统计学家、数学家、生物学家、记者和社会学家以及其他许多人现在一起工作,以便从数据中提供知识。这个新的跨学科领域被称为数据科学(data science)。
任何数据科学都涉及提出正确的问题、收集数据、清洗数据、生成假设、做出推断、可视化数据和评估解决方案等环节。
《Python数据科学导论》的组织和特点
本书是对数据科学的概念、技术和应用的介绍。内容侧重于数据分析,涵盖统计学和机器学习的概念,图像分析技术和并行编程技术以及推荐系统或情感分析等应用。
本书所有章节都通过使用真实数据的实际案例来阐述新概念。本书使用了欧盟统计局、不同的社交网络以及MovieLens等公共数据库。有关数据的具体问题在每章中都有提出。这些问题的解决方案是使用Python编程语言实现的,并在代码框中进行了恰当的展示。这
使得读者可以通过解决问题来学习数据科学,做到举一反三。
本书不打算涵盖整套数据科学方法,也不提供完整的参考文献。目前,数据科学是一个日益增长的新兴领域,因此我们鼓励读者使用网络中的关键词来寻找具体的方法和文献。
目标读者
《Python数据科学导论》面向高年级本科生和一年级的工科研究生。此外,本书还面向参加继续教育短期课程的专业人员和来自不同领域的自学研究人员。
计算机科学、数学和统计学的基本知识是必需的。有Python代码编程背景学习起来会更轻松。但是,即使读者不熟悉Python,也不是问题,因为在短时间内掌握Python的基础知识是可行的。
材料的先前用途
《Python数据科学导论》所提供材料的一部分已用于巴塞罗那大学“数据科学和大数据”(Data Science and Big Data)的研究生课程。本书所有的贡献者都参与了这门课程。
《Python数据科学导论》的使用建议
本书可被用于任何入门的数据科学课程。采用基于问题的方法来引入新概念对初学者来说是有帮助的。针对不同问题实现的代码解决方案对学生来说是一种很好的练习。而且,当学生面对更大的项目时,这些代码可以作为基准。
配套资源
《Python数据科学导论》附带一套IPython笔记本,其中包含解决本书实际案例所需的所有代码。笔记本可以在以下GitHub库中找到:https:github.comDataScienceUBintroduction-datasciencepython-book。
致谢
我们感谢所有的贡献者:J.Vitrià、E.Puertas、P.Radeva、O.Pujol、S.Escalera,L.Garrido和F.Dantí。
Laura Igual
Santi Seguí
西班牙巴塞罗那
|
|