新書推薦:
《
中国摄影 中式摄影的独特魅力
》
售價:NT$
4998.0
《
山西寺观艺术彩塑精编卷
》
售價:NT$
7650.0
《
积极心理学
》
售價:NT$
254.0
《
自由,不是放纵
》
售價:NT$
250.0
《
甲骨文丛书·消逝的光明:欧洲国际史,1919—1933年(套装全2册)
》
售價:NT$
1265.0
《
剑桥日本戏剧史(剑桥世界戏剧史译丛)
》
售價:NT$
918.0
《
中国高等艺术院校精品教材大系:材料的时尚表达??服装创意设计
》
售價:NT$
347.0
《
美丽与哀愁:第一次世界大战个人史
》
售價:NT$
653.0
|
編輯推薦: |
系统:立体化、全方位解读数据分析行业技能掌握路线细致:沿着需求-代码实现的思路,介绍上百个数分小技巧,适合各类读者阅读深入:18个统计学知识点,建立数据分析背后的数学思维案例:列举了多个数据分析案例,趁热打铁,理论与实践相结合
|
內容簡介: |
本书讲解主要以Python数据分析相关内容为主,还涉及数据分析背后的数学思维。全书内容主要分为三部分。*部分为Python数据分析相关技能,包括NumPy、pandas等重要的第三方库的使用技巧;第二部分为数据分析相关统计学知识,主要包含构建模型的流程、思路,以及数学原理的解析;第三部分为实战,主要是结合Python数据分析工具与统计学知识的实践操作。对于那些想要进入数据分析领域的初学者非常适合阅读本书,即使你没有扎实的Python编程基础,没有深厚的数理统计功底,依然可以通过本书的学习对数据分析技术产生浓厚的兴趣,以及对数据分析的原理与应用有更加整体的认识和理解。
|
關於作者: |
张玉皓,毕业于中国科学院大学计算机应用技术专业,在国际ROBOmaster人工智能挑战大赛上与中科院自动化所、伯克利大学、哥伦比亚大学同台竞技,荣获第八名。映客直播实习期间,参与直播间文本分析,计算直播间受欢迎指标的项目。京东实习期间,参与京东商城全品类评论短文本聚类项目,将短文本智能聚类,积累短对话语料库。毕业斩获瓜子二手车、映客、马蜂窝、百度、京东等大厂offer,最后就职于京东零售,从事NLP算法领域智能客服的优化工作。
|
目錄:
|
目 录
第1章 什么是数据分析
1.1 Python开发环境 1
1.2 数据分析的前世今生 2
1.2.1 数据分析历史 2
1.2.2 数据分析的现实应用 2
1.2.3 数据分析的技能需求 3
1.3 数据分析流程 4
1.3.1 数据导入、清洗 5
1.3.2 单变量分析 6
1.3.3 多变量分析 6
1.3.4 选择模型 6
1.3.5 估计与假设检验 7
1.3.6 可视化 8
1.4 数据分析经典案例 8
1.4.1 犯罪率的下降与法律条文的生成 8
1.4.2 利用数据观察校园作弊行为 9
1.4.3 靠统计学致富的数学家 11
1.5 数据分析的第一个实战 12
1.5.1 单变量探索 12
1.5.2 多变量分析 16
1.5.3 选择模型 21
1.5.4 假设检验 25
第2章 Python知识进阶
2.1 Python语言 28
2.1.1 Python的历史 29
2.1.2 Python的特色 29
2.2 Python技巧与进阶 31
2.2.1 数据类型方面的技巧 31
2.2.2 数字方面的使用技巧 32
2.2.3 枚举 34
2.2.4 匿名函数的应用 35
2.2.5 装饰器:语法糖 37
2.2.6 列表生成式 39
2.2.7 迭代器与生成器 39
2.3 Python编程的易错点 41
2.3.1 全局变量与局部变量 42
2.3.2 闭包 43
2.3.3 函数传参 44
2.3.4 列表和数组的区别 45
2.3.5 变量和按引用传递 45
2.3.6 None:一个独特的类型 47
2.4 小结 48
第3章 NumPy的入门与进阶
3.1 ndarray数组 49
3.1.1 ndarray数组的创建 49
3.1.2 C和Fortran顺序 51
3.2 索引 51
3.2.1 基本索引 51
3.2.2 高维数组的索引 52
3.2.3 高阶索引 54
3.3 广播机制 56
3.4 NumPy数组的运算 58
3.4.1 NumPy的数值计算 58
3.4.2 比较与排序 59
3.4.3 NumPy的数组计算 60
3.4.4 ufunc高级应用 61
3.4.5 NumPy初等函数与math内置初等函数的区别 63
3.4.6 NumPy中的多项式函数 64
3.4.7 其他功能函数 65
第4章 pandas的入门与进阶
4.1 pandas的数据结构 66
4.1.1 Series的创建 67
4.1.2 Series的数值计算 68
4.1.3 DataFrame的创建 69
4.1.4 DataFrame的基本属性 70
4.2 pandas数据结构的基本操作 72
4.2.1 转置 72
4.2.2 索引 73
4.2.3 DataFrame的关系型操作 75
4.2.4 DataFrame的画图操作 76
4.2.5 查看数据 80
4.3 pandas数据结构的进阶操作 81
4.3.1 数据导入导出 81
4.3.2 表格合并 83
4.3.3 读写文件中的编码问题 90
4.3.4 删除与替换数据 92
4.3.5 表格整体性分析 96
4.3.6 GroupBy分组运算 98
4.3.7 综合练习 103
第5章 SciPy入门与进阶
5.1 SciPy中的常数与函数 106
5.1.1 SciPy中的常数 106
5.1.2 SciPy中的special模块 107
5.2 SciPy中的科学计算工具 108
5.2.1 求解多元方程组 108
5.2.2 拟合方程 110
5.2.3 最优化算法 113
5.2.4 统计分布 116
5.2.5 积分 120
5.2.6 插值 121
第6章 可视化
6.1 可视化的魅力 124
6.1.1 别出心裁的可视化 124
6.1.2 可视化的基本理论 126
6.1.3 可视化实例 127
6.2 matplotlib第三方库的基本功能 131
6.2.1 matplotlib绘图的基础组件 131
6.2.2 饼图 134
6.2.3 条形图 139
6.2.4 散点图 142
6.2.5 折线图 145
6.2.6 箱线图 146
6.2.7 小提琴图 148
6.2.8 Basemap简单介绍 150
6.3 交互式绘图 151
6.3.1 matplotlib的简单交互式绘图 151
6.3.2 pyecharts可视化库 154
第7章 时间序列
7.1 datetime库的简单介绍 160
7.1.1 时间坐标的构造 160
7.1.2 时间和字符串的转换 161
7.2 时间序列中pandas的应用 162
7.2.1 DatetimeIndex 162
7.2.2 pandas中时间坐标的构造 163
7.2.3 PeriodIndex(时间索引类型) 164
7.2.4 采样 166
7.2.5 超前或滞后 167
7.2.6 移动窗口函数 168
7.3 时间序列的时区转换 169
第8章 数据分析中的统计学
8.1 有趣的选择 171
8.2 数据分析回答ofo多久才能退押金 172
8.3 统计学在数据分析中扮演的角色 178
8.4 数据预处理 178
8.4.1 数据清洗 178
8.4.2 数据集成 180
8.4.3 数据变换 181
8.5 特征工程 182
8.5.1 过滤法 183
8.5.2 包装法 186
8.5.3 嵌入式方法 190
8.5.4 正则化 193
8.6 模型训练 194
8.7 模型评估 199
8.8 数据分析中的其他问题 201
8.8.1 数据泄露 201
8.8.2 大数据下的数据分析 202
8.8.3 辛普森悖论 204
8.8.4 数据集的划分 205
8.8.5 优化调参 206
第9章 豆瓣电影TOP 250数据分析
9.1 项目介绍 210
9.1.1 爬虫的简单介绍 210
9.1.2 网页的构成 210
9.1.3 实战中的爬虫技术介绍 211
9.1.4 实战中数据存储与读取 215
9.1.5 实战中的界面设计 216
9.1.6 实战中的数据可视化 219
9.2 数据库操作 224
9.2.1 数据库的安装与配置 225
9.2.2 数据存储到数据库 227
9.3 数据库标准语言 228
9.3.1 创建数据库、表 229
9.3.2 表的删除与更新 229
9.3.3 查询 230
9.3.4 聚合与排序 230
9.3.5 数据更新 231
9.3.6 表的集合运算 232
9.3.7 Python和数据库语言的关系 234
第10章 Python丰富的可视化案例
10.1 turtle库的简单使用 236
10.2 北上广深租房分析可视化案例 238
10.2.1 数据爬取 238
10.2.2 读取数据 240
10.2.3 数据分析 241
第11章 Python预测应用SVM预测股票涨跌
11.1 SVM介绍 246
11.1.1 SVM原理 246
11.1.2 核函数 247
11.2 SVM实战 249
11.2.1 数据预处理 249
11.2.2 训练模型 251
11.2.3 遗传算法 252
第12章 文本分析《三国演义》:挖掘人物图谱
12.1 项目简单说明 262
12.1.1 代码分块介绍 262
12.1.2 效果图展示 265
12.2 工程具体实现 265
12.2.1 设计思想 266
12.2.2 代码详解 266
12.2.3 可视化 267
目 录
第1章 什么是数据分析
1.1 Python开发环境 1
1.2 数据分析的前世今生 2
1.2.1 数据分析历史 2
1.2.2 数据分析的现实应用 2
1.2.3 数据分析的技能需求 3
1.3 数据分析流程 4
1.3.1 数据导入、清洗 5
1.3.2 单变量分析 6
1.3.3 多变量分析 6
1.3.4 选择模型 6
1.3.5 估计与假设检验 7
1.3.6 可视化 8
1.4 数据分析经典案例 8
1.4.1 犯罪率的下降与法律条文的生成 8
1.4.2 利用数据观察校园作弊行为 9
1.4.3 靠统计学致富的数学家 11
1.5 数据分析的第一个实战 12
1.5.1 单变量探索 12
1.5.2 多变量分析 16
1.5.3 选择模型 21
1.5.4 假设检验 25
第2章 Python知识进阶
2.1 Python语言 28
2.1.1 Python的历史 29
2.1.2 Python的特色 29
2.2 Python技巧与进阶 31
2.2.1 数据类型方面的技巧 31
2.2.2 数字方面的使用技巧 32
2.2.3 枚举 34
2.2.4 匿名函数的应用 35
2.2.5 装饰器:语法糖 37
2.2.6 列表生成式 39
2.2.7 迭代器与生成器 39
2.3 Python编程的易错点 41
2.3.1 全局变量与局部变量 42
2.3.2 闭包 43
2.3.3 函数传参 44
2.3.4 列表和数组的区别 45
2.3.5 变量和按引用传递 45
2.3.6 None:一个独特的类型 47
2.4 小结 48
第3章 NumPy的入门与进阶
3.1 ndarray数组 49
3.1.1 ndarray数组的创建 49
3.1.2 C和Fortran顺序 51
3.2 索引 51
3.2.1 基本索引 51
3.2.2 高维数组的索引 52
3.2.3 高阶索引 54
3.3 广播机制 56
3.4 NumPy数组的运算 58
3.4.1 NumPy的数值计算 58
3.4.2 比较与排序 59
3.4.3 NumPy的数组计算 60
3.4.4 ufunc高级应用 61
3.4.5 NumPy初等函数与math内置初等函数的区别 63
3.4.6 NumPy中的多项式函数 64
3.4.7 其他功能函数 65
第4章 pandas的入门与进阶
4.1 pandas的数据结构 66
4.1.1 Series的创建 67
4.1.2 Series的数值计算 68
4.1.3 DataFrame的创建 69
4.1.4 DataFrame的基本属性 70
4.2 pandas数据结构的基本操作 72
4.2.1 转置 72
4.2.2 索引 73
|
內容試閱:
|
前 言
这本书是写给谁看的?
首先,本书非常适合从事数据分析行业的人员学习。从书中可以学会利用pandas批量处理数据,通过可视化技术给领导和客户带来强烈的视觉冲击。建议对这部分感兴趣的读者着重学习第4章、第6章、第12章。
其次,本书还适合在科研过程中频繁处理数据的研究人员。据我所知,尤其是生物领域的科研人员,在进行数值分析、方程拟合时,有一部分人还在使用传统的SPSS软件,不过它功能有限,也很不灵活,而通过对SciPy的学习,可以感受到Python在科学计算方面的强大功能。建议这部分读者着重学习第5章。
最后,本书对于那些有志于从事数据领域工作的读者也很有指导作用。无论你以后想从事数据分析行业,还是大数据挖掘行业,本书都可以作为一本值得入手的启蒙读物。
本书架构
第1章从总体讲解数据分析,包括其发展历史、技能需求等。通过经典案例展示数据分析全过程,让读者带着疑问、兴趣阅读本书。最后介绍了两个非常出色的数据分析案例。
第2章介绍Python基础编程知识与技巧,有一定Python编程基础的读者可以跳过此章,往后阅读。
第3~7章是本书的核心内容,同时章节讲述的先后顺序与数据分析的流程相对应。
NumPy中包含了许多大规模数组快速计算的算法,是数据分析的基础,也是学习其他库的基础。
pandas非常擅长将非结构化数据处理为结构化数据,包括清除缺失数据、填充值、表格的合并与删除等操作。
SciPy是一个科学计算包,当收到规整的数据集,如何挖掘数据信息的任务就落到了SciPy的身上。在本章中你可以掌握数值分析、数值拟合、插值等技能。
数据可视化是数据分析的最后一步,当分析得出了结论就要展示出来。在第6章,会介绍两个可视化库,一个是matplotlib,另一个是pyechart。二者其中一个擅长基础绘图,一个擅长交互式绘图,各有所长,互相补充。
在现实生活中,尤其是在金融、科研等领域,很多数据都是时间序列的函数,因此本书在第7章还介绍了Python在时间序列中的应用。
第8~12章是本书的实战章节,将介绍一些数据分析的实战案例,帮助大家融会贯通前面掌握的技能。
本书的目的
希望阅读本书的数据分析和大数据挖掘从业者、科研人员和爱好者能掌握一些数据分析编程技能,不再仅仅依赖于局限性很强的传统工具。
希望阅读本书的学生,能对数据分析的概念、流程,与其他领域的区别有大致的了解,并提高对数据分析技术的兴趣。如果能引领出几位目前迷茫,但阅读完本书后有志于在数据领域深耕的极客那就更好了。
|
|