新書推薦:
《
危局
》
售價:NT$
383.0
《
穿裙子的士:叶嘉莹传
》
售價:NT$
245.0
《
财富方程式
》
售價:NT$
352.0
《
知识社会史(下卷):从《百科全书》到“在线百科”
》
售價:NT$
454.0
《
我读巴芒:永恒的价值
》
售價:NT$
602.0
《
你漏财了:9种逆向思维算清人生这本账
》
售價:NT$
254.0
《
我们终将老去:认识生命的第二阶段(比利时的“理查德·道金斯”,一位行为生物学家的老年有用论
》
售價:NT$
418.0
《
谁是窃书之人 日本文坛新锐作家深绿野分著 无限流×悬疑×幻想小说
》
售價:NT$
254.0
|
編輯推薦: |
以Python 3.10.7为平台,以科学和工程实际应用为背景,通过“概述 算法 经典应用”的形式,深入浅出地介绍Python数据分析的相关知识和应用,提供源代码和教学课件。
具有以下特色:
1.理论与实践并重、站在工程与科技的前沿;
2.提炼数百个典型实例,源于作者实际工作;
3.提供程序源代码,可快速进阶到实用阶段;
4.由浅入深,理论结合实际,案例丰富实用;
5.取材科学、结构严谨,介绍智能算法创新成果
|
內容簡介: |
本书以Python 3.10.7为平台,以实际应用为背景,通过概述 算法 经典应用的形式,深入浅出地介绍Python数据分析的相关知识。全书共9章,主要内容包括Python概述、科学计算库、开源科学集、数据分析利器、数据分析的可视化、基于回归的数据分析、基于分类的数据分析、基于聚类的数据分析、数据特征分析等。通过学习本书,读者可领略到Python的简单、易学、易读、易维护等特点,同时也可感受到利用Python实现数据分析应用领域广泛,功能强大。
本书可作为高等学校相关专业本科生和研究生的教学用书,也可作为相关专业科研人员、学者、工程技术人员的参考用书。
|
目錄:
|
下载源码
第1章掀开Python面纱1
1.1Python环境搭建1
1.1.1Python的安装1
1.1.2pip安装第三方库2
1.1.3编辑器Jupyter Notebook3
1.2寻求帮助4
1.3基本命令5
1.3.1数字5
1.3.2变量7
1.3.3运算符9
1.4数据类型15
1.5字符串操作16
1.6元素的集合17
1.6.1列表17
1.6.2元组21
1.6.3字典24
1.6.4集合31
第2章科学计算库34
2.1必需库的安装34
2.2NumPy概述35
2.3NumPy的数据类型35
2.4NumPy数组36
2.4.1NumPy数组的创建37
2.4.2NumPy切片39
2.4.3NumPy索引40
2.4.4NumPy迭代42
2.4.5NumPy数组操作45
2.4.6NumPy算术函数58
2.5NumPy统计函数60
2.6NumPy排序63
2.7NumPy线性代数66
2.7.1矩阵和向量积66
2.7.2行列式68
2.7.3求解线性方程68
2.7.4矩阵特征值和特征向量69
2.8矩阵分解70
2.8.1Cholesky分解70
2.8.2QR分解72
2.8.3SVD(奇异值)分解73
2.9范数和秩75
2.9.1矩阵的范数75
2.9.2矩阵的秩76
第3章开源科学集78
3.1SciPy常量模块78
3.1.1常量78
3.1.2单位类型78
3.2SciPy优化器81
3.3SciPy稀疏矩阵82
3.3.1coo_matrix存储方式82
3.3.2csr_matrix存储方式83
3.3.3csc_matrix存储方式83
3.3.4lil_matrix存储方式84
3.3.5dok_matrix存储方式85
3.3.6dia_matrix存储方式86
3.3.7bsr_matrix存储方式87
3.4SciPy图结构87
3.4.1邻接矩阵87
3.4.2连接组件88
3.4.3Dijkstra最短路径89
3.4.4Floyd Warshall算法91
3.4.5BellmanFord算法92
3.5SciPy空间数据96
3.5.1三角测量96
3.5.2凸包97
3.5.3KD树98
3.5.4距离矩阵100
3.6SciPy插值103
3.6.1一维插值104
3.6.2二维插值105
3.6.3样条插值106
3.7SciPy显著性检验108
3.7.1统计假设109
3.7.2t检验110
3.7.3KS检验113
3.8边缘检测113
第4章数据分析利器115
4.1Pandas数据结构117
4.1.1系列117
4.1.2数据结构120
4.1.3面板126
4.2统计性描述128
4.3Pandas重建索引132
4.4Pandas迭代与排序135
4.4.1Pandas迭代135
4.4.2Pandas排序137
4.5Pandas统计函数140
4.6Pandas分组与聚合142
4.7数据缺失144
4.7.1数据缺失的原因145
4.7.2检查缺失值145
4.7.3缺失值的计算146
4.7.4清理/填充缺失数据146
4.7.5丢失缺失的值147
4.7.6替换丢失/通用值148
4.8Pandas连接148
4.9Pandas CSV文件151
4.10Pandas的JSON文件154
第5章数据分析的可视化156
5.1初识Matplotlib156
5.2基本二维绘图158
5.2.1折线图158
5.2.2散点图160
5.2.3条形图163
5.2.4饼图165
5.2.5箱线图167
5.2.6等高线图169
5.3三维绘图172
5.3.1三维坐标轴172
5.3.2三维点和线172
5.3.3三维等高线图173
5.3.4表面三角测量174
5.3.5非结构化图像175
5.3.6三维体元素177
5.4小提琴图178
第6章基于回归的数据分析180
6.1简单线性回归180
6.1.1线性回归概述181
6.1.2简单线性回归的实现183
6.2多元回归186
6.2.1多项式回归概述186
6.2.2多项式回归的实现187
6.3广义线性回归190
6.3.1函数模型190
6.3.2边界决策函数190
6.3.3广义回归的实现192
6.4岭回归195
6.5套索回归196
6.5.1全子集算法197
6.5.2贪心算法197
6.5.3正则化198
6.6非线性回归200
6.6.1K最近邻回归200
6.6.2核回归202
第7章基于分类的数据分析204
7.1KNN分类器204
7.2线性分类器206
7.3逻辑分类210
7.3.1逻辑回归概述210
7.3.2逻辑回归原理211
7.3.3逻辑分类的实现211
7.4贝叶斯分类215
7.4.1贝叶斯分类相关知识215
7.4.2贝叶斯原理216
7.4.3贝叶斯分类的实现217
7.5决策树219
7.5.1决策树概述220
7.5.2树的相关术语220
7.5.3决策树算法221
7.5.4信息熵222
7.5.5信息增益223
7.5.6信息增益率223
7.5.7决策树的应用224
7.6随机森林226
7.6.1随机森林概述226
7.6.2特征重要评估227
7.6.3随机森林的实现228
第8章基于聚类的数据分析232
8.1聚类的分类232
8.2kmeans聚类234
8.2.1kmeans聚类的基本原理234
8.2.2算法流程234
8.2.3随机分配聚类质心235
8.2.4kmeans算法的优缺点237
8.2.5kmeans算法的变体238
8.3Mean Shift聚类250
8.3.1Mean Shift算法介绍250
8.3.2Mean Shift算法的思想252
8.3.3概率密度梯度255
8.3.4Mean Shift向量的修正255
8.3.5Mean Shift算法流程256
8.4谱聚类261
8.4.1谱聚类的原理261
8.4.2谱聚类算法描述261
8.4.3谱聚类算法中的重要属性262
8.4.4谱聚类的实现267
8.5层次聚类算法270
8.5.1自顶向下的层次聚类算法271
8.5.2自底向上的层次聚类算法272
8.5.3簇间相似度的计算方法272
8.5.4层次聚类算法的实现274
8.6密度聚类276
8.6.1密度聚类的原理276
8.6.2DBSCAN密度定义277
8.6.3DBSCAN密度聚类的思想277
8.6.4DBSCAN聚类算法278
8.6.5DBSCAN聚类的实现279
第9章数据特征分析281
9.1数据表达281
9.1.1哑变量转换类型特征281
9.1.2数据的装箱处理283
9.1.3数据的分箱处理286
9.2交互式与多项式特征296
9.2.1添加交互式特征296
9.2.2添加多项式特征299
9.3自动化特征选择301
9.3.1单变量特征选择301
9.3.2基于模型的特征选择303
参考文献311
|
內容試閱:
|
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息形成结论,从而对数据加以详细研究和概括总结的过程。
在实际应用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析是有目的地收集数据、分析数据,使之成为信息的过程。
数据分析有极广泛的应用范围,典型的数据分析可能包含以下三步:
(1) 探索性数据分析,当数据刚取得时,可能杂乱无章,看不出规律,通过作图、造表、用各种形式的方程拟合、计算某些特征量等手段探索规律性的可能形式。
(2) 模型选定分析,在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步的分析从中挑选一定的模型。
(3) 推断分析,通常使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推断。
数据分析过程的主要活动由识别信息需求、收集数据、分析数据、评价并改进数据分析的有效性组成。
本书为什么会在众多语言当中选择Python来实现数据分析呢?其主要原因之一是: Python是一种效率极高的语言;相比众多其他语言,Python具有简单、易学、易读、易维护等特点。
另一个原因是: 对程序员来说,社区是非常重要的,大多数程序员都需要向解决过类似问题的人寻求建议,在需要有人帮助解决问题时,有一个联系紧密、互帮互助的社区至关重要,Python社区就是这样的一个社区。
本书将数据分析的基本理论与应用实践联系起来,通过这种方式让读者聚焦于如何正确地提出问题、解决问题。书中讲解了如何利用Python的核心元素以及强大的学习库,解决数据分析中的问题。不管你是学习数据科学的初学者,还是想进一步拓展对数据科学领域的认知,本书都是一个重要且不可错过的资源,它能帮助你了解如何使用Python解决数据分析中的关键问题。
【本书特色】
1. 内容浅显易懂
本书不会纠缠于晦涩难懂的概念,而是整本书力求用浅显易懂的语言引出概念,用常用的方式介绍编程,用清晰的逻辑解释思路。
2. 知识点全面
书中从介绍Python软件出发,接着介绍Python的用法,然后介绍Python程序设计,再由实例总结巩固相关知识点。
3. 学以致用
本书理论与实例相结合,内容丰富、实用,帮助读者快速领会知识要点。书中的实例与经典应用具有超强的实用性,并且书中源代码、数据集等读者都可免费轻松获得。
【本书结构】
全书共9章,主要内容包括:
第1章掀开Python面纱,主要内容包括Python环境搭建、基本命令、数据类型、字符串操作等内容。
第2章科学计算库,主要内容包括NumPy概述、NumPy的数据类型、NumPy数组、NumPy统计函数等内容。
第3章开源科学集,主要内容包括SciPy常量模块、SciPy优化器、SciPy稀疏矩阵、SciPy图结构、SciPy空间数据等内容。
第4章数据分析利器,主要内容包括Pandas数据结构、统计性描述、Pandas重建索引、Pandas分组与聚合、数据缺失等内容。
第5章数据分析的可视化,主要内容包括基本二维绘图、三维绘图、小提琴图等内容。
第6章基于回归的数据分析,主要内容包括简单线性回归、多元回归、广义线性回归、岭回归、套索回归等内容。
第7章基于分类的数据分析,主要内容包括KNN分类器、线性分类器、逻辑分类、贝叶斯分类、决策树、随机森林等内容。
第8章基于聚类的数据分析,主要内容包括kmeans聚类、Mean Shift聚类、谱聚类、层次聚类算法、密度聚类等内容。
第9章数据特征分析,主要内容包括数据表达、交互式与多项式特征、自动化特征选择等内容。
这些算法目前应用非常广泛,也是效果不错的算法,是数据分析的主要算法,通过本书的学习,我们要学会利用Python解决数据分析中的实际问题,达到应用自如的程度。
【适读人群】
本书适合Python初学者、研究Python软件的科研者。
本书由佛山科学技术学院李晓东编写。
由于时间仓促,加之编者水平有限,书中错误和疏漏之处在所难免。在此,诚恳地期望得到各领域的专家和广大读者的批评指正。
编者2024年1月
|
|