登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入   新用戶註冊
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / 物流,時效:出貨後2-4日

2024年10月出版新書

2024年09月出版新書

2024年08月出版新書

2024年07月出版新書

2024年06月出版新書

2024年05月出版新書

2024年04月出版新書

2024年03月出版新書

2024年02月出版新書

2024年01月出版新書

2023年12月出版新書

2023年11月出版新書

2023年10月出版新書

2023年09月出版新書

『簡體書』Python数据预处理

書城自編碼: 3935239
分類: 簡體書→大陸圖書→計算機/網絡程序設計
作者: [印]罗伊·贾法里 著 陈凯 译
國際書號(ISBN): 9787302649076
出版社: 清华大学出版社
出版日期: 2023-11-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:NT$ 811

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
海外中国研究·王羲之:六朝贵族的世界(艺术系列)
《 海外中国研究·王羲之:六朝贵族的世界(艺术系列) 》

售價:NT$ 811.0
唐宋绘画史  全彩插图版
《 唐宋绘画史 全彩插图版 》

售價:NT$ 449.0
“御容”与真相:近代中国视觉文化转型(1840-1920)
《 “御容”与真相:近代中国视觉文化转型(1840-1920) 》

售價:NT$ 505.0
鸣沙丛书·大风起兮:地方视野和政治变迁中的“五四”(1911~1927)
《 鸣沙丛书·大风起兮:地方视野和政治变迁中的“五四”(1911~1927) 》

售價:NT$ 454.0
海洋、岛屿和革命:当南方遭遇帝国(文明的另一种声音)
《 海洋、岛屿和革命:当南方遭遇帝国(文明的另一种声音) 》

售價:NT$ 485.0
铝合金先进成型技术
《 铝合金先进成型技术 》

售價:NT$ 1214.0
英雄之旅:把人生活成一个好故事
《 英雄之旅:把人生活成一个好故事 》

售價:NT$ 398.0
分析性一体的涌现:进入精神分析的核心
《 分析性一体的涌现:进入精神分析的核心 》

售價:NT$ 556.0

建議一齊購買:

+

NT$ 505
《 编程智慧:编程鬼才的经验和思考 [美]乔治·V.内维尔-尼尔 》
+

NT$ 305
《 Python数据分析与挖掘 》
+

NT$ 505
《 自然语言处理原理与实战 》
+

NT$ 607
《 Python爬虫从菜鸟到高手 》
+

NT$ 403
《 Java分布式中间件开发实战 》
+

NT$ 505
《 Python数据挖掘:入门、进阶与实用案例分析 》
編輯推薦:
数据预处理是数据可视化、数据分析和机器学习的第一步,它将为分析和预测模型准备数据以帮助分析师获得最佳见解。分析师在执行数据分析、数据可视化和机器学习项目时,大约90%的时间都花在数据预处理上。
本书将从多个角度为读者提供最佳的数据预处理技术。读者将了解数据预处理的不同技术和分析过程(包括数据收集、数据清洗、数据集成、数据归约和数据转换等),并掌握如何使用开源Python编程环境来实现它们。
內容簡介:
《Python数据预处理》详细阐述了与Python数据预处理相关的基本解决方案,主要包括NumPy和Pandas简介、Matplotlib简介、数据、数据库、数据可视化、预测、分类、聚类分析、数据清洗、数据融合与数据集成、数据归约、数据转换等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。 本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学用书和参考手册。
關於作者:
罗伊·贾法里博士是美国加州雷德兰兹大学商业分析学助理教授。
Roy讲授和开发了涵盖数据清洗、决策、数据科学、机器学习和优化的大学水平课程。
Roy的教学风格是崇尚动手实践,他相信最好的学习方式是边做边学。Roy采用主动学习的教学理念,读者在本书中将体验到这种主动学习方式
目錄
第1篇 技 术 基 础
第1章 NumPy和Pandas简介 3
1.1 技术要求 3
1.2 Jupyter Notebook概述 4
1.3 通过计算机编程进行数据分析的实质含义 6
1.4 NumPy基本函数概述 6
1.4.1 np.arange()函数 8
1.4.2 np.zeros()和np.ones()函数 8
1.4.3 示例—使用占位符来容纳分析 9
1.4.4 np.linspace()函数 10
1.4.5 示例—使用np.linspace()求解 11
1.5 Pandas概述 12
1.6 Pandas数据访问 15
1.6.1 Pandas DataFrame访问 15
1.6.2 访问DataFrame行 15
1.6.3 访问DataFrame列 16
1.6.4 访问DataFrame值 17
1.6.5 访问Pandas Series 17
1.7 切片 18
1.7.1 对NumPy数组进行切片 18
1.7.2 对Pandas DataFrame进行切片 20
1.7.3 切片的实用示例 20
1.8 用于过滤DataFrame的布尔掩码 22
1.8.1 使用布尔掩码的分析示例1 23
1.8.2 使用布尔掩码的分析示例2 24
1.9 用于探索DataFrame的Pandas函数 24
1.9.1 了解数据集的结构 25
1.9.2 使用.shape属性 25
1.9.3 使用.columns属性 25
1.9.4 使用.info()函数 26
1.9.5 了解数据集的值 26
1.9.6 使用.describe()函数 26
1.9.7 用于可视化数值列的直方图和箱线图 27
1.9.8 使用.unique()函数 28
1.9.9 使用.value_counts()函数 28
1.9.10 用于可视化数值列的条形图 29
1.10 应用Pandas函数 29
1.10.1 将函数应用于Series 30
1.10.2 应用函数—分析示例1 30
1.10.3 应用Lambda函数 31
1.10.4 对DataFrame应用函数 31
1.10.5 应用函数—分析示例2 32
1.10.6 Pandas groupby函数 33
1.10.7 使用groupby的分析示例 34
1.10.8 Pandas多级索引 35
1.10.9 使用.unstack()函数 36
1.10.10 使用.stack()函数 38
1.10.11 多级访问 39
1.10.12 Pandas .pivot()和.melt()函数 40
1.11 小结 43
1.12 练习 43
第2章 Matplotlib简介 47
2.1 技术要求 47
2.2 在Matplotlib中绘图 48
2.2.1 使用直方图或箱线图可视化数值特征 48
2.2.2 使用折线图观察数据趋势 49
2.2.3 使用散点图关联两个数值属性 50
2.3 修改绘图的可视化效果 51
2.3.1 将标题添加到可视化对象并将标签添加到轴 52
2.3.2 添加图例 53
2.3.3 修改刻度 53
2.3.4 修改标记 55
2.4 绘制子图 56
2.5 调整并保存结果 58
2.5.1 调整大小 58
2.5.2 保存 58
2.6 Matplotilb辅助进行数据预处理的示例 58
2.7 小结 59
2.8 练习 60
第3章 数据 61
3.1 技术要求 61
3.2 数据的定义 61
3.2.1 HLCU的意义 62
3.2.2 DIKW金字塔 63
3.2.3 机器学习和人工智能的DIKW更新 64
3.2.4 数据分析的DIKW更新 65
3.2.5 用于数据分析的数据预处理与用于机器学习的数据预处理 67
3.2.6 大数据的3个V 67
3.2.7 3个V对数据预处理的重要性 68
3.3 最通用的数据结构—表 68
3.3.1 数据对象 69
3.3.2 强调数据对象的重要性 69
3.3.3 数据特性 70
3.4 数据值的类型 70
3.4.1 从分析的角度看数据类型 70
3.4.2 标称特性 71
3.4.3 序数特性 71
3.4.4 区间标度特性 72
3.4.5 比率标度特性 74
3.4.6 二元特性 74
3.4.7 理解特性类型的重要性 74
3.4.8 从编程的角度看数据类型 75
3.5 信息与模式 75
3.5.1 理解“信息”这个词的日常用法 76
3.5.2 “信息”一词的统计用途 76
3.5.3 分类特性的统计信息 77
3.5.4 数字特性的统计信息 77
3.5.5 数据冗余—呈现相似信息的特性 78
3.5.6 通过相关系数调查数据冗余情况 78
3.5.7 “模式”一词的统计意义 79
3.5.8 查找和使用模式的示例 79
3.6 小结 82
3.7 练习 82
3.8 参考资料 85
第4章 数据库 87
4.1 技术要求 87
4.2 数据库的定义 87
4.2.1 从数据库到数据集 87
4.2.2 理解数据库和数据集之间的区别 88
4.3 数据库类型 89
4.3.1 数据库的差异化元素 90
4.3.2 数据结构化水平 90
4.3.3 存储位置 92
4.3.4 权限 92
4.3.5 关系数据库 92
4.3.6 非结构化数据库 92
4.3.7 一个需要结合结构化和非结构化数据库的实际示例 93
4.3.8 分布式数据库 93
4.3.9 区块链 94
4.4 连接到数据库并从中提取数据 94
4.4.1 直接连接 95
4.4.2 网页连接 96
4.4.3 API连接 97
4.4.4 使用API连接和提取数据的示例 97
4.4.5 后续处理 99
4.4.6 综合操作 100
4.4.7 请求连接 101
4.4.8 公开共享 101
4.5 小结 101
4.6 练习 102
第2篇 分 析 目 标
第5章 数据可视化 107
5.1 技术要求 107
5.2 总结数据的总体 107
5.2.1 总结数值特性的示例 108
5.2.2 总结分类特性的示例 109
5.3 比较数据的总体 111
5.3.1 使用箱线图比较总体的示例 111
5.3.2 使用直方图比较总体的示例 112
5.3.3 使用条形图比较总体的示例 114
5.3.4 解决问题的第一种方法 114
5.3.5 解决问题的第二种方法 115
5.3.6 解决问题的第三种方法 115
5.3.7 解决问题的第四种方法 116
5.3.8 解决问题的第五种方法 117
5.3.9 解决问题的第六种方法 117
5.4 研究两个特性之间的关系 118
5.4.1 可视化两个数值特性之间的关系 118
5.4.2 使用散点图研究数值特性之间关系的示例 118
5.4.3 可视化两个分类特性之间的关系 120
5.4.4 使用列联表检查两个二元分类特性之间关系的示例 121
5.4.5 使用列联表检查两个非二元分类特性之间关系的示例 122
5.4.6 可视化数值特性和分类特性之间的关系 123
5.4.7 检查分类特性和数值特性之间关系的示例 123
5.4.8 检查分类特性和数值特性之间关系的另一个示例 125
5.5 添加可视化维度 127
5.5.1 五维散点图示例 127
5.5.2 第四个维度 130
5.5.3 第五个维度 131
5.6 显示和比较趋势 133
5.6.1 时间序列数据和折线图 133
5.6.2 可视化和比较趋势的示例 134
5.7 小结 136
5.8 练习 137
第6章 预测 141
6.1 技术要求 141
6.2 预测模型 141
6.2.1 Forecast 142
6.2.2 使用Forecast来预测未来的示例 142
6.2.3 回归分析 143
6.2.4 设计回归分析以预测未来值的示例 144
6.3 线性回归 145
6.3.1 应用线性回归方法的示例 145
6.3.2 使用经过训练的回归公式进行预测 148
6.4 MLP 150
6.4.1 MLP的工作原理 151
6.4.2 反向传播 152
6.4.3 应用MLP进行回归分析的示例 152
6.4.4 MLP每次运行都会获得不同的预测结果 153
6.4.5 MLP算法无法收敛 153
6.5 小结 154
6.6 练习 154
第7章 分类 157
7.1 技术要求 157
7.2 分类模型 157
7.2.1 分类模型的设计示例 158
7.2.2 分类算法 159
7.3 KNN 159
7.3.1 使用KNN进行分类的示例 159
7.3.2 数据归一化 161
7.3.3 应用KNN算法 163
7.4 决策树 165
7.4.1 使用决策树进行分类的示例 165
7.4.2 预测结果比较 166
7.5 小结 167
7.6 练习 167
第8章 聚类分析 171
8.1 技术要求 171
8.2 聚类模型 171
8.2.1 使用二维数据集的聚类示例 172
8.2.2 使用三维数据集的聚类示例 175
8.3 k-means算法 176
8.3.1 使用k-means对二维数据集进行聚类 178
8.3.2 使用k-means对多于二维的数据集进行聚类 182
8.3.3 质心分析 183
8.4 小结 185
8.5 练习 185
第3篇 预 处 理
第9章 数据清洗1级—清洗表 189
9.1 技术要求 189
9.2 数据清洗的工具和目标 189
9.2.1 数据分析目标 190
9.2.2 数据分析工具 190
9.3 数据清洗级别 190
9.3.1 数据清洗1级—清洗表 191
9.3.2 数据清洗2级—重组和重制表 191
9.3.3 数据清洗3级—评估和纠正值 191
9.3.4 将分析的目标和工具映射到数据清洗级别 191
9.4 数据清洗1级—清洗表的示例 193
9.4.1 示例1—不明智的数据收集 193
9.4.2 示例2—重新索引 196
9.4.3 示例3—直观但很长的列标题 198
9.5 小结 200
9.6 练习 200
第10章 数据清洗2级—解包、重组和重制表 203
10.1 技术要求 203
10.2 示例1—解包数据并重新构建表 203
10.2.1 解包FileName 204
10.2.2 解包Content 207
10.2.3 重制一个新表以进行可视化 208
10.2.4 可视化绘图 211
10.3 示例2—重组表 211
10.4 示例3—执行1级和2级数据清洗 214
10.4.1 执行1级清洗 216
10.4.2 执行2级清洗 217
10.4.3 填充DA 218
10.4.4 填充IA1 219
10.4.5 填充IA2 220
10.4.6 填充IA3 222
10.4.7 进行分析—使用线性回归创建预测模型 223
10.5 小结 224
10.6 练习 224
第11章 数据清洗3级—处理缺失值、异常值和误差 227
11.1 技术要求 227
11.2 缺失值 228
11.2.1 检测缺失值 229
11.2.2 检测缺失值的示例 229
11.2.3 缺失值的原因 231
11.2.4 缺失值的类型 232
11.2.5 缺失值的诊断 232
11.2.6 诊断NO2_LOCATION_A中的缺失值 233
11.2.7 根据温度诊断缺失值 233
11.2.8 根据所有数值特性诊断缺失值 236
11.2.9 根据周工作日诊断缺失值 237
11.2.10 根据所有分类特性诊断缺失值 240
11.2.11 诊断NO2_LOCATION_B中的缺失值 241
11.2.12 诊断NO2_LOCATION_C中的缺失值 244
11.3 处理缺失值 246
11.3.1 第一种方法—保持缺失值不变 246
11.3.2 第二种方法—删除具有缺失值的数据对象 247
11.3.3 第三种方法—删除具有缺失值的特性 247
11.3.4 第四种方法—估计和填补缺失值 248
11.3.5 选择正确的方法处理缺失值 248
11.3.6 处理缺失值示例1 250
11.3.7 处理缺失值示例2 251
11.3.8 处理缺失值示例3 252
11.3.9 处理缺失值示例4 253
11.3.10 处理缺失值示例5 254
11.4 异常值 258
11.4.1 检测异常值 258
11.4.2 单变量异常值检测 258
11.4.3 单个数值特性异常值检测示例 259
11.4.4 单个分类特性异常值检测示例 262
11.4.5 双变量异常值检测 262
11.4.6 跨越两个数值特性检测异常值的示例 262
11.4.7 跨越两个分类特性检测异常值的示例 263
11.4.8 跨越数值-分类两个特性检测异常值的示例 264
11.4.9 多变量异常值检测 266
11.4.10 使用聚类分析跨越4个特性检测异常值的示例 266
11.4.11 时间序列异常值检测 267
11.5 处理异常值 268
11.5.1 第一种方法—保持原样 268
11.5.2 第二种方法—替换为上限或下限 269
11.5.3 第三种方法—执行对数变换 269
11.5.4 第四种方法—删除具有异常值的数据对象 270
11.5.5 选择处理异常值的恰当方法 270
11.5.6 处理异常值示例1 270
11.5.7 处理异常值示例2 272
11.5.8 处理异常值示例3 273
11.5.9 处理异常值示例4 281
11.5.10 处理异常值示例5 282
11.6 误差 286
11.6.1 误差类型 286
11.6.2 处理误差 287
11.6.3 检测系统误差 287
11.6.4 系统误差和正确异常值的示例 287
11.7 小结 291
11.8 练习 291
第12章 数据融合与数据集成 297
12.1 技术要求 297
12.2 关于数据融合和数据集成 297
12.2.1 数据融合与集成 298
12.2.2 数据集成示例 299
12.2.3 数据融合示例 299
12.2.4 数据集成方向 300
12.2.5 通过添加特性进行数据集成的示例 301
12.2.6 通过添加数据对象进行数据集成的示例 301
12.3 数据融合和集成方面的常见挑战 301
12.3.1 挑战1—实体识别 302
12.3.2 挑战2—不明智的数据收集 302
12.3.3 挑战3—索引格式不匹配 302
12.3.4 挑战4—聚合不匹配 304
12.3.5 挑战5—重复数据对象 304
12.3.6 挑战6—数据冗余 305
12.4 数据集成示例1(挑战3和4) 306
12.5 数据集成示例2(挑战2和3) 309
12.6 数据集成示例3(挑战1、3、5和6) 314
12.6.1 检查重复的数据对象 315
12.6.2 检查billboard_df中的重复项 315
12.6.3 检查songattributes_df中的重复项 316
12.6.4 检查artist_df中的重复项 318
12.6.5 设计数据集成结果的结构 319
12.6.6 从billboard_df填充songIntegrate_df 322
12.6.7 从songAttribute_df填充songIntegrate_df 324
12.6.8 从artist_df填充songIntegrate_df 328
12.6.9 检查数据冗余 331
12.6.10 检查数值特性之间的数据冗余 331
12.6.11 检查数值和分类特性之间的数据冗余 332
12.6.12 分析 333
12.6.13 通过数据可视化方法寻找热门歌曲的单变量模式 334
12.6.14 通过决策树方法寻找热门歌曲的多变量模式 335
12.6.15 示例总结 336
12.7 小结 337
12.8 练习 337
第13章 数据归约 341
13.1 技术要求 341
13.2 数据归约和数据冗余之间的区别 341
13.3 数据归约的目标 342
13.4 数据归约的类型 343
13.5 执行数量上的数据归约 344
13.5.1 随机抽样 344
13.5.2 示例—随机抽样以加快调优速度 344
13.5.3 分层抽样 348
13.5.4 示例—不平衡数据集的分层抽样 349
13.5.5 随机过抽样/欠抽样 350
13.6 执行维度上的数据归约 353
13.6.1 线性回归降维方法 354
13.6.2 示例—使用线性回归的降维 354
13.6.3 决策树降维方法 358
13.6.4 随机森林降维方法 359
13.6.5 示例—使用随机森林进行降维 359
13.6.6 暴力计算降维 360
13.6.7 示例—为分类算法寻找自变量特性的最佳子集 361
13.6.8 主成分分析 364
13.6.9 示例—玩具数据集 364
13.6.10 示例—非参数降维 367
13.6.11 函数型数据分析 374
13.6.12 示例—参数化降维 375
13.6.13 用于FDA的函数 381
13.6.14 指数函数 382
13.6.15 傅里叶函数 383
13.6.16 正弦函数 384
13.6.17 高斯函数 385
13.6.18 关于FDA的说明 388
13.7 小结 388
13.8 练习 389
第14章 数据转换 393
14.1 技术要求 393
14.2 数据转换和按摩的原因 393
14.2.1 数据转换的意义 394
14.2.2 数据转换与数据按摩的区别 394
14.3 归一化和标准化 395
14.4 二进制编码、排序转换和离散化 397
14.4.1 示例1—标称特性的二进制编码 399
14.4.2 示例2—序数特性的二进制编码或排序转换 402
14.4.3 示例3—数值特性的离散化 404
14.4.4 了解离散化的类型 406
14.4.5 离散化—分界点的数量 408
14.4.6 数值和分类的来回转换 408
14.5 特性构造 409
14.5.1 了解与特性相关的背景知识 409
14.5.2 示例—从两个特性构造一个转换后的特性 409
14.6 特征提取 412
14.6.1 示例1—从一个特性中提取出3个特性 412
14.6.2 示例2—形态特征提取 413
14.6.3 前几章的特征提取示例 414
14.6.4 数据清洗和特征提取示例 415
14.6.5 数据归约和特征提取的示例 415
14.7 对数转换 416
14.7.1 手动转换 417
14.7.2 通过模块转换 418
14.8 平滑、聚合和分箱 419
14.8.1 平滑 420
14.8.2 函数型数据平滑 421
14.8.3 滚动数据平滑 422
14.8.4 聚合 425
14.8.5 分箱 426
14.9 小结 428
14.10 练习 429
第4篇 案 例 研 究
第15章 案例研究1—科技公司中员工的心理健康问题 435
15.1 技术要求 435
15.2 科技公司中员工的心理健康问题案例研究简介 435
15.2.1 分析结果的受众 436
15.2.2 数据来源介绍 437
15.3 集成数据源 438
15.4 清洗数据 440
15.4.1 检测和处理异常值和误差 442
15.4.2 检测和处理缺失值 444
15.4.3 从SupportQ1到AttitudeQ3特性的常见缺失值 445
15.4.4 Mental Illness特性中的缺失值 445
15.4.5 Age特性中的缺失值 445
15.5 分析数据 445
15.5.1 分析问题1—员工心理健康在性别特性上是否存在显著差异 446
15.5.2 分析问题2—员工的心理健康在不同年龄特性之间是否存在
??显著差异 447
15.5.3 分析问题3—对员工心理健康问题提供更多支持的公司是否拥有
??心理更健康的员工 449
15.5.4 分析问题4—个人对心理健康的态度是否会影响他们的心理健康
??和寻求治疗 452
15.6 小结 454
第16章 案例研究2—新冠肺炎疫情住院病例预测 455
16.1 技术要求 455
16.2 本章案例研究简介 455
16.3 数据来源简介 457
16.4 预处理数据 458
16.4.1 设计数据集以支持预测 458
16.4.2 填充占位符数据集 460
16.4.3 有监督的降维 462
16.5 分析数据 464
16.6 小结 467
第17章 案例研究3—美国各地区聚类分析 469
17.1 技术要求 469
17.2 本章案例研究介绍 469
17.3 数据来源介绍 471
17.4 预处理数据 472
17.4.1 将election_df转换为partisan_df 473
17.4.2 构造partisanism特性 473
17.4.3 通过FDA计算partisanism的均值和斜率 474
17.4.4 清洗edu_df、employ_df、pop_df和pov_df 475
17.4.5 数据集成 475
17.4.6 数据清洗3级—处理缺失值、异常值和误差 476
17.4.7 检查数据冗余 476
17.5 分析数据 479
17.5.1 使用PCA可视化数据集 479
17.5.2 执行k-means聚类分析 480
17.6 小结 482
第18章 总结、实际案例研究和结论 483
18.1 本书内容总结 483
18.1.1 第1篇—技术基础 483
18.1.2 第2篇—分析目标 483
18.1.3 第3篇—预处理 484
18.1.4 第4篇—案例研究 484
18.2 实际案例研究 485
18.2.1 谷歌新冠肺炎疫情移动数据集 485
18.2.2 美国警察杀人事件 486
18.2.3 美国交通事故 487
18.2.4 旧金山的犯罪数据 488
18.2.5 数据分析就业市场 489
18.2.6 FIFA 2018最佳球员 489
18.2.7 篮球热手 490
18.2.8 加利福尼亚州的野火 491
18.2.9 硅谷多元化概况 492
18.2.10 识别虚假招聘信息 492
18.2.11 寻找更多实际案例研究 493
18.3 结论 493
18.3.1 数据可视化和讲故事 494
18.3.2 算法分析 494
18.3.3 技术应用 495
18.3.4 数学研究 496
·XVI·
Python数据预处理
·XVII·
目 录
內容試閱
数据预处理是数据可视化、数据分析和机器学习的第一步,它将为分析和预测模型准备数据以帮助分析师获得最佳见解。分析师在执行数据分析、数据可视化和机器学习项目时,大约90%的时间都花在数据预处理上。  本书将从多个角度为读者提供最佳的数据预处理技术。读者将了解数据预处理的不同技术和分析过程(包括数据收集、数据清洗、数据集成、数据归约和数据转换等),并掌握如何使用开源Python编程环境来实现它们。  本书将全面阐述数据预处理及其原因和方法,并帮助读者识别数据分析可以带来的更有效的决策机会。本书还展示了数据管理系统和技术在有效分析中的作用,以及如何使用API来提取数据。  通读完本书之后,读者将能够使用Python来读取、操作和分析数据;执行数据清洗、集成、归约和转换技术;处理异常值或缺失值,以有效地为分析工具准备数据。本书读者  希望对大量数据进行预处理和数据清洗的数据分析师、商业智能专业人士、工程本科生和数据爱好者。本书假设读者具备基本的编程技能(例如使用变量、条件和循环),以及Python初级知识和简单的分析经验。内容介绍  本书分为4篇,共18章。具体内容安排如下。* 第1篇:技术基础,包括第1章~第4章。> 第1章“NumPy和Pandas简介”,介绍了用于数据操作的3个主要模块中的两个,并使用真实的数据集示例来展示它们的相关功能。> 第2章“Matplotlib简介”,介绍了用于数据操作的3个模块中的最后一个,并使用了真实的数据集示例来展示其相关功能。> 第3章“数据”,提出了“数据”的技术定义,并介绍了数据预处理所需的数据概念和语言,包括通用的数据结构、数据值的类型、信息与模式等。> 第4章“数据库”,提出了“数据库”的技术定义,解释了不同类型的数据库的作用,并演示了如何连接数据库并从中提取数据。* 第2篇:分析目标,包括第5章~第8章。> 第5章“数据可视化”,演示了一些使用数据可视化的分析示例,让读者了解数据可视化的潜力。> 第6章“预测”,介绍了预测模型并演示了如何使用线性回归和多层感知器(MLP)。> 第7章“分类”,介绍了分类模型并演示了如何使用决策树和K近邻(KNN)算法。> 第8章“聚类分析”,介绍了聚类模型并演示了如何使用K-Means算法。* 第3篇:预处理,包括第9章~第14章。> 第9章“数据清洗1级—清洗表”,介绍了3个不同级别的数据清洗,并讨论了具体的数据清洗1级示例。> 第10章“数据清洗2级—解包、重组和重制表”,通过3个示例介绍了数据清洗2级的具体内容。> 第11章“数据清洗3级—处理缺失值、异常值和误差”,介绍了缺失值、异常值和误差的检测和处理技术。> 第12章“数据融合与数据集成”,介绍了集成不同数据源的技术,详细探讨了数据集成面临的6个挑战及其解决方法。> 第13章“数据归约”,介绍了数据归约的目标和类型(样本归约和特征归约)。对于样本归约,提供了随机抽样和分层抽样示例;对于特征归约(也称为降维),介绍了线性回归、决策树、随机森林、暴力计算、主成分分析和函数型数据分析等方法。> 第14章“数据转换”,介绍了数据转换和按摩,通过示例讨论了归一化和标准化、二进制编码、排序转换和离散化、特性构造、特征提取、对数转换、平滑、聚合和分箱等数据转换操作在分析上的意义。* 第4篇:案例研究,包括第15章~第18章。> 第15章“案例研究1—科技公司中员工的心理健康问题”,介绍了具体的分析问题并讨论了如何预处理数据以解决它。> 第16章“案例研究2—新冠肺炎疫情住院病例预测”,介绍了一个非常有意义的热点分析问题并讨论了如何预处理数据以解决该问题。> 第17章“案例研究3—美国各县聚类分析”,针对美国大选基于居住地分裂投票的现象提出了一个颇有意思的分析问题,并讨论了如何对数据进行预处理以解决该问题。> 第18章“总结、实际案例研究和结论”,介绍了一些可能的实践案例,读者可以使用这些案例进行更深入的学习并创建分析组合工具包。充分利用本书  本书假定读者具备基本的编程技能,并掌握了Python的初级知识,其他知识都可以从本书的开头开始学习。  Jupyter Notebook是学习和练习编程和数据分析的优秀用户界面。它可以使用Anaconda Navigator 轻松下载和安装。读者可以访问以下页面进行安装。    https://docs.anaconda.com/anaconda/navigator/install/    本书涵盖的软硬件和操作系统需求如表P.1所示。表P.1 本书涵盖的软硬件和操作系统需求本书涵盖的软硬件操作系统需求使用Jupyter Notebook的PythonWindows或macOS  虽然Anaconda已经安装了本书使用的大部分模块,但读者还需要安装一些其他模块,如Seaborn和Graphviz。不过不必担心,因为在使用之前本书将指导读者如何进行安装。  建议读者自己输入代码或从本书的GitHub存储库获得代码(下文将提供本书配套GitHub存储库链接),这样可以帮助你避免与复制和粘贴代码相关的任何潜在错误。  在学习的同时,可以将每一章的代码保存在一个文件中,形成学习存储库,以便进行更深入的学习并在实际项目中使用。Jupyter Notebook尤其适合此用途,因为它允许读者将代码和笔记保存在一起。下载示例代码文件  本书所附的代码可以在配套GitHub存储库中找到,其网址如下。    https://github.com/PacktPublishing/Hands-On-Data-Preprocessing-in-Python    如果代码有更新,那么它将在该GitHub存储库中更新。下载彩色图像  我们还提供了一个PDF文件,其中包含本书中使用的屏幕截图/图表的彩色图像。可通过以下地址下载。    https://static.packt-cdn.com/downloads/9781801072137_ColorImages.pdf本书约定  本书中使用了许多文本约定。  (1)CodeInText:表示文本中的代码字、数据库表名、文件夹名、文件名、文件扩展名、路径名、虚拟URL、用户输入和Twitter句柄等。以下段落就是一个示例。    对于本次练习,你需要使用一个新数据集:billboard.csv。可访问以下网址以查看当天最新的歌曲排名。 https://www.billboard.com/charts/hot-100    (2)有关代码块的设置如下。  from ipywidgets import interact, widgetsinteract(plotyear,year=widgets.IntSlider(min=2010,max=2019,step=1,value=2010))    (3)要突出代码块时,相关内容将加粗显示。  Xs_t.plot.scatter(x=‘PC1’,y=‘PC2’,c=‘PC3’,sharex=False, vmin=-1/0.101, vmax=1/0.101, figsize=(12,9))x_ticks_vs = [-2.9*4 2.9*i for i in range(9)]    (4)术语或重要单词采用中英文对照形式给出,在括号内保留其英文原文。示例如下。    由于这些差异,分类和预测被称为监督学习(supervised learning,也称为有监督学习),而聚类则被称为无监督学习(unsupervised learning)。    (5)对于界面词汇或专有名词将保留英文原文,在括号内添加其中文翻译。示例如下。    由于我们只有两个维度来执行聚类,因此可以利用散点图根据所讨论的两个特性—Life_Ladder(生活阶梯)和Perceptions_of_corruption(腐败程度感知)来可视化所有国家/地区之间的关系。    (6)本书还使用了以下两个图标。  表示警告或重要的注意事项。  表示提示或小技巧。

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 台灣用户 | 香港/海外用户
megBook.com.tw
Copyright (C) 2013 - 2024 (香港)大書城有限公司 All Rights Reserved.