新書推薦:
《
宋初三先生集(中国思想史资料丛刊)
》
售價:NT$
990.0
《
棕榈油的全球史 : 从奴隶船到购物篮
》
售價:NT$
440.0
《
简帛时代与早期中国思想世界(上下册)(王中江著作系列)
》
售價:NT$
1400.0
《
进化主义在中国的兴起(王中江著作系列)
》
售價:NT$
950.0
《
不废风雅 生活的意趣(汪曾祺风雅意趣妙文)
》
售價:NT$
280.0
《
东亚世界形成史论(新版)
》
售價:NT$
490.0
《
奶奶的半个心愿 “课本里的作家” 中考热点作家孙道荣2024年全新散文集
》
售價:NT$
190.0
《
天生坏种:罪犯与犯罪心理分析
》
售價:NT$
445.0
|
內容簡介: |
本书从实用的角度出发,采用理论与实践相结合的方式,介绍样本数据处理的基础知识,力求培养读者使用Python语言及Kettle软件进行数据处理的能力。全书内容分别为数据预处理概述、Kettle工具的初步使用、数据的导入与导出、数据清洗、数据标注、Kettle作业设计、基于Kettle构建数据仓库、基于Python的数据导入与导出、基于Python的数据整理。 本书作为人工智能学科相关的样本数据处理技术的入门教材,目的不在于是覆盖样本数据处理技术的所有知识点,而是介绍样本数据处理的主要应用,使读者了解样本数据处理的基本构成,以及如何应对不同数据类型的数据预处理工作。为了增强实践效果,本书中引入了多个基础技术案例及综合实践案例,以帮助读者了解样本数据处理涉及的基本技术的知识和技能。 本书可作为高等院校数据科学与大数据技术、计算机、信息管理等相关专业课程的教材,也可供对样本数据处理技术感兴趣的读者阅读。
|
關於作者: |
许桂秋,运营总监。2000年9月—2004年6月,厦门大学,计算机科学与技术专业学习,获工学学士;2007年8月—2011年4月,中国石油天然气股份有限公司,项目经理,工程师;2011年6月—2016年7月,曙光信息产业股份有限公司,项目经理,工程师;2016年7月—至今,中科瑞翼(北京)教育科技有限公司,运营总监。主要著作出版情况:《大数据导论》、《Python编程基础与应用》、《NoSQL数据库原理与应用》、《数据挖掘与机器学习》等9本系列教材,浙江科技出版社,2019年。
|
目錄:
|
第1章 数据预处理概述1
1.1 数据预处理的背景与目的1
1.1.1 数据预处理的背景:数据质量1
1.1.2 数据预处理的目的3
1.2 数据预处理的流程3
1.2.1 数据清洗3
1.2.2 数据集成5
1.2.3 数据变换6
1.2.4 数据归约9
1.2.5 数据预处理的注意事项14
1.3 数据预处理的工具14
本章习题15
第2章 Kettle工具的初步使用16
2.1 Kettle的安装16
2.1.1 Java的安装16
2.1.2 Kettle的下载安装与Spoon的启动20
2.2 Kettle的使用21
2.2.1 转换的基本概念21
2.2.2 第一个转换案例23
本章习题42
第3章 数据的导入与导出43
3.1 基于文件的数据导入与导出43
3.1.1 文本文件的导入与导出43
3.1.2 文本文件的导入与导出案例45
3.1.3 Excel文件的导入与导出51
3.1.4 Excel文件的导入与导出案例51
3.1.5 XML文件的导入与导出59
3.1.6 XML文件的导入与导出案例59
3.1.7 JSON文件的导入与导出64
3.1.8 JSON文件的导入与导出案例65
3.2 基于数据库的数据导入与导出69
3.2.1 关系数据库的数据导入与导出69
3.2.2 MySQL数据库的数据导入与导出案例71
3.3 基于Web的数据导入与导出78
3.3.1 HTML数据的导入与导出78
3.3.2 HTML数据的导入与导出案例79
3.3.3 基于HTTP GET请求的导入与导出83
3.3.4 基于HTTP GET请求的导入与导出案例83
3.4 基于CDC变更数据的导入与导出86
3.4.1 基于源数据的CDC86
3.4.2 基于源数据的CDC案例87
3.4.3 基于触发器的CDC98
3.4.4 基于触发器的CDC案例99
3.4.5 基于快照的CDC109
3.4.6 基于快照的CDC案例109
3.4.7 基于日志的CDC113
3.4.8 基于日志的CDC案例113
本章习题116
第4章 数据清洗117
4.1 数据清洗概述117
4.1.1 Kettle常用的数据清洗步骤117
4.1.2 字符串清理119
4.1.3 字段清理123
4.1.4 使用参照表清理数据130
4.1.5 数据校验136
4.2 数据排重141
4.2.1 如何识别重复数据141
4.2.2 去除完全重复数据142
4.2.3 去除不完全重复数据144
4.3 使用脚本组件进行数据清洗147
4.3.1 使用JavaScript代码组件清理数据147
4.3.2 使用正则表达式组件清理数据149
4.3.3 使用其他脚本组件清理数据152
本章习题156
第5章 数据标注157
5.1 数据标注简介157
5.1.1 数据标注是什么157
5.1.2 数据标注分类简介158
5.1.3 数据标注流程简介159
5.2 数据标注分类160
5.2.1 图像标注161
5.2.2 文本标注164
5.2.3 语音标注166
5.3 数据标注质量检验167
5.3.1 数据标注质量的影响167
5.3.2 数据标注的质量标准169
5.3.3 数据标注质量检验方法172
5.4 图像数据标注实战175
5.4.1 车辆车牌标注175
5.4.2 遥感影像标注180
5.4.3 医疗影像标注184
5.4.4 行人数据标注188
5.4.5 基于行人标注数据集的行人检测192
5.5 文本标注实战198
本章习题207
第6章 Kettle作业设计208
6.1 作业的概念及组成209
6.1.1 作业项209
6.1.2 跳210
6.1.3 注释210
6.2 作业的执行方式210
6.2.1 回溯210
6.2.2 多路径和回溯211
6.2.3 并行执行211
6.3 作业的创建及常用作业项212
6.3.1 创建作业213
6.3.2 “START”作业项213
6.3.3 “作业”作业项213
6.3.4 “转换”作业项215
6.4 变量216
6.4.1 定义变量216
6.4.2 使用变量218
6.5 监控218
6.5.1 日志219
6.5.2 邮件通知220
6.6 命令行启动221
6.7 作业实验223
本章习题252
第7章 基于Kettle构建数据仓库253
7.1 数据仓库的介绍253
7.1.1 数据仓库的起因253
7.1.2 数据仓库的发展254
7.1.3 数据仓库的定义255
7.1.4 数据仓库的特点255
7.1.5 数据仓库的结构255
7.1.6 数据仓库建模256
7.1.7 数据仓库与ETL的关系257
7.2 构建维度表258
7.2.1 管理各种键258
7.2.2 维度表的加载262
7.2.3 缓慢变化维度263
7.3 构建事实表268
7.3.1 批量加载268
7.3.2 查找维度271
7.3.3 事实表的处理271
本章习题280
第8章 基于Python的数据导入与导出281
8.1 Pandas281
8.1.1 Series282
8.1.2 DataFrame284
8.2 文本文件的导入与导出286
8.2.1 导入CSV文件286
8.2.2 导出CSV文件290
8.2.3 JSON格式数据的导入与导出291
8.3 Excel文件的导入与导出292
8.4 数据库的导入与导出292
8.4.1 关系数据库的导入与导出293
8.4.2 非关系数据库的导入与导出294
本章习题297
第9章 基于Python的数据整理298
9.1 合并多个数据集298
9.1.1 使用键进行DataFrame合并298
9.1.2 使用index进行DataFrame合并302
9.1.3 沿着横轴或纵轴串接303
9.2 数据重塑305
9.2.1 多级索引数据的重塑305
9.2.2 应用pivot方法重塑数据307
9.3 数据转换310
9.3.1 移除重复数据310
9.3.2 利用函数或映射进行数据转换312
9.3.3 值转换312
9.3.4 重命名轴索引313
9.3.5 离散化和面元划分314
9.3.6 检测或过滤异常值317
9.3.7 排列和随机采样318
9.3.8 计算指标/哑变量319
本章习题322
|
|