新書推薦:
《
500万次倾听:陪伤心的人聊聊
》
售價:NT$
245.0
《
英国商业500年(见证大国崛起与企业兴衰,启迪未来商业智慧。)
》
售價:NT$
367.0
《
万千心理·儿童心理治疗中的心智化:临床实践指导
》
售價:NT$
398.0
《
自我囚禁的人:完美主义的心理成因与自我松绑(破除你对完美主义的迷思,尝试打破自我评价过低与焦虑的恶性循环)
》
售價:NT$
301.0
《
周易
》
售價:NT$
203.0
《
东南亚的传统与发展
》
售價:NT$
306.0
《
乾隆制造
》
售價:NT$
398.0
《
资治通鉴臣光曰辑存 资治通鉴目录(司马光全集)(全二册)
》
售價:NT$
1316.0
編輯推薦:
在自助式数据准备产品中,Tableau Prep相对来说比较容易使用,只要你知道如何清理和组织你的数据集。来自伦敦信息实验室(The Information Lab)的Carl Allchin,通过一系列的实用课程能让你快速掌握如何使用Tableau Prep,包括数据准备、清理、自动化、组织和输出数据集的方法。
这本实用技术指南基于Allchin的热门博客Preppin’Data,它将带你一步一步了解Tableau Prep的基本原理。自助式数据准备可减少完成数据项目所需的时间,并提高你的数据分析质量。本书将探究Tableau Prep是如何帮助我们访问数据,并将其转化为有价值的信息的过程。
內容簡介:
了解准备数据时需要注意的事项。了解处理数据字段时要使用哪些Tableau Prep函数。分析数据集的形态和概貌。对输出数据进行分析,了解如何通过Tableau Prep实现工作流程自动化。学习如何使用Tableau Prep函数来清理数据。探索在实际场景中使用Tableau Prep相关技术的方法。通过管理和记录输出,使他人可以使用你的数据。
關於作者:
Carl Allchin是Tableau大使,也是伦敦信息实验室(The Information Lab)的“另一位主教练”。伦敦信息实验室拥有全球领先的数据分析培训课程。Carl在金融服务领域担任商业智能分析师和管理人员的时间超过十年,他通过咨询、博客教授市场领先的数据解决方案,为数百家公司提供支持服务。Carl是Preppin’Data的创始人之一。
目錄 :
目录
前言 .1
第1 章 为何需要自助式数据准备 .9
1.1 自助式数据可视化简史 9
1.2 获取“正确的数据” . 10
1.3 自助式数据准备的机会 11
1.4 玩转Tableau Prep 12
1.5 小结 13
第一部分 入门
第2 章 Tableau Prep Builder 入门 17
2.1 从哪里获得Tableau Prep Builder 17
2.2 如何获取Prep Builder 的许可 18
2.3 Tableau Prep Builder 界面 19
2.4 数据准备的基本步骤 . 21
2.4.1 输入步骤 22
2.4.2 清理步骤 23
2.4.3 输出步骤 24
2.4.4 保存流程 24
2.5 小结 26
第3 章 数据准备规划 .27
3.1 阶段1:了解你的数据 . 28
3.2 阶段2:明确目标状态 . 29
3.3 阶段3:确定数据从KYD 到预期状态所需的转换 31
3.4 阶段4:构建工作流程 . 33
3.5 小结 35
第4 章 塑造数据 37
4.1 在输入的数据集中寻找什么 37
4.2 什么数据形态最适合在Tableau 中进行分析 . 38
4.3 改变Prep Builder 中的数据集结构 . 40
4.3.1 Pivot(转换) 40
4.3.2 Aggregate(汇总) . 41
4.3.3 Join(连接) . 42
4.3.4 Union(联合) . 43
4.4 将数据重组技术应用于冰淇淋味的香皂案例 44
4.4.1 步骤1:将列数据转换为行数据 . 44
4.4.2 步骤2:将行数据转换为列数据 . 45
4.5 小结 46
第5 章 连接文件中的数据 47
5.1 基于文件之上的文件 . 47
5.1.1 电子表格 48
5.1.2 其他文件类型 48
5.2 在哪里可以找到你的数据文件 . 49
5.3 如何在Prep 中连接到文件 . 50
5.4 使用文件输入保存流程的注意事项 52
5.5 小结 52
第6 章 连接到数据库 .53
6.1 什么是数据库 53
6.2 如何在Prep Builder 中连接到数据库 55
6.3 何时应避免连接到数据库 58
6.4 小结 58
第二部分 数据类型
第7 章 处理数字 61
7.1 我们的数字意味着什么 62
7.2 数字的类型 . 62
7.3 用作类别还是度量 62
7.4 汇总 63
7.5 数字的格式化 63
7.6 控制数值数据的函数 . 64
7.7 小结 66
第8 章 处理日期问题 .67
8.1 为什么日期很重要? . 67
8.2 日期的各个部分 67
8.3 日期查询表 . 68
8.4 新纪元日期 . 69
8.5 Excel 序号 70
8.6 输入日期 71
8.6.1 makedate() 函数 71
8.6.2 dateparse() 函数 71
8.7 小结 73
第9 章 处理字符串数据 74
9.1 字符串意味着什么 74
9.2 字符串数据有何不同 . 75
9.2.1 字符顺序 75
9.2.2 字符串格式化注意事项 76
9.3 常用于字符串数据准备的函数 . 78
9.4 使用字符串数据的分组和替换选项 79
9.5 小结 80
第10 章 处理布尔数据 81
10.1 什么是布尔数据 . 81
10.1.1 为什么它在数据分析中如此有用 . 81
10.1.2 具有布尔逻辑的函数 83
10.2 小结 . 90
第三部分 数据的形态
第11 章 数据概要分析 93
11.1 什么是数据概况 . 93
11.2 为什么可视化数据集很重要 94
11.2.1 安斯库姆四要素 . 94
11.2.2 可视化与数据表 . 95
11.3 Prep Builder 如何配置文件数据 96
11.3.1 生成直方图和迷你直方图 . 97
11.3.2 选择概要或详细视图 99
11.3.3 突出显示数值 100
11.3.4 查看维度计数 101
11.4 排序 102
11.5 小结 102
第12 章 数据集采样 103
12.1 一个简单的规则:如果可能,全部使用 103
12.2 绕过技术限制的数据采样 103
12.2.1 数据规模 . 104
12.2.2 数据速度 . 104
12.3 需要采样的其他理由 105
12.3.1 缩短建设时间 105
12.3.2 确定你需要什么 . 105
12.4 采样技术 . 106
12.4.1 固定行数 . 106
12.4.2 随机采样 . 107
12.5 何时不要采样 108
12.6 小结 109
第13 章 将列转为行 110
13.1 何时在Tableau Prep Builder 中进行数据转换 . 110
13.2 如何将列转为行 112
13.3 小结 116
第14 章 将行转为列 117
14.1 何时使用行到列的数据转换 . 117
14.2 如何将行转为列 118
14.3 小结 121
第15 章 Prep Builder 中的汇总功能 . 122
15.1 比较Prep Builder 和Desktop 中的计算方法 122
15.2 Prep Builder 中的哪些计算方式不同 123
15.3 添加汇总的步骤 127
15.4 剩下的数据在哪里 . 131
15.5 详细程度计算选项 . 133
15.6 小结 133
第16 章 将数据集连接到一起 134
16.1 如何在Prep Builder 中连接数据集 134
16.2 加入逻辑与术语 137
16.3 Prep Builder 中的连接类型 139
16.4 何时使用每种连接类型 144
16.5 小结 145
第17 章 联合数据 . 146
17.1 什么是union(联合) . 146
17.2 如果数据结构不一样怎么办 . 148
17.3 何时联合数据 149
17.3.1 月度数据集 150
17.3.2 来自网络资源的数据集 150
17.3.3 公司合并 . 152
17.4 多表和通配符联合 . 152
17.5 小结 154
第18 章 计算 . 155
18.1 计算在数据准备中的作用是什么 155
18.2 创建一个计算字段 . 156
18.3 计算的基础知识 158
18.3.1 参考列表 . 158
18.3.2 语法 159
18.3.3 描述 160
18.3.4 示例 160
18.4 建立计算 . 160
18.4.1 当计算顺利进行时 . 160
18.4.2 当计算出现问题时 . 161
18.4.3 编辑计算字段 163
18.4.4 建议 163
18.5 计算的类型 164
18.5.1 数值计算 . 164
18.5.2 字符串计算 165
18.5.3 日期计算 . 165
18.5.4 带有布尔输出的条件计算 165
18.5.5 逻辑运算 . 165
18.5.6 类型转换 . 165
18.6 详细程度和排名计算 166
18.7 小结 167
第四部分 输出
第19 章 选择输出 . 171
19.1 输出类型 . 171
19.1.1 发布到文件 172
19.1.2 发布到Tableau 服务器 173
19.2 何时在Prep Builder 中输出数据 173
19.2.1 在输出步骤中输出数据 173
19.2.2 在Tableau Desktop 上预览输出数据 176
19.3 输出数据时的其他考虑 178
19.4 小结 179
第20 章 输出到数据库 180
20.1 何时向数据库写入数据 180
20.1.1 清理数据 . 180
20.1.2 简化的数据连接 . 181
20.1.3 阶段表和参考表 . 181
20.2 写入数据库的设置 . 181
20.3 需要注意的问题 185
20.4 小结 186
第21 章 Tableau Prep Conductor 入门 187
21.1 何时使用Tableau Prep Conductor 187
21.2 如何获得Prep Conductor 188
21.3 加载一个流程到Prep Conductor 188
21.4 使用Prep Conductor 的其他好处 195
21.5 小结 196
第五部分 清理数据
第22 章 创建附加数据 199
22.1 何时不要去创建数据 199
22.1.1 Tableau Desktop 中的动态计算 199
22.1.2 数据连接中的重复记录 201
22.2 创建附加的列 201
22.2.1 使用计算 . 201
22.2.2 将行转为列 202
22.2.3 连接数据集 203
22.3 创建附加行 204
22.3.1 将列转为行 204
22.3.2 数据集联合 204
22.3.3 数据集支撑 205
22.3.4 连接数据集 205
22.4 小结 205
第23 章 过滤 . 206
23.1 什么是过滤器 207
23.2 不同类型的过滤器 . 207
23.2.1 选择过滤 . 207
23.2.2 计算过滤 . 210
23.2.3 通配符过滤 211
23.2.4 空值过滤 . 213
23.3 何时过滤掉列 213
23.4 何时过滤掉行 213
23.5 小结 214
第24 章 在输入过程中删除数据 . 215
24.1 在加载数据集之前对其进行更改 215
24.2 性能慢、生成慢、输出慢 216
24.3 删除数据列 218
24.4 删除记录 . 221
24.5 小结 223
第25 章 拆分数据字段 224
25.1 基本分割 . 225
25.2 高级拆分:当自动拆分不能如期进行的时候 227
25.3 什么时候不要拆分数据 229
25.3.1 地址数据 . 229
25.3.2 没有明确的定界符 . 230
25.4 小结 230
第26 章 基于分组的数据清理 231
26.1 什么是分组 231
26.2 为什么使用分组 232
26.2.1 提高准确率 232
26.2.2 数据层次结构导向 . 232
26.2.3 平滑机构重组 233
26.3 分组技术 . 234
26.3.1 手动分组 . 234
26.3.2 计算 236
26.3.3 内置函数 . 238
26.4 小结 241
第27 章 空值处理 . 242
27.1 什么是空值 242
27.2 什么时候可以接受空值 243
27.3 如何删除或替换空值 245
27.3.1 ISNULL() 函数 245
27.3.2 ZN() 函数 246
27.3.3 合并操作 . 247
27.4 小结 249
第28 章 使用数据角色 250
28.1 如何使用数据角色 . 251
28.2 自定义数据角色 253
28.3 小结 257
第29 章 处理多余字符 258
29.1 什么是多余的字符 . 258
29.2 多余字符引起的问题 259
29.3 去除多余字符 261
29.3.1 含有错别字的字符串 262
29.3.2 带有多余字符的数字 263
29.3 3 有错别字的日期 . 264
29.4 小结 265
第30 章 去除重复数据 266
30.1 如何识别重复的数据 266
30.2 重复的原因 267
30.2.1 系统加载 . 267
30.2.2 每项度量的行 268
30.2.3 连接 269
30.3 如何处理重复数据 . 270
30.3.1 汇总:技巧1 270
30.3.2 汇总:技巧2 272
30.3.3 将行转换成列 274
30.4 小结 275
第31 章 使用正则表达式 276
31.1 什么是正则表达式 . 276
31.2 如何在Tableau Prep 中使用正则表达式 . 276
31.3 REGEXP_EXTRACT() 和REGEXP_EXTRACT_NTH() 277
31.3.1 REGEXP_MATCH() 函数 277
31.3.2 REGEXP_REPLACE() 函数 . 278
31.4 Regex(正则表达式)应用案例 . 278
31.4.1 替换常见错误 278
31.4.2 匿名评论或反馈 . 279
31.5 常用的正则表达式命令 280
31.6 小结 281
第32 章 实现高级连接 282
32.1 多连接条件 282
32.2 非等价连接条件 285
32.2.1 用连接来过滤数据 . 286
32.2.2 区间连接 . 287
32.3 OR 语句 289
32.4 小结 291
第33 章 创建LOD 计算 . 292
33.1 什么是追加 292
33.2 通过LOD 计算来研究追加 292
33.2.1 何时使用LOD 计算 293
33.2.2 如何在Prep Builder 中编写LOD 计算方法 . 294
33.2.3 LOD 计算在做什么 298
33.3 小结 300
第34 章 分析计算 . 301
34.1 什么是表计算 301
34.2 在Prep Builder 中应用表计算逻辑 304
34.2.1 关键词 . 305
34.2.2 分析计算 . 305
34.3 应用案例 . 309
34.3.1 筛选前N 条记录 . 309
34.3.2 过滤掉一定比例的数据 310
34.4 小结 312
第六部分 基础知识拓展
第35 章 挑战复杂的数据准备场景 . 315
35.1 挑战 315
35.2 从哪里开始 316
35.3 逻辑步骤 . 318
35.4 做出改变 . 321
35.5 做好迭代准备 322
35.6 小结 324
第36 章 处理自由文本 325
36.1 什么是自由文本 325
36.2 为什么自由文本有用 325
36.3 如何在Tableau 中分析自由文本 326
36.3.1 拆分字符串 327
36.3.2 将列转为行 328
36.3.3 清理大小写和标点符号 330
36.3.4 使用连接来删除常见词 330
36.3.5 将剩余的值进行分组 332
36.4 小结 333
第37 章 使用更智能的过滤 335
37.1 计算 335
37.1.1 布尔计算 . 335
37.1.2 逻辑计算 . 336
37.1.3 正则计算 . 337
37.2 区间连接 . 339
37.3 百分比异常 339
37.3.1 手动输入:LOD 计算 339
37.3.2 重新加载的数据:连接到以前的输出 . 342
37.3.3 汇总各类型的平均生产成本 . 343
37.3.4 将数据集连接到一起 343
37.4 组合技术运用 344
37.5 小结 345
第38 章 处理兑换率 346
38.1 兑换率问题 346
38.2 在Tableau Prep 中应用兑换率 . 347
38.2.1 第1 步:为转换创建一致的数据粒度 . 347
38.2.2 第2 步:将数据集连接在一起 348
38.2.3 第3 步:应用兑换率 349
38.3 兑换率的长期策略 . 349
38.3.1 频率管理 . 349
38.3.2 维护历史表 350
38.4 小结 350
第39 章 支撑你的数据 351
39.1 什么是支撑 351
39.2 数据支撑所解决的问题 354
39.3 数据支撑带来的挑战 354
39.4 传统的数据支撑技术 355
39.4.1 第1 步:输入数据集 356
39.4.2 第2 步:建立连接计算 356
39.4.3 第3 步:将两个数据集连接在一起 357
39.4.4 第4 步:过滤掉不需要的行 . 359
39.5 新数据支撑技术 360
39.5.1 第1 步:输入数据集 361
39.5.2 第2 步:连接数据集 361
39.5.3 第3 步:添加报告日期 362
39.5.4 第4 步:移除支撑值 363
39.6 结果 363
39.7 小结 364
第40 章 连接编程脚本 365
40.1 何时使用Prep 中的脚本步骤 365
40.2 在Prep 中设置计算机以使用脚本 . 366
40.3 使用脚本步骤 370
40.4 小结 372
第41 章 处理Prep Builder 错误 . 373
41.1 参数错误 . 373
41.2 空白的概况窗格或数据窗格 . 374
41.2.1 更改计算或删除下游的数据字段 374
41.2.2 数据源已发生改变 . 375
41.3 计算字段内的错误 . 376
41.3.1 不完整的计算 376
41.3.2 不支持的函数 378
41.4 小结 378
第七部分 管理你的数据
第42 章 数据准备的文档记录 381
42.1 基本的文档 381
42.1.1 文件夹结构 381
42.1.2 文件名 . 382
42.1.3 数据源 . 382
42.1.4 输出 383
42.2 步骤名称 . 383
42.3 清理步骤 . 383
42.4 步骤描述 . 384
42.5 颜色 385
42.6 连接 385
42.7 联合 386
42.8 小结 387
第43 章 决定在何处准备数据 388
43.1 需要考虑的过程 388
43.2 数据准备vs 可视化分析 . 389
43.2.1 数据素养 . 389
43.2.2 组织规模 . 389
43.2.3 技术硬件的质量 . 390
43.2.4 数据投资的历史状况 390
43.3 软件性能 . 390
43.3.1 采样 390
43.3.2 功能性 . 391
43.3.3 文档 392
43.4 小结 393
第44 章 管理数据 . 394
44.1 什么是敏感数据 394
44.1.1 公开 394
44.1.2 秘密 395
44.1.3 机密 395
44.1.4 受限 395
44.2 基于敏感度管理数据 395
44.3 生产环境与开发环境 396
44.4 删除数据 . 397
44.4.1 当数据变得过时或不相关时 . 397
44.4.2 当客户或顾客离开时 397
44.5 小结 398
第45 章 存储数据 . 399
45.1 不可访问 . 399
45.1.1 不要犯法 . 400
45.1.2 不要删除业务数据 . 400
45.1.3 将数据的访问权授予专家 401
45.1.4 记录你的资料来源 . 401
45.2 缓慢/ 无响应的性能 . 401
45.3 覆盖写入风险 401
45.3.1 授予只读访问权 . 402
45.3.2 发布前的培训 402
45.4 输出要写到哪里 403
45.5 小结 403
第46 章 在数据中使用标识符和键 . 404
46.1 什么是标识符 404
46.2 什么是数据库中的Key(键) 405
46.3 在Tableau Prep 中使用键和标识符 406
46.4 在Prep Builder 中创建标识符数据字段 . 408
46.5 小结 411
第47 章 保持数据更新 412
47.1 刷新数据 . 412
47.2 完全刷新vs 增量刷新 413
47.3 设置不同类型的刷新 413
47.3.1 Full Refresh(完全刷新) . 413
47.3.2 Incremental Refresh(增量刷新) . 414
47.4 刷新数据源时的注意事项 417
47.4.1 更改数据值 417
47.4.2 改变数据源的结构 . 417
47.4.3 新数据,新输入 . 418
47.5 小结 418
第48 章 使用历史表 419
48.1 为什么需要历史表 . 419
48.2 创建历史表时需要考虑的问题 420
48.2.1 连接到实时数据的能力 420
48.2.2 信息的相关性 421
48.2.3 更新频率 . 421
48.2.4 粒度级别 . 421
48.3 性能 421
48.4 数据法规 . 422
48.5 历史表示例 422
48.6 小结 426
第49 章 评估是否完全需要Prep Builder 427
49.1 Tableau 数据准备历史 . 427
49.2 何时先试试Tableau Desktop 428
49.2.1 简单数据连接 428
49.2.2 数据联合 . 429
49.2.3 单个转换 . 431
49.3 何时使用Prep Builder . 432
49.4 小结 433
第50 章 最后的思考 434
內容試閱 :
前言数据无处不在,但对于大多数人来说,基于以下这些原因,导致数据基本上无法使用:? 有些数据被储存在数据库里,并隐藏在编程语言的背后,而大多数人都没学过这类语言。? 有些数据暗藏在个人计算机上,远离了那些可能发现它有用的人。? 有些数据存储时所用的格式,只有创建它的系统开发者才能读懂。那么,你为什么要关心这些呢?坦率地说,这些数据里蕴含着答案,能解答你所提出的问题,甚至包括你尚未提出的问题。自助式数据准备是一种技能,它将让我们重新认识所分析的那些数据,减少完成数据分析项目所需的时间,并从根本上提高数据分析质量。本书旨在掌握如何使用市场上最直观的工具之一——Tableau Prep Builder 来访问这些数据,并将其转化为有价值的信息,以回答上述问题。Tableau Prep Builder于2018 年4 月发布,用于支持Tableau Desktop、Tableau Server 和Tableau Online的用户,它使你能够将凌乱的数据变成可以在Tableau 软件中进行分析的格式。Tableau Desktop、Tableau Server 和Tableau Online 是让数据变得易于探究和可视化分析的软件平台。在此之前,从源系统到提供有洞察力的数据分析的过程中,Tableau 的主要难点在于需要将数据处理成易于使用的格式。Tableau 和大多数BI(Business Intelligence,商业智能)工具一样,要求数据是“干净的”,并被编排成行和列。许多分析人员习惯于自己承担这项手工工作,因此需要将这项任务自动化,将宝贵的时间花在实际的数据分析过程中。Tableau Prep Builder 允许用户轻松地清理、处理和输出所准备好的待分析的数据集。不仅如此,Tableau 还在软件中嵌入了许多可视化的分析方法,因此用户往往可以在Prep Builder 中找到问题的答案,而根本不需要导出数据。我为什么要写这本书如果Tableau Prep 中的一切都如此直观,为什么需要通过这本书来学习如何使用它呢?简单地说,使用该工具只是完成数据准备任务的一部分。其他部分还包括:? 了解为什么要准备数据。? 连接到你需要的所有数据。? 了解不同的数据类型对所要执行的数据清理操作的影响。? 分解数据准备任务的过程以适应整体规划。? 确保在数据清理和处理过程中可进行适当的调整。? 合并多个数据集。? 决定如何以及在哪里输出数据结果。与所有的软件一样,学习如何使用每个功能都需要一定时间,因此本书充满了较复杂的技术性截图和操作过程。这里分享的很多知识将帮助你在任何数据准备工具中完成自己的数据准备项目。这些技术将使你有能力处理以前无法接触到的数据集。这就是我写这本书的原因:让你有能力利用现有数据或者更多的数据来改善你的决策。在我的职业生涯中,我一直同时处于数据准备周期的两端:作为数据接收者和输出数据的提供者。作为数据接收者,我常常对获得所需信息要花费那么多时间而感到沮丧。我收到的信息往往不是我所需要的形式,或者缺少关键的数据,而这些数据是在我最初提出数据要求后才需要的。作为数据提供者,我总是要先去仔细地了解问题,做到能理解某人想要数据的根本原因,这样我就可以提供最好的解决方案,而不仅仅是他们表面上所要求的东西。我还意识到,我在每个数据请求上花费的时间越长,其他等待获得自己对不同数据集看法的人的队伍就越长。这就是为什么我开始教用户如何自己获取数据的原因。显然,不可能每个人都花时间去掌握SQL 查询技能(如果你不知道这是什么也没关系),以便访问他们甚至还不明白为什么需要的数据表。Tableau Prep Builder 让你只需要经过几个小时的训练就可以完成自己的数据准备工作,而不是需要几天或几周的时间去学习SQL。本书的目标读者本书的目标读者,是从事数据相关工作的各个领域的人群,比如:? 刚接触数据行业和刚入职场的新人。数据是现在大多数工作的重要组成部分,所以如果你刚从学校或大学毕业,学习本书所要涉及的技能,能让你为未来做好准备。? 刚接触数据行业,同时是经验丰富的专业人士。用从本书中获得的知识来补充你的经验,可以创造出一些惊人的效果。如果没有这些经验,数据对你来说可能毫无意义,因为缺乏背景知识。本书将为你提供完善数据处理的技巧,以扩充专业经验。? 有可视化分析的经验,但没有数据准备经验的人。Tableau Desktop 让很多人有能力进行自己的可视化分析,而不是等待IT 部门和报表团队为他们建立报表。Tableau Prep Builder 在数据准备方面的作用也正在于此。本书将提升你的可视化分析技能,从而能够访问以前似乎不可能的数据集。? 经验丰富的数据准备从业者。好吧,这不是你的正式工作头衔,但在我眼里你就是这样的人。你可能会使用Excel、SQL 或其他脚本语言。得益于自动化特性和简化操作,相比当前的方法和工具,Tableau Prep Builder 将使你能够更快捷地工作。? 有经验的数据准备从业者的同事。熟悉Tableau Prep Builder 将使你能够承担有经验的数据准备从业者手头相对简单、可重复的任务,这样他们就可以集中精力应对更难的挑战。他们将成为你的职场导师,告诉你如何发展,这样你就可以在帮助他们的同时提高自己。本书是如何组织的本书共有七个部分。它们的编排是为了逐步培养你所需要的技能和知识,并且在你需要回顾内容时, 它以便捷的方式提供了参考知识点。第1 章深入地探讨了为什么自助式数据准备很重要,在此之后,各章的安排如下:第一部分(第2 ~ 6 章)在介绍了Prep Builder 之后,这部分探讨了如何规划你的数据准备工作,以及针对处理数据集的处理目标。这部分的最后两章探讨了如何连接到数据文件和数据库。第二部分(第7 ~ 10 章)了解你正在使用和准备的是什么数据,这是关键所在。这些章节将帮助你知道在准备数据时要注意什么,并介绍一些你可以用来处理数据字段的函数。第三部分(第11 ~ 18 章)一旦对你的数据字段有所了解,这部分将帮助你分析数据集的形态和概况。你还将掌握Prep Builder 中的转换步骤。第四部分(第19 ~ 21 章)经过前面这些努力之后,是时候输出数据进行分析了。这部分介绍了如何将你的数据从准备流程输出到文件或数据库中。该部分还介绍了Tableau Prep 的另一个产品——Prep Conductor,它可以让你的工作流程自动化,以及与他人分享你的流程。第五部分(第22 ~ 34 章)到了这一步,意味着你已经掌握了如何制作简单流程的基本知识。然而,数据准备工作往往包含其他挑战。为了帮助你解决这些问题,该部分将向你介绍更多Prep Builder 中内置的数据清理功能。第六部分(第35 ~ 41 章)知道全部相关的技巧是一回事,但知道什么时候使用这些技巧则是另一回事。因此,该部分介绍了如何在实际场景中使用你所学到的技术,以及当你面对更困难的场景时的注意事项。第七部分(第42 ~ 49 章)这部分的中心内容,是通过管理、记录输出,以及关注结果,将你的数据和流程提供给他人。这些章节会给你提供相关知识和基础内容,为你自己的数据分析做好准备。但就像生活中的任何事情一样,实践会磨炼你的技能。为此,一些章节的特色是来自Preppin’ Data 的数据集、示例和挑战,以便让你练习本章所涉及的技术。Jonathan Allenby(乔纳森? 艾伦比)和我将Preppin’ Data 设计为每周一次的挑战,让具有不同程度经验的人练习他们的数据准备技能。这些练习属于可选内容,但通过练习这些技术,你更有可能在下次需要时明白如何应用它。每个练习都解释了它的意图和要求,就像你认识的人提出的数据准备需求一样。输入和输出数据集允许你尝试满足练习中设定的挑战。解决办法可以在博客上找到,但如果你已经提交了所要求的输出,那么就不存在正确或错误的解决办法。最后,Preppin’ Data 经常引用一家名为Chin & Beard Suds Co. 的公司,这是一家模拟的肥皂零售商,Jonathan 和我在练习中使用它作为例子。这使得我们可以使用那些令人生畏的与肥皂有关的俏皮话,对此我们毫不讳言。Preppin’ Data 网站的点击率已经超过80000 次,参与者超过260 人,提交的挑战方案超过2000 个。我们希望你能加入这个数据准备者的社区。致谢如果没有那些异常出众的人,我称他们为同行、同事和朋友,这本书是不可能完成的。首先要说的是,在我生活中无法将其带入现代数据时代的一个Excel 用户,同我搭档15 年的Toni Feather。她的很多实用主义经验都体现在这本书中,通过写下这些内容,我可能最终能让她使用不同的数据准备工具。非常感谢伦敦The Information Lab 和The Data School 的朋友和同事们。如果没有这些出色的头脑和充满激情的人,这本书就不会出现。四年的团队咨询经验造就了很多用户案例,你将在接下来的几页中读到。Tom Brown(汤姆? 布朗)、Craig Bloodworth(克雷格? 布拉德沃思)和Robin Kennedy(罗宾? 肯尼迪),感谢你们创造了一个真正令人惊叹的学习和发展环境。The Data School 的顾问们也值得特别称赞,这些年来,在有幸教他们的过程中,让我能够完善所要表达的“信息”。他们通过每天提出的问题,极大地塑造了本书的内容。这本书开始于与Dan Farmer(丹? 法默,优秀的内容编辑之一)分享的一个想法,在他的帮助下形成了本书早期的框架,然后我将其具体化。谢谢你帮我塑造了这件事,Dan。当The Data School 的一位实习顾问Jonathan Allenby(乔纳森? 艾伦比)问到,是否有什么方法可以将我刚刚在Tableau Prep 上的教学内容付诸实践时,我开始更加关注数据准备技术。这促使我们创建了Preppin’ Data 专题博客,而博客的成功和对数据准备领域的教学需求程度也促成了这本书的诞生。那些贡献了实际内容的人应该得到极度的赞美,因为他们帮助我把普通的教学内容转变成了这种印刷形式。O’Reilly 公司的Angela Rufino(安吉拉? 鲁菲诺)是一位出色的内容编辑,她确保了本书的所有内容都有价值,即使对新的数据准备从业者来说也是如此。技术内容编辑Jonathan Drummey(乔纳森? 朱梅)、Ryan Sleeper(瑞恩? 斯里普)、Kimberly Bolch(肯柏林? 伯齐)和Luke Stoughton(卢克? 司托顿)都为本书增加了很多内容。他们的反馈不仅仅是其作为内容编辑的职责,还确保了本书能给每个阅读者带来价值。最后,感谢你阅读本书。通过在你个人和工作生活中加入更多数据驱动的决策,你将为自己和身边的人改善这个世界。我有幸与很多部门合作,他们所从事的工作每天都在激励着我。通过更好地利用信息和洞察力,我们可以让这个世界变得更加美好──你现在就是努力帮助他人的人中的一分子。排版约定本书使用了下述排版约定。斜体(Italic)表示新术语、URL、示例电子邮件地址、文件名、扩展名、路径名和目录。等宽字体(Constant width)表示命令、选项、开关、变量、属性、键、函数、类型、类、命名空间、方法、模块、属性、参数、值、对象、事件、事件句柄、XML 标签、HTML 标签、宏、文件的内容,或者命令的输出。粗体等宽字体(Constant width bold)表示应该由用户逐字输入的命令或其他文本。斜体等宽字体(Constant width italic)表示应该替换成用户提供的值。使用代码示例补充材料(代码示例、练习等)可在以此网站下载:https://oreil.ly/5k_uH。如果你在使用代码示例时遇到技术问题或难题,请发送电子邮件至 bookquestions@oreilly.com。本书的目的是帮助你完成工作。一般来说,如果本书提供了示例代码,你可以在你的程序和文档中使用它。除非你要复制相当篇幅的代码,否则不需要联系我们获得许可。例如,编写一个用到本书中几块代码的程序不需要许可。销售或分发O’Reilly书中的例子确实需要许可。通过引用本书和引用示例代码来回答问题不需要许可。将本书中的大量示例代码纳入你的产品文档则需要许可。我们一般不要求注明出处,但如果你这么做,我们深表感谢。注明归属的内容通常包括标题、作者、出版商和ISBN。例如,“Tableau Prep: Up & Running by CarlAllchin (O’Reilly). Copyright 2020 Carl Allchin,978-1-492-07962-0”。如果你觉得你对代码示例的使用超出了合理使用或上述许可的范围,请随时联系我们:permissions@oreilly.com。O’Reilly 在线学习平台(O’Reilly Online Learning)近40 年来,O’Reilly Media 致力于提供技术和商业培训、知识和卓越见解,来帮助众多公司取得成功。我们拥有独一无二的专家和革新者组成的庞大网络,他们通过图书、文章、会议和我们的在线学习平台分享他们的知识和经验。O’Reilly 的在线学习平台允许你按需访问现场培训课程、深入的学习路径、交互式编程环境,以及O’Reilly 和200 多家其他出版商提供的大量文本和视频资源。有关的更多信息,请访问http://oreilly.com。联系我们请把对本书的评价和问题发给出版社。美国:O’Reilly Media, Inc.1005 Gravenstein Highway NorthSebastopol, CA 95472中国:北京市西城区西直门南大街2号成铭大厦C座807室(100035)奥莱利技术咨询(北京)有限公司我们为这本书设置了一个网页,在其上列出了勘误表、示例和相关的其他信息。你可以通过地址http://oreilly.com/catalog/9781492079613 访问该网页。请发送电子邮件至 bookquestions@oreilly.com,对本书发表评论或提出技术问题。有关我们的书籍、课程的新闻和信息,请访问http://www.oreilly.com。我们的Facebook:http://facebook.com/oreilly。我们的Twitter:http://twitter.com/oreillymedia。我们的YouTube 视频:http://www.youtube.com/oreillymedia。