新書推薦:
《
英国简史(刘金源教授作品)
》
售價:NT$
449.0
《
便宜货:廉价商品与美国消费社会的形成
》
售價:NT$
352.0
《
读书是一辈子的事(2024年新版)
》
售價:NT$
352.0
《
乐道文库·什么是秦汉史
》
售價:NT$
367.0
《
汉娜·阿伦特与以赛亚·伯林 : 自由、政治与人性
》
售價:NT$
500.0
《
女性与疯狂(女性主义里程碑式著作,全球售出300万册)
》
售價:NT$
500.0
《
药食同源中药鉴别图典
》
售價:NT$
305.0
《
设计中的比例密码:建筑与室内设计
》
售價:NT$
398.0
|
內容簡介: |
全书围绕Alink(阿里在Flink基础上做的开源版本)的展开,以实例为主阐述Alink的使用。 ?以机器学习的知识架构将各个章节串联起来,每个章节配合实例,用户更容易理解和入手尝试。 ?数据会采用读者能免费下载的数据集,在加上Alink本身是开源的、免费的。用户试用起来没有成本。 ?实例实现的源代码,准备放在Alink开源git上,大家容易看到,可以直接下载,代码旁边会有实体书的介绍 ?以机器学习的知识架构将各个章节串联起来,每个章节配合实例,用户更容易理解和入手尝试。 ?数据会采用读者能免费下载的数据集,在加上Alink本身是开源的、免费的。用户试用起来没有成本。 ?实例实现的源代码,准备放在Alink开源git上,大家容易看到,可以直接下载,代码旁边会有实体书的介绍
|
關於作者: |
2004年获南开大学数学博士学位;随后在南开大学信息学院从事博士后研究工作;2006年加入微软亚洲研究院,进行符号计算、大规模矩阵计算及机器学习算法研究;2010年加入阿里巴巴,从事大数据相关的统计和机器学习算法研发。著有《重构大数据统计》《机器学习在线》等。
|
目錄:
|
目 录
第1章 Alink快速上手1
1.1 Alink是什么1
1.2 免费下载、安装1
1.3 Alink的功能2
1.3.1 丰富的算法库2
1.3.2 多样的使用体验3
1.3.3 与SparkML的对比3
1.4 关于数据和代码4
1.5 简单示例5
1.5.1 数据的读/写与显示5
1.5.2 批式训练和批式预测7
1.5.3 流式处理和流式预测9
1.5.4 定义Pipeline,简化操作10
1.5.5 嵌入预测服务系统12
第2章 系统概况与核心概念14
2.1 基本概念14
2.2 批式任务与流式任务15
2.3 Alink=A link18
2.3.1 BatchOperator和StreamOperator19
2.3.2 link方式是批式算法/流式算法的通用使用方式20
2.3.3 link的简化23
2.3.4 组件的主输出与侧输出23
2.4 Pipeline与PipelineModel24
2.4.1 概念和定义24
2.4.2 深入介绍25
2.5 触发Alink任务的执行28
2.6 模型信息显示29
2.7 文件系统与数据库34
2.8 Schema String36
第3章 文件系统与数据文件38
3.1 文件系统简介38
3.1.1 本地文件系统39
3.1.2 Hadoop文件系统41
3.1.3 阿里云OSS文件系统43
3.2 数据文件的读入与导出45
3.2.1 CSV格式47
3.2.2 TSV、LibSVM、Text格式53
3.2.3 AK格式56
第4章 数据库与数据表60
4.1 简介60
4.1.1 Catalog的基本操作60
4.1.2 Source和Sink组件61
4.2 Hive示例62
4.3 Derby示例65
4.4 MySQL示例67
第5章 支持Flink SQL70
5.1 基本操作70
5.1.1 注册70
5.1.2 运行71
5.1.3 内置函数74
5.1.4 用户定义函数74
5.2 简化操作75
5.2.1 单表操作76
5.2.2 两表的连接(JOIN)操作80
5.2.3 两表的集合操作82
5.3 深入介绍Table Environment86
5.3.1 注册数据表名87
5.3.2 撤销数据表名88
5.3.3 扫描已注册的表89
第6章 用户定义函数(UDF/UDTF)90
6.1 用户定义标量函数(UDF)90
6.1.1 示例数据及问题91
6.1.2 UDF的定义91
6.1.3 使用UDF处理批式数据92
6.1.4 使用UDF处理流式数据93
6.2 用户定义表值函数(UDTF)95
6.2.1 示例数据及问题95
6.2.2 UDTF的定义96
6.2.3 使用UDTF处理批式数据96
6.2.4 使用UDTF处理流式数据99
第7章 基本数据处理101
7.1 采样101
7.1.1 取“前”N个数据102
7.1.2 随机采样102
7.1.3 加权采样104
7.1.4 分层采样105
7.2 数据划分106
7.3 数值尺度变换108
7.3.1 标准化109
7.3.2 MinMaxScale111
7.3.3 MaxAbsScale112
7.4 向量的尺度变换113
7.4.1 StandardScale、MinMaxScale、MaxAbsScale113
7.4.2 正则化115
7.5 缺失值填充116
第8章 线性二分类模型119
8.1 线性模型的基础知识119
8.1.1 损失函数119
8.1.2 经验风险与结构风险121
8.1.3 线性模型与损失函数122
8.1.4 逻辑回归与线性支持向量机(Linear SVM)123
8.2 二分类评估方法125
8.2.1 基本指标126
8.2.2 综合指标128
8.2.3 评估曲线131
8.3 数据探索136
8.3.1 基本统计138
8.3.2 相关性140
8.4 训练集和测试集144
8.5 逻辑回归模型145
8.6 线性SVM模型147
8.7 模型评估149
8.8 特征的多项式扩展153
8.9 因子分解机157
第9章 朴素贝叶斯模型与决策树模型160
9.1 朴素贝叶斯模型160
9.2 决策树模型162
9.2.1 决策树的分裂指标定义165
9.2.2 常用的决策树算法167
9.2.3 指标计算示例169
9.2.4 分类树与回归树172
9.2.5 经典的决策树示例173
9.3 数据探索176
9.4 使用朴素贝叶斯方法179
9.5 蘑菇分类的决策树185
第10章 特征的转化191
10.1 整体流程195
10.1.1 特征哑元化197
10.1.2 特征的重要性198
10.2 减少模型特征的个数200
10.3 离散特征转化202
10.3.1 独热编码202
10.3.2 特征哈希204
第11章 构造新特征207
11.1 数据探索208
11.2 思路210
11.2.1 用户和品牌的各种特征211
11.2.2 二分类模型训练212
11.3 计算训练集213
11.3.1 原始数据划分213
11.3.2 计算特征214
11.3.3 计算标签222
11.4 正负样本配比224
11.5 决策树226
11.6 集成学习227
11.6.1 Bootstrap aggregating228
11.6.2 Boosting229
11.6.3 随机森林与GBDT232
11.7 使用随机森林算法233
11.8 使用GBDT算法234
第12章 从二分类到多分类235
12.1 多分类模型评估方法235
12.1.1 综合指标237
12.1.2 关于每个标签值的二分类指标238
12.1.3 Micro、Macro、Weighted计算的指标239
12.2 数据探索241
12.3 使用朴素贝叶斯进行多分类244
12.4 二分类器组合246
12.5 Softmax算法249
12.6 多层感知器分类器253
第13章 常用多分类算法256
13.1 数据准备256
13.1.1 读取MNIST数据文件257
13.1.2 稠密向量与稀疏向量258
13.1.3 标签值的统计信息261
13.2 Softmax算法262
13.3 二分类器组合264
13.4 多层感知器分类器265
13.5 决策树与随机森林267
13.6 K近邻算法270
第14章 在线学习273
14.1 整体流程273
14.2 数据准备275
14.3 特征工程277
14.4 特征工程处理数据279
14.5 在线训练280
14.6 模型过滤283
第15章 回归的由来286
15.1 平均数287
15.2 向平均数方向的回归288
15.3 线性回归289
第16章 常用回归算法292
16.1 回归模型的评估指标292
16.2 数据探索294
16.3 线性回归297
16.4 决策树与随机森林300
16.5 GBDT回归301
第17章 常用聚类算法303
17.1 聚类评估指标304
17.1.1 基本评估指标304
17.1.2 基于标签值的评估指标306
17.2 K-Means聚类308
17.2.1 算法简介308
17.2.2 K-Means实例309
17.3 高斯混合模型314
17.3.1 算法介绍314
17.3.2 GMM实例316
17.4 二分K-Means聚类317
17.5 基于经纬度的聚类320
第18章 批式与流式聚类324
18.1 稠密向量与稀疏向量324
18.2 使用聚类模型预测流式数据326
18.3 流式聚类329
第19章 主成分分析331
19.1 主成分的含义333
19.2 两种计算方式337
19.3 在聚类方面的应用339
19.4 在分类方面的应用343
第20章 超参数搜索347
20.1 示例一:尝试正则系数348
20.2 示例二:搜索GBDT超参数349
20.3 示例三:聚类个数350
第21章 文本分析353
21.1 数据探索353
21.2 分词355
21.2.1 中文分词356
21.2.2 Tokenizer和RegexTokenizer359
21.3 词频统计363
21.4 单词的区分度365
21.5 抽取关键词367
21.5.1 原理简介367
21.5.2 示例369
21.6 文本相似度371
21.6.1 文本成对比较372
21.6.2 相似的TopN375
21.7 主题模型387
21.7.1 LDA模型388
21.7.2 新闻的主题模型390
21.7.3 主题与原始分类的对比392
21.8 组件使用小结396
第22章 单词向量化398
22.1 单词向量预训练模型399
22.1.1 加载模型399
22.1.2 查找相似的单词400
22.1.3 单词向量402
22.2 单词映射为向量406
第23章 情感分析412
23.1 使用提供的特征413
23.1.1 使用朴素贝叶斯方法416
23.1.2 使用逻辑回归算法419
23.2 如何提取特征423
23.3 构造更多特征426
23.4 模型保存与预测430
23.4.1 批式/流式预测任务430
23.4.2 嵌入式预测431
第24章 构建推荐系统433
24.1 与推荐相关的组件介绍434
24.2 常用推荐算法437
24.2.1 协同过滤437
24.2.2 交替小二乘法438
24.3 数据探索439
24.4 评分预测444
24.5 根据用户推荐影片446
24.6 计算相似影片452
24.7 根据影片推荐用户454
24.8 计算相似用户457
|
|