《数据挖掘竞赛实战：方法与案例》 - 台灣·大書城 - 许可乐 - 清华大学出版社

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　聯絡我們　 \|　運費計算　 \|　幫助中心　\|　加入書簽
		會員登入新用戶註冊

HOME

新書上架

暢銷書架

好書推介

2024年度TOP

香港／國際用戶

最新/最熱/最齊全的簡體書網

品種：超過100萬種書，正品正价，放心網購，悭钱省心

送貨：速遞 / 物流，時效：出貨後2-4日

『簡體書』数据挖掘竞赛实战：方法与案例

書城自編碼： 3987169
分類：簡體書→大陸圖書→計算機/網絡→數據庫
作者：许可乐
國際書號(ISBN)： 9787302658467
出版社：清华大学出版社
出版日期： 2024-05-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：NT$ 505

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《悍妇女巫和她的故事（第一本以女巫为主角的故事集！）》
售價：NT$ 352.0

《图形引擎开发入门：基于Python语言》
售價：NT$ 704.0

《重访五四新文化：思想与观念（跟随杰出学者的脚步，走进五四思想的丰富世界）》
售價：NT$ 469.0

《流人系列04：幽灵街区午夜文库》
售價：NT$ 352.0

《《重访五四新文化：语言与文学》（五四语言文学研究的经典作品；揭示胡适、鲁迅、周作人等重要人物的文学创作历程，文学革命、白话文运动等重大历史事件的发展脉络）》
售價：NT$ 500.0

《迷宫的线团：培根自然哲学著作选》
售價：NT$ 403.0

《魔鬼的代言人》
售價：NT$ 245.0

《九型人格2：发现你的人格类型》
售價：NT$ 347.0

建議一齊購買：

NT$ 403
《精讲MySQL复杂查询》

NT$ 407
《 SQL Server完全自学教程》

NT$ 556
《 MySQL是怎样运行的从根儿上理解MySQL 》

NT$ 1058
《 Oracle Database 12cR2性能调整与优化（第5版）》

NT$ 348
《大数据：挖掘数据背后的真相》

NT$ 1163
《数据生态治理系统工程》

編輯推薦：

探索五大数据挖掘竞赛场景，掌握解题策略和流程，将理论与实践完美融合。深度解读TOP方案，重现其卓越代码，助力您在竞赛中脱颖而出，提升数据挖掘技能，为实际业务注入更高效能的模型力量。

內容簡介：

本书围绕数据挖掘竞赛，讲解了各种类型数据挖掘竞赛的解题思路、方法和技巧，并辅以对应的实战案例。全书共11章。第1章介绍数据挖掘竞赛的背景、意义和现状。从第2章开始，介绍了各种不同类型的数据挖掘竞赛包括结构化数据、自然语言处理、计算机视觉（图像）、计算机视觉（视频）、强化学习。每种类型的数据挖掘竞赛包含理论篇和实战篇：理论篇介绍通用的解题流程和关键技术；实战篇选取比较有代表性的赛题，对赛题的优秀方案进行深入分析，并提供方案对应的实现代码。
本书适合数据挖掘竞赛爱好者、人工智能相关专业在校大学生、人工智能方向从业人员及对人工智能感兴趣的读者阅读。

關於作者：

许可乐
毕业于法国巴黎六大，目前任教于国防科技大学计算机学院，入选湖湘青年英才人才计划，Kaggle Grandmaster。长期从事智能模型开发与迭代研究。主持或参与自然科学基金、重点研发、国防科技创新特区等相关项目十余项，获军队科技进步奖一项，担任某重大工程项目副总设计师。
在面向复杂开放环境的智能模型算法、支持OODA决策的深度强化学习方法等领域取得一系列原创性的成果，所提出算法在包括ACM KDD Cup 等国际人工智能和数据挖掘竞赛中获奖40余项，部分已经国防关键领域得到实践检验。
在相关智能领域的公认的会议和期刊发表论文80余篇，相关论文被引用1700余次。现任中国自动化学会混合智能专委会委员、中国计算机学会语音对话与听觉专委会执行委员，欧盟/英国科研基金评审专家，担任AAAI等10余个国际顶级会议程序委员，担任20余个国际期刊审稿人，获CCF BDCI优秀指导老师奖。

第1章数据挖掘竞赛介绍 1
1.1 数据挖掘竞赛的发展 1
1.2 数据挖掘竞赛的意义 4
1.3　竞赛平台介绍 5
1.4 各种竞赛的特点 8
1.5 竞赛常用工具 9
第2章结构化数据：理论篇 13
2.1 探索性数据分析 13
2.2 数据预处理 18
2.2.1 缺失值 18
2.2.2 异常值 20
2.2.3 内存优化 21
2.3 特征构造 23
2.3.1 时间特征 23
2.3.2 单变量特征 25
2.3.3 组合特征 27
2.3.4 降维/聚类特征 28
2.3.5 目标值相关特征 30
2.3.6 拼表特征 33
2.3.7 时序特征 39
2.4 特征筛选 41
2.4.1 冗余特征过滤 41
2.4.2 无效/低效特征过滤 42
2.4.3 过拟合特征过滤 45
2.5 模型 49
2.5.1 结构化数据常用模型 49
2.5.2 模型超参数优化 55
2.5.3 线下验证 58
2.6 集成学习 62
2.6.1 投票法 62
2.6.2 平均法 63
2.6.3 加权平均法 64
2.6.4 Stacking 66
2.6.5 Blending 67
第3章结构化数据：实战篇 70
3.1 赛题概览 70
3.2 数据探索 71
3.2.1 标签分布 71
3.2.2 缺失值 72
3.2.3 异常值 73
3.2.4 相关性 73
3.3 优秀方案解读 74
3.3.1 特征工程 75
3.3.2 模型 77
3.3.3 集成学习 80
第4章自然语言处理：理论篇 82
4.1 探索性数据分析 84
4.1.1 文本词数统计 84
4.1.2 高频词统计 85
4.2 数据预处理 86
4.3 数据增强 88
4.3.1 同义词替换 88
4.3.2 回译 89
4.3.3 文本生成 89
4.3.4 元伪标签 90
4.4 模型 91
4.4.1 NLP竞赛的万金油—BERT 91
4.4.2 常用模型backbone及其特点 93
4.4.3 设计BERT类模型的输入 95
4.4.4 设计BERT类模型的neck 98
4.4.5　设计BERT类模型的输出 100
4.5 模型集成 103
4.6 训练技巧 103
4.6.1 动态验证 104
4.6.2 分层学习率 106
4.6.3 对抗训练 108
4.6.4 使用特殊词处理复杂信息 111
4.6.5 任务内掩码语言建模 113
4.6.6 多样本dropout 114
4.6.7 模型权重初始化 116
4.6.8 动态填充 117
4.6.9 根据文本词数顺序推理 118
4.6.10 梯度检查点 119
4.6.11 拓展模型输入长度限制 120
第5章自然语言处理：实战篇 121
5.1 赛题背景 121
5.2 数据介绍 122
5.3 评价指标 123
5.4 冠军方案 124
5.4.1　解码网络 125
5.4.2 特征抽取网络 127
5.4.3 掩码预训练 127
5.4.4 训练技巧 128
5.4.5 模型集成 131
第6章计算机视觉（图像）：理论篇 134
6.1 通用流程 135
6.1.1 数据预处理 135
6.1.2 数据增强 136
6.1.3 预训练 141
6.1.4 模型 142
6.1.5 损失函数 143
6.1.6 集成学习 143
6.1.7 通用技巧 143
6.2 分类任务 147
6.2.1 任务介绍及常用模型 147
6.2.2 损失函数 148
6.2.3 常用技巧 149
6.3 分割任务 150
6.3.1 任务介绍及常用模型 150
6.3.2 损失函数 151
6.3.3 常用技巧 152
6.4 检测任务 154
6.4.1 任务介绍及常用模型 154
6.4.2 损失函数 155
6.4.3 常用技巧 161
第7章计算机视觉（图像）：实战篇 165
7.1 竞赛介绍 165
7.2 数据探索 166
7.2.1 数据基本情况 167
7.2.2 类型分布 167
7.2.3 图像分布 168
7.2.4 标注分布 170
7.3 优秀方案解读 170
7.3.1 检测部分 171
7.3.2 分割部分 175
7.4 更多方案 180
第8章计算机视觉（视频）：理论篇 182
8.1 视频数据与图像数据的区别 182
8.2 常用模型 185
8.3 预训练数据集 188
8.4 任务介绍 189
第9章计算机视觉（视频）：实战篇 192
9.1 赛题背景 192
9.2 数据介绍和评价指标 192
9.3 冠军方案 193
第10章强化学习：理论篇 200
10.1 智能体设计 201
10.1.1 观测输入设计 201
10.1.2 收益设计 204
10.1.3 动作设计 205
10.2 模型设计 206
10.3　算法设计 207
10.3.1 强化学习算法 207
10.3.2 超参数调节 208
10.3.3 训练技巧 210
10.3.4 算法性能评估 211
第11章强化学习：实战篇 212
11.1 赛题任务 212
11.2 环境介绍 213
11.3 评价指标 213
11.4 冠军方案 214

內容試閱：

本书目标
本书旨在给读者提供明确的数据挖掘竞赛方案实现流程，并对其中的关键细节进行讲解，除了提供必要的理论知识，还提供了即插即用的代码。通过阅读此书，读者将了解如何为一个数据挖掘竞赛设计方案，明确方案中的各种细节和具体实现方式，并了解如何对方案进行不断打磨和优化。本书还提供了一些具体的实战案例以帮助读者掌握并强化上述内容。数据挖掘竞赛提供了贴近真实场景的数据集，如果想通过实战的方式来学习数据挖掘的技术，本书是一个很好的选择。
同时本书也可以作为一本工具书，它提供了不同类型（包括结构化数据、自然语言处理、计算机视觉、视频理解、强化学习）场景下，从数据输入到获取最终结果全流程中的各种方法和技巧，这些实用方法和技巧能帮助读者在数据集方面获得显著的效果提升，它们不仅可以用在数据挖掘竞赛中，也可以用于科研以及实际的业务中。
读者对象
无论是想在数据挖掘竞赛中获得更好的成绩，还是提升数据挖掘的技能，抑或是希望在实际业务中提升模型效果，本书都将是一个很好的选择。本书适用的读者对象包括但不限于以下相关人员。
? 数据挖掘竞赛爱好者。
? 人工智能相关专业在校大学生。
? 人工智能方向从业人员。
? 对人工智能感兴趣的读者。
需要注意的是，由于篇幅限制，本书不会从零开始讲解数据挖掘中的知识点，尽管笔者尽可能地以由浅入深的方式讲述全书的内容，但是理想情况下，本书的预期读者应具备一定的机器学习、深度学习以及强化学习的基础，同时还应具备一定的Python使用经验。
如果读者对以下的内容有所了解，就表示大致具备了相应的基础。
? 机器学习：能区分有监督学习和无监督学习，了解训练集、验证集、测试集三者的区别，以及过拟合的概念。
? 深度学习：了解前向传播和反向传播、神经网络中常用的激活函数、随机梯度下降的基本原理。
? 强化学习：了解马尔科夫性质的基本概念、决策环境和环境收益的基本概念、常用的强化学习算法，如DQN、A2C、PPO等。
? Python：了解如何在终端执行py文件、如何使用Jupyter Notebook进行交互式编写和运行代码，用过常见的与数据挖掘相关的Python包，如Numpy、pandas等。
本书聚焦如何根据实际的数据场景选择合适的技术，以及如何以更优的方式使用这些技术，以使得读者在具体的数据集上获得更好的结果，而不是花大量篇幅介绍这些技术的原理。例如，本书不会详细介绍梯度提升决策树的算法原理，而是重点讨论在什么场景下适合使用梯度提升决策树，梯度提升决策树的关键超参数有哪些，以及如何更加高效地对这些超参数进行调参等问题。
本书代码说明
书中的代码统一使用了区别于普通文本的字体，并通过阴影背景加以区分。代码中的关键信息通过注释或文本文字的方式进行描述。本书相关资源可通过封底二维码获取。
编写团队成员
本书由许可乐担任主编，除了负责第1～3章的撰写外，还组织了整个编写团队的工作。第4章由戴亨玮负责，第5章由王彦博和陈生共同完成。第6～9章由蔡晓晨负责，最后的第10～11章由黄世宇负责。
致谢
在本书的编撰过程中，有幸得到了许多朋友和同行的宝贵支持与帮助。
首先，特别要感谢何雨橙、高志锋、刘羽中、包梦蛟、方曦、闫括等人（排名不分先后），他们为本书提供了丰富的素材，并且参与了本书内容的审核工作，他们的专业贡献是本书完成不可或缺的一部分。此外，还要感谢清华大学出版社的王秋阳老师，王老师在整个出版过程中提供了专业的指导和建议。最后，感谢所有阅读本书的读者，你们的支持是我们最大的动力。希望本书能为你们提供价值，同时也期待能继续得到大家的建议和反馈。
勘误和支持
由于笔者水平有限，本书难免会有疏漏和不妥之处，恳请广大读者批评指正。
笔者

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	台灣用户　\|　香港/海外用户

megBook.com.tw
Copyright (C) 2013 - 2025 （香港）大書城有限公司　All Rights Reserved.