新書推薦:
《
首辅养成手册(全三册)(张晚意、任敏主演古装剧《锦绣安宁》原著小说)
》
售價:NT$
551.0
《
清洁
》
售價:NT$
296.0
《
组队:超级个体时代的协作方式
》
售價:NT$
352.0
《
第十三位陪审员
》
售價:NT$
245.0
《
微观经济学(第三版)【2024诺贝尔经济学奖获奖者作品】
》
售價:NT$
709.0
《
Python贝叶斯深度学习
》
售價:NT$
407.0
《
文本的密码:社会语境中的宋代文学
》
售價:NT$
306.0
《
启微·狂骉年代:西洋赛马在中国
》
售價:NT$
357.0
|
編輯推薦: |
(1)作者是风控、AI、算法领域的专家,曾在多家知名金融科技公司从事基于机器学习的风控算法优化工作,经验十分丰富。
(2)从原理、算法、工程实践3个维度全面展开,全面介绍了现阶段风控领域面临的挑战,以及机器学习在各种风控场景中的应用。
(3)基于Python新版本撰写,每个章节都包含问题、案例、算法3个部分,实操性强。
(4)科大讯飞刘鹏等10位专家联袂推荐。
(5)包含21种实用算法与26个解决方案
|
內容簡介: |
内容介绍
本书基于Python全面介绍了机器学习在信贷风控领域的应用与实践,从原理、算法与工程实践3个维度全面展开,包含21种实用算法和26个解决方案。
作者是智能风控、人工智能和算法领域的专家,曾在多加知名金融科技企业从事风控算法方面的研究与实践,经验丰富,本书得到了风控领域9位专家的高度评价。
全书一共8章,每个章节都由问题、算法、案例三部分组成,具有系统性和实战性。
第1-2章讲解了信贷业务的基础知识以及常用的规则引擎、信用评估引擎的建模方法。
第3章以项目冷启动为背景,讲解了风控领域应用广泛的迁移学习方法。
第4-5章介绍了幸存者偏差与不均衡学习中所使用的无监督学习与半监督学习方法。
第6章阐述了无监督的异常识别算法,该算法常用于数据清洗与冷启动项目,是反欺诈引擎中常用的个体欺诈检测方法。
第7章分享了一些经作者实践证明效果较好的模型优化方法,并对模型融合的思路进行了较为详细的介绍。内容介绍
本书基于Python全面介绍了机器学习在信贷风控领域的应用与实践,从原理、算法与工程实践3个维度全面展开,包含21种实用算法和26个解决方案。
作者是智能风控、人工智能和算法领域的专家,曾在多加知名金融科技企业从事风控算法方面的研究与实践,经验丰富,本书得到了风控领域9位专家的高度评价。
全书一共8章,每个章节都由问题、算法、案例三部分组成,具有系统性和实战性。
第1-2章讲解了信贷业务的基础知识以及常用的规则引擎、信用评估引擎的建模方法。
第3章以项目冷启动为背景,讲解了风控领域应用广泛的迁移学习方法。
第4-5章介绍了幸存者偏差与不均衡学习中所使用的无监督学习与半监督学习方法。
第6章阐述了无监督的异常识别算法,该算法常用于数据清洗与冷启动项目,是反欺诈引擎中常用的个体欺诈检测方法。
第7章分享了一些经作者实践证明效果较好的模型优化方法,并对模型融合的思路进行了较为详细的介绍。
第8章重点讲解了知识图谱相关的复杂网络基础知识及网络表示学习方法,其中的社区发现算法常用于团伙欺诈检测。此外,本章中的部分方法对信用评估模型的优化也有很大帮助。
|
關於作者: |
作者介绍
梅子行
风控技术专家、AI技术专家和算法专家,现就职于满帮科技,负责机器学习在风控领域的算法优化。历任多家知名金融科技公司的风控算法研究员、数据挖掘工程师。
师承Experian、Discover等企业的风控专家,擅长深度学习、复杂网络、迁移学习、异常检测等非传统机器学习方法,热衷于数据挖掘以及算法的跨领域优化实践。
公众号与知乎专栏:“大数据风控与机器学习”。
|
目錄:
|
推荐序
前言
第1章 风控建模与规则挖掘 1
1.1 信贷与风险 1
1.1.1 信贷业务与互联网金融风控体系 1
1.1.2 信贷风险与控制 4
1.2 工业建模流程 5
1.2.1 抽象业务 6
1.2.2 定义标签 6
1.2.3 样本选取 7
1.2.4 特征工程与模型调优 9
1.2.5 上线监控与评估报表 10
1.3 规则挖掘方案 13
1.4 本章小结 20
第2章 集成模型评分卡 21
2.1 特征工程解析 21
2.1.1 特征与模型 22
2.1.2 信用模型的特征 22
2.2 特征衍生方案 24
2.3 离散处理 27
2.3.1 one-hot编码 27
2.3.2 WOE编码 28
2.4 迭代特征筛选方案 33
2.5 自动化调参 38
2.5.1 自动化调参策略 38
2.5.2 参数搜索方案 39
2.5.3 调参框架搭建 40
2.6 递归特征删除方案 43
2.7 评分卡制作 44
2.7.1 逻辑回归评分卡 45
2.7.2 集成模型的评分映射 55
2.7.3 针对业务改写评价函数 59
2.8 本章小结 60
第3章 迁移学习与冷启动 61
3.1 迁移学习基础 61
3.1.1 应用场景 62
3.1.2 概念介绍 62
3.2 迁移学习方法论 63
3.2.1 三类常见算法 63
3.2.2 迁移的实现方法 64
3.3 少量有标签样本的迁移方案 65
3.3.1 TrAdaBoost模型 65
3.3.2 跨场景迁移模型 67
3.4 无标签样本迁移之JDA 76
3.4.1 JDA模型 76
3.4.2 模型应用 79
3.5 无标签样本迁移之DTELM 80
3.5.1 ELM模型 81
3.5.2 DTELM模型 82
3.5.3 模型应用 84
3.6 迁移样本筛选方案 88
3.6.1 背景介绍 88
3.6.2 算法框架概览 88
3.6.3 搭建融合框架 89
3.7 本章小结 93
第4章 幸存者偏差 95
4.1 幸存者偏差的含义 95
4.2 增量学习 96
4.3 生成对抗网络 97
4.3.1 GAN模型介绍 98
4.3.2 GAN与幸存者偏差 99
4.4 高斯混合模型 100
4.4.1 GMM算法原理 101
4.4.2 GMM简单应用 103
4.4.3 GMM中的概率模型 104
4.4.4 GMM样本生成 107
4.5 信息准则 110
4.5.1 赤池信息准则 110
4.5.2 贝叶斯信息准则 111
4.5.3 AIC与BIC比较 111
4.6 本章小结 112
第5章 不均衡学习 113
5.1 样本不均衡 113
5.2 代价敏感加权方案 114
5.3 插值过采样方案 115
5.3.1 SMOTE算法 115
5.3.2 过采样算法实践 116
5.4 半监督学习方案 121
5.4.1 前提假设 122
5.4.2 S3VM 122
5.4.3 LP 127
5.5 本章小结 130
第6章 异常检测 132
6.1 离群点与欺诈检测 133
6.2 z-score检验 134
6.3 LOF异常检测法 134
6.3.1 原理与算法流程 135
6.3.2 LOF样本清洗方案 137
6.4 IF异常检测法 139
6.4.1 原理与算法流程 139
6.4.2 PreA模型与冷启动 141
6.5 本章小结 144
第7章 模型优化 145
7.1 多损失函数分段预测 145
7.1.1 两种损失函数 146
7.1.2 融合流程 146
7.2 树模型特征衍生 149
7.2.1 GBDT离散化 149
7.2.2 融合方案详解 150
7.2.3 特征衍生细节 151
7.2.4 案例 151
7.3 时间序列建模 160
7.3.1 RNN 160
7.3.2 LSTM 163
7.3.3 门控结构 164
7.3.4 LSTM行为评分卡案例 166
7.4 高维稀疏数据建模 170
7.4.1 算法原理 171
7.4.2 算法应用 172
7.5 模型融合 173
7.5.1 模型融合基础 173
7.5.2 模型筛选 174
7.5.3 业务应用方案 181
7.6 本章小结 183
第8章 知识图谱 184
8.1 复杂网络基础 184
8.2 中心度与相似性 187
8.3 节点分类 193
8.3.1 朴素节点分类 193
8.3.2 邻节点加权投票 195
8.3.3 一致性标签传播 197
8.4 社区发现算法 200
8.4.1 基础概念 200
8.4.2 Girvan-Newman算法 201
8.4.3 Louvain算法 202
8.4.4 社区评估 204
8.5 网络表示学习 206
8.5.1 矩阵分解 207
8.5.2 节点嵌入 210
8.6 图卷积神经网络 215
8.6.1 卷积神经网络 215
8.6.2 傅里叶变换 217
8.6.3 拉普拉斯算子 219
8.6.4 GCN中的图卷积 221
8.7 本章小结 225
参考文献 226
|
內容試閱:
|
为什么要写这本书
风控是机器学习新兴的应用场景之一,该应用场景特点非常明显:
第一,负样本占比极少,是不均衡学习(Imbalance Learning)的典型应用之一。有标签样本的稀缺,使得半监督和无监督算法在风控场景下大放异彩。
第二,业务对模型解释性要求偏高。同时业务对时效性也有一定要求,所以在实际建模中需要权衡模型复杂度与精度,并且适当优化算法内核。
第三,业务模型多样。每一个模型都和业务目标有着非常紧密的联系,因此每一个从业者都需要对业务和模型有很好的理解,从而为业务定制合适的模型。
第四,风控数据源丰富。围绕人展开的数据皆可用,而数据的多样性带来的是新兴技术的井喷,结构化数据、图像、文本等多个领域的方法都在风控领域有一定应用。
风控的子方向有很多,如信贷平台的贷款欺诈检测、社交平台的垃圾内容检测、媒体平台的流量作弊检测等。各个方向的场景大多具有相似的特点,虽然因数据源不同,实际应用中的算法选择略有差异,但整体的算法应用策略一致。在各场景中,信贷业务经过简化后相对容易理解,并且数据多元,包括结构化数据、时间序列数据、文本数据等。读者在了解基本的信贷概念后,就可以快速展开对机器学习相关内容的学习了。
笔者研读市面上智能风控相关的学习资料时发现,入门资料非常丰富,而专门介绍风控领域机器学习技术的进阶资料几乎没有,因此决心写一本构建风控领域机器学习体系的书,且希望原理与实践并重,帮助入门后的从业者进一步学习提高。本书围绕信贷风控展开,重点介绍欺诈检测的机器学习方法。
读者对象
本书主要面向从事风险控制工作的广大分析师、建模师、算法工程师,也适合对传统信用评分卡有初步认识的在校学生,以及对机器学习在风控领域应用感兴趣的读者。
本书特色
与市面上许多风控建模相关的图书不同,本书主要使用机器学习方法进行信用管理,而不是使用传统的统计分析手段与逻辑回归评分卡的内容。有关构建信贷评分卡的内容,本书最后的参考文献中所列的书籍已经讲解得非常透彻了,因此传统评分卡在本书中仅以对比机器学习评分卡的形式出现。对于信贷领域的基础概念,本书不作过多展开,只对本书中涉及的部分加以解释。
本书初稿的篇幅是目前的两倍以上,详细介绍了风控领域每一个场景的算法原理及业务逻辑,但经与专业人士反复探讨,笔者最终决定将与参考文献中所列图书重合度较高的内容去掉,而将笔墨集中在解决问题相关的算法及实际应用上。
本书的大部分章节都由问题、算法、案例三部分组成。期望读者通过对本书的阅读,可以更快、更好地解决实际问题,而非纸上谈兵。本书中的案例大多为业内尚未普及的前沿案例,希望能够对读者有所启发。
本书中有大量公式和代码,为提高可读性,特邀请资深设计师毛鑫宇老师为本书手绘素材及插图,希望在保证内容丰富、严谨、实用的同时,让读者感受到读书的乐趣。
如何阅读这本书
本书是一本专注于介绍机器学习算法在风控领域的应用的书籍,具有很强的实践性。全书共8章,包含21种实用算法与26种解决方案。
第1~2章讲解了信贷业务的基础知识及常用的规则引擎、信用评估引擎的建模方法。
第3章围绕迁移学习展开,并以项目冷启动为背景进行介绍。迁移学习在风控领域的应用非常广泛。
第4~5章介绍了幸存者偏差与不均衡学习中所使用的无监督学习与半监督学习方法。在实际应用中,迁移学习可以为这两种场景带来很多帮助。
第6章重点讲解了无监督的异常识别算法。该方法常用于数据清洗与冷启动项目,是反欺诈引擎中常用的个体欺诈检测方法。
第7章分享了一些经笔者实践证明效果较好的模型优化方法,并对模型融合的思路进行了较为详细的介绍。
第8章重点介绍了知识图谱相关的复杂网络基础知识及网络表示学习方法,其中的社区发现算法常用于团伙欺诈检测。除团伙欺诈检测外,第8章所涉及的部分方法对信用评估模型的优化也有很大帮助。
本书更多是为读者提供一些实践经验以及深入挖掘的方向,读者可以在本书基础上进行深入研究与实践。笔者认为阅读一本书应分为两大阶段:第一阶段将书“由厚读薄”,抽象出主体知识与脉络架构,形成自己的思维体系;第二阶段将书“由薄读厚”,将抽象的思维体系与书本内容进行交叉验证,发现其中的细节,并加以引申。切勿在第一阶段结束后就自以为掌握了核心思想而不再有进取之心。希望读者在阅读本书时能多思考、多总结、勤于实践,最终实现学以致用。
本书的内容结构如下图所示。
勘误与支持
写作本书时虽力求完美,但由于作者水平有限,错误和疏漏之处在所难免,在此,期望得到各领域专家和广大读者的批评指正。如果你有关于本书的建议或意见,欢迎发送邮件至yfc@hzbook.com。
本书内容结构
致谢
感谢机械工业出版社华章公司策划编辑杨福川老师、责任编辑罗词亮老师,以及本书的封面、插画、素材设计者毛鑫宇老师。以上各位为本书花费了大量的时间和精力,并在本书的创作过程中提出了宝贵的修改建议,特此感谢。
感谢赵越老师(知乎ID:微调),其开发维护的PyOD库为异常检测方法的实际应用提供了极大便利。感谢公众号“人工智能爱好者社区”负责人邬书豪兄、公众号“风控圈子”负责人孙耀武兄对本书的大力支持,以及梁官雪老师、周立烽老师等数十位好友在日常交流、工作中对我的指导。
感谢参与本书出版的全部工作人员的付出以及各位同事、朋友为本书带来的灵感。
|
|