新書推薦:
《
中国古代北方民族史丛书——东胡史
》
售價:NT$
576.0
《
巨人传(插图珍藏本)
》
售價:NT$
3289.0
《
地下(村上春树沙林毒气事件的长篇纪实)
》
售價:NT$
332.0
《
偿还:债务与财富的阴暗面
》
售價:NT$
347.0
《
清华大学藏战国竹简校释(壹):《命训》诸篇
》
售價:NT$
408.0
《
封建社会农民战争问题导论(光启文库)
》
售價:NT$
296.0
《
虚弱的反攻:开禧北伐
》
售價:NT$
429.0
《
泰山:一种中国信仰专论(法国汉学经典译丛)
》
售價:NT$
380.0
|
內容簡介: |
《智能风控:Python金融风险管理与评分卡建模》入门篇
本书基于Python讲解了信用风险管理和评分卡建模,用漫画的风格,从风险业务、统计分析方法、机器学习模型3个维度展开,详细讲解了信用风险量化相关的数据分析与建模手段,并提供大量的应用实例。作者在多家知名金融公司从事算法研究多年,经验丰富,本书得到了学术界和企业界多位金融风险管理专家的高度评价。
全书一共9章,首先介绍了信用风险量化的基础,然后依次讲解了信用评分模型开发过程中的数据处理、用户分群、变量处理、变量衍生、变量筛选、模型训练、拒绝推断、模型校准、决策应用、模型监控、模型重构与迭代、模型报告撰写等内容。
所有章节都由问题、算法、案例三部分组成,针对性和实战性都非常强。
《智能风控:原理、算法与工程实践》进阶篇《智能风控:Python金融风险管理与评分卡建模》入门篇
本书基于Python讲解了信用风险管理和评分卡建模,用漫画的风格,从风险业务、统计分析方法、机器学习模型3个维度展开,详细讲解了信用风险量化相关的数据分析与建模手段,并提供大量的应用实例。作者在多家知名金融公司从事算法研究多年,经验丰富,本书得到了学术界和企业界多位金融风险管理专家的高度评价。
全书一共9章,首先介绍了信用风险量化的基础,然后依次讲解了信用评分模型开发过程中的数据处理、用户分群、变量处理、变量衍生、变量筛选、模型训练、拒绝推断、模型校准、决策应用、模型监控、模型重构与迭代、模型报告撰写等内容。
所有章节都由问题、算法、案例三部分组成,针对性和实战性都非常强。
《智能风控:原理、算法与工程实践》进阶篇
本书基于Python全面介绍了机器学习在信贷风控领域的应用与实践,从原理、算法与工程实践3个维度全面展开,包含21种实用算法和26个解决方案。
全书一共8章,每个章节都由问题、算法、案例三部分组成,具有系统性和实战性。
第1-2章讲解了信贷业务的基础知识以及常用的规则引擎、信用评估引擎的建模方法。
第3章以项目冷启动为背景,讲解了风控领域应用广泛的迁移学习方法。
第4-5章介绍了幸存者偏差与不均衡学习中所使用的无监督学习与半监督学习方法。
第6章阐述了无监督的异常识别算法,该算法常用于数据清洗与冷启动项目,是反欺诈引擎中常用的个体欺诈检测方法。
第7章分享了一些经作者实践证明效果较好的模型优化方法,并对模型融合的思路进行了较为详细的介绍。
第8章重点讲解了知识图谱相关的复杂网络基础知识及网络表示学习方法,其中的社区发现算法常用于团伙欺诈检测。此外,本章中的部分方法对信用评估模型的优化也有很大帮助。
|
關於作者: |
梅子行
资深风控技术专家、AI技术专家和算法专家,历任多家知名金融科技公司的算法研究员、数据挖掘工程师。师承Experian、Discover等企业的资深风控专家,擅长深度学习、复杂网络、迁移学习、异常检测等非传统机器学习方法,热衷于数据挖掘以及算法的跨领域优化实践。
著有畅销书《智能风控:原理、算法与工程实践》,是本书的姊妹篇。
公众号与知乎专栏:大数据风控与机器学习。
荣获DD第六届影响力作家评选科技新星作家奖。
毛鑫宇梅子行
资深风控技术专家、AI技术专家和算法专家,历任多家知名金融科技公司的算法研究员、数据挖掘工程师。师承Experian、Discover等企业的资深风控专家,擅长深度学习、复杂网络、迁移学习、异常检测等非传统机器学习方法,热衷于数据挖掘以及算法的跨领域优化实践。
著有畅销书《智能风控:原理、算法与工程实践》,是本书的姊妹篇。
公众号与知乎专栏:大数据风控与机器学习。
荣获DD第六届影响力作家评选科技新星作家奖。
毛鑫宇
资深品牌视觉设计师、插画设计师。曾任职国内知名文旅公司品牌设计师,设计打造知名文化旅游目的地及品牌设计案例,作为插画设计师完成《智能风控:原理、算法与工程实践》一书。擅长品牌视觉设计、IP形象设计、插画设计,致力于用设计创造价值,让设计在跨领域合作中碰撞出更多的可能性。站酷设计师主页为白鸽巡游记。
|
目錄:
|
《智能风控:Python金融风险管理与评分卡建模》目录
前言
第1章 信用管理基础 1
第2章 评分卡 11
第3章 机器学习 27
第4章 用户分群 87
第5章 数据探索与特征工程 120
第6章 特征筛选与建模 159
第7章 拒绝推断 190
第8章 模型校准与决策 205
第9章 模型文档 220
《智能风控:原理、算法与工程实践》目录
推荐序
前言
第1章 风控建模与规则挖掘 1
第2章 集成模型评分卡 21
第3章 迁移学习与冷启动 61
第4章 幸存者偏差 95
第5章 不均衡学习 113
第6章 异常检测 132
第7章 模型优化 145
第8章 知识图谱 184
参考文献 226
前言《智能风控:Python金融风险管理与评分卡建模》
风控是机器学习新兴的应用场景之一,该应用场景特点非常明显:
第一,负样本占比极少,是不均衡学习(Imbalance Learning)的典型应用之一。有标签样本的稀缺,使得半监督和无监督算法在风控场景下大放异彩。
第二,业务对模型解释性要求偏高。同时业务对时效性也有一定要求,所以在实际建模中需要权衡模型复杂度与精度,并且适当优化算法内核。
第三,业务模型多样。每一个模型都和业务目标有着非常紧密的联系,因此每一个从业者都需要对业务和模型有很好的理解,从而为业务定制合适的模型。
第四,风控数据源丰富。围绕人展开的数据皆可用,而数据的多样性带来的是新兴技术的井喷,结构化数据、图像、文本等多个领域的方法都在风控领域有一定应用。
风控的子方向有很多,如信贷平台的贷款欺诈检测、社交平台的垃圾内容检测、媒体平台的流量作弊检测等。各个方向的场景大多具有相似的特点,虽然因数据源不同,实际应用中的算法选择略有差异,但整体的算法应用策略一致。在各场景中,信贷业务经过简化后相对容易理解,并且数据多元,包括结构化数据、时间序列数据、文本数据等。读者在了解基本的信贷概念后,就可以快速展开对机器学习相关内容的学习了。《智能风控:Python金融风险管理与评分卡建模》
为何写作本书
互联网金融与金融科技是数据从业者较为关注的方向之一。风险控制是金融的核心。信贷场景下的风险,很大程度上取决于贷款人的信用风险。因此,如何对贷款用户的信用风险进行合理度量,是信贷平台关注的首要问题。
信贷风控的建模方法由来已久,笔者在另一本著作《智能风控:原理、算法与工程实践》中重点介绍了互联网金融场景下机器学习在金融科技中的应用方法与技术实现。市面上大多数信用评分建模的指导书籍都是基于SAS开发或不涉及工程实现的。因此,为推广传统信用评分方法,我们决定撰写本书。
本书完整地介绍了如何基于Python语言从0到1建立信用评分模型,并系统介绍了建立模型之后,如何通过拒绝推断及校准来修正模型与真实场景的偏差。此外,本书还介绍了如何上线部署,以及后续的监控与迭代中的注意事项。希望读者阅读本书后,可以学习到规范、完整的评分卡建模体系,可以使用Python独立地建立标准评分卡模型,并通过模型与策略相组合的方法实现对贷款用户的信用管理。
本书主要内容
第1章主要介绍了信用管理的基础知识。风控场景对业务知识的储备有较高要求,而市面上也缺少相关名词的规范化材料,因此本章对相关术语进行了解释,并给出了统一的定义。此外,本章还详细地介绍了现阶段企业的风险控制架构。了解整个风控框架,有助于读者理解场景中的具体问题的成因,从而精准定义问题,理解每一项技术的原理。
第2章主要介绍评分卡的相关概念,规范了评分卡模型的建模流程。从适用客群和用途两个角度揭示了从业者定义评分卡的思路,并且对整个建模流程中最重要的步骤模型设计,进行了详细的梳理。此外,本章还对常用于评分卡建模的数据进行了解读。
第3章主要讲解了评分卡建模中常用的机器学习算法。从机器学习基础出发,由简单的线性回归,逐步进阶到具有良好解释性的逻辑回归模型。除直接用于评分卡建模的逻辑回归模型外,本章还介绍了几种常用的辅助建模模型。最后,还介绍了一些模型之间相互取长补短的合并方法,它们在实践和数据挖掘竞赛中也有较好的效果。
第4章主要介绍了几种常用的用户分群方法,同时系统地介绍了决策树模型和高斯混合聚类模型的原理,并给出了一种基于决策树模型和卡方分箱实现自动生成策略组合的分析方法。虽然用户分群并非评分卡建模的必备流程,但在大多数情况下,它可以为业务带来实际收益。
第5章主要介绍了探索性数据分析、特征衍生、特征变换的基本方法。由于评分卡中常用的广义线性模型只使用了特征的简单加权求和信息,缺乏对特征的深度挖掘能力,因此评分卡模型对人工特征工程的要求远高于其他场景。这一章介绍的特征衍生与特征变换操作是评分卡建模过程中非常重要的环节,该过程耗费的时间通常会占整个开发流程的60%~70%。
第6章主要介绍了特征筛选和模型训练方法。评分卡模型对稳定性的要求通常要高于准确性,因此需要对建模使用的特征进行精细化调优与筛选。特征变换调优过程在第5章中有相关介绍,特征筛选方法则主要集中在第6章。这一章的末尾为读者展示了一个建立评分卡模型的案例。希望读者可以通过该案例理解前6章所介绍的技术是如何应用的。
第7章主要介绍了如何对建立好的评分卡模型进行拒绝推断。信用评分模型本身是一种拥有拒绝属性的模型,幸存者偏差问题会导致每次迭代的模型逐渐偏离真实环境下的数据分布,因此需要通过数据验证、标签分裂、数据推断等方法对现有模型进行修正。
第8章主要介绍了评分卡模型建立之后的应用逻辑和校准方法。模型只是一种嵌入在策略体系中的技术手段,其本质是为策略服务的。在实际应用中,模型分数也常常作为一条单独的规则进行配置。由于一些难以避免的原因,评分卡模型通常需要进行校准,因此这一章对常用的校准方法及其使用场景进行了梳理。
第9章主要介绍了模型开发后的记录工作。由于在实际工作中常常需要多人进行交互,且经常需要回溯很久之前开发过的模型详情,因此保证每一个模型都拥有详细的记录是非常重要的。这一章给出了一个完整的评分卡模型开发文档,以便于读者参考,从而完善现有的模型记录文档。
《智能风控:原理、算法与工程实践》
为什么要写这本书
风控是机器学习新兴的应用场景之一,该应用场景特点非常明显:
第一,负样本占比极少,是不均衡学习(Imbalance Learning)的典型应用之一。有标签样本的稀缺,使得半监督和无监督算法在风控场景下大放异彩。
第二,业务对模型解释性要求偏高。同时业务对时效性也有一定要求,所以在实际建模中需要权衡模型复杂度与精度,并且适当优化算法内核。
第三,业务模型多样。每一个模型都和业务目标有着非常紧密的联系,因此每一个从业者都需要对业务和模型有很好的理解,从而为业务定制合适的模型。
第四,风控数据源丰富。围绕人展开的数据皆可用,而数据的多样性带来的是新兴技术的井喷,结构化数据、图像、文本等多个领域的方法都在风控领域有一定应用。
风控的子方向有很多,如信贷平台的贷款欺诈检测、社交平台的垃圾内容检测、媒体平台的流量作弊检测等。各个方向的场景大多具有相似的特点,虽然因数据源不同,实际应用中的算法选择略有差异,但整体的算法应用策略一致。在各场景中,信贷业务经过简化后相对容易理解,并且数据多元,包括结构化数据、时间序列数据、文本数据等。读者在了解基本的信贷概念后,就可以快速展开对机器学习相关内容的学习了。
笔者研读市面上智能风控相关的学习资料时发现,入门资料非常丰富,而专门介绍风控领域机器学习技术的进阶资料几乎没有,因此决心写一本构建风控领域机器学习体系的书,且希望原理与实践并重,帮助入门后的从业者进一步学习提高。本书围绕信贷风控展开,重点介绍欺诈检测的机器学习方法。
|
內容試閱:
|
《智能风控:Python金融风险管理与评分卡建模》
为何写作本书
互联网金融与金融科技是数据从业者较为关注的方向之一。风险控制是金融的核心。信贷场景下的风险,很大程度上取决于贷款人的信用风险。因此,如何对贷款用户的信用风险进行合理度量,是信贷平台关注的首要问题。
信贷风控的建模方法由来已久,笔者在另一本著作《智能风控:原理、算法与工程实践》中重点介绍了互联网金融场景下机器学习在金融科技中的应用方法与技术实现。市面上大多数信用评分建模的指导书籍都是基于SAS开发或不涉及工程实现的。因此,为推广传统信用评分方法,我们决定撰写本书。
本书完整地介绍了如何基于Python语言从0到1建立信用评分模型,并系统介绍了建立模型之后,如何通过拒绝推断及校准来修正模型与真实场景的偏差。此外,本书还介绍了如何上线部署,以及后续的监控与迭代中的注意事项。希望读者阅读本书后,可以学习到规范、完整的评分卡建模体系,可以使用Python独立地建立标准评分卡模型,并通过模型与策略相组合的方法实现对贷款用户的信用管理。
本书主要内容
第1章主要介绍了信用管理的基础知识。风控场景对业务知识的储备有较高要求,而市面上也缺少相关名词的规范化材料,因此本章对相关术语进行了解释,并给出了统一的定义。此外,本章还详细地介绍了现阶段企业的风险控制架构。了解整个风控框架,有助于读者理解场景中的具体问题的成因,从而精准定义问题,理解每一项技术的原理。
第2章主要介绍评分卡的相关概念,规范了评分卡模型的建模流程。从适用客群和用途两个角度揭示了从业者定义评分卡的思路,并且对整个建模流程中最重要的步骤模型设计,进行了详细的梳理。此外,本章还对常用于评分卡建模的数据进行了解读。
第3章主要讲解了评分卡建模中常用的机器学习算法。从机器学习基础出发,由简单的线性回归,逐步进阶到具有良好解释性的逻辑回归模型。除直接用于评分卡建模的逻辑回归模型外,本章还介绍了几种常用的辅助建模模型。最后,还介绍了一些模型之间相互取长补短的合并方法,它们在实践和数据挖掘竞赛中也有较好的效果。
第4章主要介绍了几种常用的用户分群方法,同时系统地介绍了决策树模型和高斯混合聚类模型的原理,并给出了一种基于决策树模型和卡方分箱实现自动生成策略组合的分析方法。虽然用户分群并非评分卡建模的必备流程,但在大多数情况下,它可以为业务带来实际收益。
第5章主要介绍了探索性数据分析、特征衍生、特征变换的基本方法。由于评分卡中常用的广义线性模型只使用了特征的简单加权求和信息,缺乏对特征的深度挖掘能力,因此评分卡模型对人工特征工程的要求远高于其他场景。这一章介绍的特征衍生与特征变换操作是评分卡建模过程中非常重要的环节,该过程耗费的时间通常会占整个开发流程的60%~70%。
第6章主要介绍了特征筛选和模型训练方法。评分卡模型对稳定性的要求通常要高于准确性,因此需要对建模使用的特征进行精细化调优与筛选。特征变换调优过程在第5章中有相关介绍,特征筛选方法则主要集中在第6章。这一章的末尾为读者展示了一个建立评分卡模型的案例。希望读者可以通过该案例理解前6章所介绍的技术是如何应用的。
第7章主要介绍了如何对建立好的评分卡模型进行拒绝推断。信用评分模型本身是一种拥有拒绝属性的模型,幸存者偏差问题会导致每次迭代的模型逐渐偏离真实环境下的数据分布,因此需要通过数据验证、标签分裂、数据推断等方法对现有模型进行修正。
第8章主要介绍了评分卡模型建立之后的应用逻辑和校准方法。模型只是一种嵌入在策略体系中的技术手段,其本质是为策略服务的。在实际应用中,模型分数也常常作为一条单独的规则进行配置。由于一些难以避免的原因,评分卡模型通常需要进行校准,因此这一章对常用的校准方法及其使用场景进行了梳理。
第9章主要介绍了模型开发后的记录工作。由于在实际工作中常常需要多人进行交互,且经常需要回溯很久之前开发过的模型详情,因此保证每一个模型都拥有详细的记录是非常重要的。这一章给出了一个完整的评分卡模型开发文档,以便于读者参考,从而完善现有的模型记录文档。
《智能风控:原理、算法与工程实践》
为什么要写这本书
风控是机器学习新兴的应用场景之一,该应用场景特点非常明显:
第一,负样本占比极少,是不均衡学习(Imbalance Learning)的典型应用之一。有标签样本的稀缺,使得半监督和无监督算法在风控场景下大放异彩。
第二,业务对模型解释性要求偏高。同时业务对时效性也有一定要求,所以在实际建模中需要权衡模型复杂度与精度,并且适当优化算法内核。
第三,业务模型多样。每一个模型都和业务目标有着非常紧密的联系,因此每一个从业者都需要对业务和模型有很好的理解,从而为业务定制合适的模型。
第四,风控数据源丰富。围绕人展开的数据皆可用,而数据的多样性带来的是新兴技术的井喷,结构化数据、图像、文本等多个领域的方法都在风控领域有一定应用。
风控的子方向有很多,如信贷平台的贷款欺诈检测、社交平台的垃圾内容检测、媒体平台的流量作弊检测等。各个方向的场景大多具有相似的特点,虽然因数据源不同,实际应用中的算法选择略有差异,但整体的算法应用策略一致。在各场景中,信贷业务经过简化后相对容易理解,并且数据多元,包括结构化数据、时间序列数据、文本数据等。读者在了解基本的信贷概念后,就可以快速展开对机器学习相关内容的学习了。
笔者研读市面上智能风控相关的学习资料时发现,入门资料非常丰富,而专门介绍风控领域机器学习技术的进阶资料几乎没有,因此决心写一本构建风控领域机器学习体系的书,且希望原理与实践并重,帮助入门后的从业者进一步学习提高。本书围绕信贷风控展开,重点介绍欺诈检测的机器学习方法。
|
|