新書推薦:
《
宋瑞驻村日记(2012-2022)
》
售價:NT$
539.0
《
汗青堂丛书138·帝国的切口:近代中国口岸的冲突与交流(1832-1914)
》
售價:NT$
594.0
《
人世事,几完缺 —— 啊,晚明
》
售價:NT$
539.0
《
樊树志作品:重写明晚史系列(全6册 崇祯传+江南市镇的早期城市化+明史十二讲+图文中国史+万历传+国史十六讲修订版)
》
售價:NT$
2215.0
《
真谛全集(共6册)
》
售價:NT$
5390.0
《
敦煌通史:魏晋北朝卷
》
售價:NT$
780.0
《
唯美手编16:知性优雅的编织
》
售價:NT$
250.0
《
情绪的惊人力量:跟随内心的指引,掌控情绪,做心想事成的自己
》
售價:NT$
230.0
|
編輯推薦: |
数据融合归因分析
解释性研究
数据挖掘风险预警
信用评估监控系统
|
內容簡介: |
本书聚焦于个人层面的信用违约技术研究、风险预警与监控系统的实现,但其中的技术 也可以便捷地应用于企业征信。全书由浅入深、循序渐进地讲述了大数据时代下的征信技术。 全书分为三个部分,部分是基础技术研究,介绍了征信业务中多源、多模态数据的融合 方法,以及大数据征信模型的归因分析与解释性研究;第二部分是信用评估技术研究,包括 大数据征信场景下时序数据的挖掘与分析,违约风险评估预警技术,以及不同区域的差异性 对于信用情况的影响;第三部分聚焦于信用评估系统研发,从全局角度描述了一个信用评估 与监控预警系统的实现。
|
關於作者: |
孙圣力,博士,北京大学副教授,南京博雅区块链研究院副院长,复旦大学计算机软件与理论专业博士;主要研究方向为大数据、数据科学、机器学习、智慧医疗、服务计算。
罗宁,博士,高级工程师,现任职于中国科学院软件研究所;长期从事政府数据治理,金融信息安全及分布式计算方面的研究工作。
张福浩,博士,中国测绘科学研究院地理空间大数据应用研究中心主任,自然资源部青年技术带头人;中国地理信息产业协会政务GIS委员会主任委员,发改委系统整合专家组成员。
|
目錄:
|
部分 基础技术研究
第1章 多源多模态征信大数据融合方法 2
1.1 多模态融合概述 3
1.1.1 研究背景与意义 3
1.1.2 研究现状 5
1.1.3 研究内容 10
1.2 多模态融合相关理论技术 12
1.2.1 众包标注 12
1.2.2 众包数据的消噪 13
1.2.3 图像分类 19
1.2.4 多模态数据融合 25
1.2.5 协同学习 29
1.3 基于协同学习技术的决策级融合方法 33
1.3.1 任务描述 33
1.3.2 多源同构数据融合方法:CT-MID 34
1.3.3 CT-MID模块说明 35
1.3.4 实验分析 41
1.3.5 方法分析 45
1.4 基于多模态适配器的特征级融合方法 50
1.4.1 任务描述 50
1.4.2 多源异构数据融合方法:MLP-Adapter 51
1.4.3 实验结果 55
1.5 基于协同学习的多源数据融合原型系统 59
1.5.1 系统组成单元 59
1.5.2 功能展示 61
第2章 大数据征信归因分析及模型可解释性研究 66
2.1 大数据征信分析概述 67
2.1.1 研究背景与意义 67
2.1.2 研究现状 68
2.1.3 问题与挑战 72
2.1.4 研究内容 77
2.2 相关理论技术 78
2.2.1 特征选择方法 78
2.2.2 因果模型 81
2.2.3 模型的可解释方法 83
2.3 归因分析技术研究 87
2.3.1 归因分析总体流程设计 87
2.3.2 实验评估:归因分析 93
2.4 模型可解释性提升技术研究 101
2.4.1 可解释性提升方法设计 101
2.4.2 实验一:整体可解释性提升 107
2.4.3 实验二:个体可解释性提升 116
2.5 原型系统的设计与实现 124
2.5.1 系统业务流程设计 124
2.5.2 系统功能架构设计 126
2.5.3 效果展示 128
2.5.4 系统测试 135
第二部分 信用评估技术研究
第3章 基于时序行为分析的信用评估技术 140
3.1 时序行为信用评估概述 141
3.1.1 研究背景与意义 141
3.1.2 研究现状 142
3.1.3 研究内容 144
3.2 相关理论技术 144
3.2.1 基于神经网络的模型 144
3.2.2 图嵌入模型 149
3.3 数据准备与特征工程 152
3.3.1 数据准备 152
3.3.2 数据观察 154
3.3.3 数据清洗 156
3.3.4 特征工程 157
3.4 基于时序行为的征信评估模型设计 163
3.4.1 模型总体设计 163
3.4.2 基于Auto-Encoder LSTM模型的交易序列特征编码 164
3.4.3 基于Node2Vec模型的行为序列特征编码 168
3.4.4 基于特征融合的用户信用评估模型 173
3.5 模型验证与原型系统 176
3.5.1 模型验证 176
3.5.2 原型系统设计与实现 184
第4章 征信大数据频繁模式与关联规则挖掘 192
4.1 征信大数据挖掘概述 193
4.1.1 研究现状 193
4.1.2 问题描述 197
4.1.3 研究内容 198
4.2 相关理论技术 198
4.2.1 数据融合的相关技术 198
4.2.2 动态关联规则挖掘的相关技术 203
4.3 多源征信大数据融合方法 207
4.3.1 数据融合 207
4.3.2 数据融合方法 209
4.3.3 多源异构数据的融合模型 212
4.3.4 实验结果与分析 217
4.4 结构化征信大数据动态关联规则挖掘算法 219
4.4.1 动态关联规则的形式化定义 219
4.4.2 与静态关联规则的比较 220
4.4.3 动态关联规则的评价 221
4.4.4 动态关联规则挖掘算法 221
4.4.5 实验结果与分析 224
4.5 流式半结构化征信大数据频繁项集挖掘算法 227
4.5.1 数据流与半结构化数据 227
4.5.2 树结构模型挖掘的相关定义 229
4.5.3 两个改进 230
4.5.4 改进的挖掘算法 235
4.6 实验结果与分析 238
4.6.1 实验数据 238
4.6.2 实验结果 238
第5章 信用风险违约识别与预警技术 242
5.1 信用风险违约概述 243
5.1.1 研究背景与意义 243
5.1.2 研究现状 245
5.1.3 研究内容 250
5.2 相关理论技术 251
5.2.1 个人信用评估指标体系 251
5.2.2 个人信用评估模型技术 253
5.3 信用风险数据与数据预处理 263
5.3.1 数据来源 263
5.3.2 数据信息 265
5.3.3 缺失值分析 268
5.3.4 分类变量 270
5.3.5 连续变量的离散化 273
5.3.6 异常值处理 274
5.3.7 领域变量处理 276
5.4 个人信用风险违约识别与预警模型设计 276
5.4.1 模型设计分析 277
5.4.2 组合模型优化 279
5.4.3 D-S Stacking模型 282
5.5 模型验证与原型系统 288
5.5.1 系统业务流程 288
5.5.2 系统架构设计 290
5.5.3 原型系统效果评估 296
第6章 信用环境的区域差异性影响因素 301
6.1 信用环境的区域差异概述 302
6.1.1 研究背景与意义 302
6.1.2 研究现状 302
6.1.3 研究内容 304
6.2 相关理论技术 305
6.2.1 数据准备 305
6.2.2 空间自相关分析方法 306
6.2.3 XGBoost算法 309
6.2.4 随机森林 311
6.2.5 TreeSHAP模型 312
6.3 基于两种机器学习算法的我国城市商业信用环境指数模型 313
6.3.1 我国城市商业信用环境指数特征共线性分析 313
6.3.2 基于XGBoost的我国城市商业信用环境指数模型 314
6.3.3 基于随机森林的我国城市商业信用环境指数模型 316
6.3.4 两种机器学习方法评估精度比较分析 317
6.4 基于TreeSHAP特征因子解释分析 319
6.4.1 基于XGBoost模型的特征因子解释分析 319
6.4.2 基于随机森林模型的特征因子解释分析 321
6.4.3 小结 323
第三部分 信用评估系统研发
第7章 信用评估监测预警技术及系统 326
7.1 系统建设目标与任务 327
7.1.1 建设目标 327
7.1.2 建设任务 327
7.1.3 总体设计方案 328
7.2 系统设计 328
7.2.1 需求调研 328
7.2.2 数据库设计 329
7.2.3 系统架构设计 330
7.2.4 功能设计 331
7.2.5 接口设计 356
7.2.6 系统部署 357
7.2.7 软件安装 357
|
內容試閱:
|
电视剧《黑镜》描绘过一幅画面:在未来的某天,当你遇到一个陌生人时,你的眼前将立即显示他的证件信息、身份地位、社会信用,以及一个汇总后的数值评分,你可以根据这个评分来决定如何与他互动。如果是一个评分较低的陌生人向你借手机,你当然可以直截了当地拒绝;而如果你遇到的是一个评分较高的人,你可能更倾向于伸出援手。或许你已经想到了,这就是增强现实技术在人脸识别中的一种完全可以预期的应用。尽管这项应用目前还处于设想之中,但它或许很快就将变成现实。
实际上,如今我们已经有了这样一个评分体系的雏形,这就是人们常提到的征信系统。传统的征信业务由专门机构对个人的历史信用行为进行评估,从而产生他的个人信用报告。在信贷等业务中,在征得个人同意后,业务员可以查询该报告,从而决定是否向其提供贷款。在传统的征信场景下,征信机构主要从国家的银行、证券、商业保险与社保等系统中获取数据,评分则由人工结合机器来完成。这样生成的结果数据较为完整,又比较权威,主要用于个人资产与贷款额度的评估。
近几年,随着大数据时代的来临与互联网金融行业的发展,传统征信业务模式迎来了革命性的变化:大数据征信开始渗透到人们生活的方方面面。在新的征信场景下,一位消费者在购物平台上以分期付款形式完成一次购买后,一双“无形的眼睛”就开始盯着这笔贷款的还款情况—如果这位消费者逾期不还,这一行为将被记录到他的个人征信数据中,直接影响他未来的贷款与消费;而如果这位消费者长期坚持良好的信用行为,他未来的贷款与消费将变得非常便利。支付宝的“芝麻信用分”就是反映个人信用评分的一个范例,如果你具有较高的“芝麻信用”,你就可以便捷地使用免押金租借、零订金预订等服务。
随着国内互联网金融等业务的发展,相关领域对风控技术的需求大大增强,依托于大数据的征信技术也逐渐为人们所重视。在数据侧,万物互联的数据传输模式,使得原先分离的各类行为数据被统一整合。通过不同数据源、不同模态数据的融合,信用的评估范围变得更加广阔,评估结果也变得更加有效。在模型侧,随着算法的不断发展与算力的逐步增强,传统的信用评估算法可以被机器学习,乃至由深度学习算法所取代。平台开发技术的迭代也支持着更精准、更高效的征信系统的出现。
看到这里,或许你会产生一些疑惑:尽管大数据征信听起来十分美好,但背后的技术支持是否到位?如何将一个人在不同互联网平台的数据进行自适应融合?机器学习、深度学习技术是否有能力对信用评估的结果进行准确解读?
技术上如何有效地对信用评分、违约风险进行定量评估?后,如何构建一个征信的原型系统,以对用户友好的形式提供征信服务?这一系列问题,本书或许能帮你找到答案。
本书聚焦于个人层面的信用违约技术研究、风险预警与监控系统的实现,但其中的技术也可以便捷地应用于企业征信。全书由浅入深、循序渐进地讲述了大数据时代下的征信技术,由以下三个部分构成。
部分:基础技术研究(第1~2章)。第1章介绍了征信业务中多源、多模态数据的融合方法;第2章主要进行大数据征信模型的归因分析与解释性研究。
第二部分:信用评估技术研究(第3~6章)。第3、4章聚焦于大数据征信场景下时序数据的挖掘与分析,分别提出了一个新颖的时序行为研究模型,以及一个高效的频繁模式、关联规则挖掘方法;第5章以总括的形式对违约风险评估预警技术进行了讨论;第6章从宏观角度分析了不同区域的差异性对于信用情况的影响。
第三部分:信用评估系统研发(第7章)。第7章从全局角度描述了一个信用评估与监控预警系统的实现。
本书第1~5章分别由北京大学张成蹊、吴晖、沈依芸、马建伟、喻彦龙主笔,第6~7章由中国测绘科学研究院刘晓东主笔。全书由北京大学孙圣力统编。鉴于作者现有水平,本书撰写的内容难免存在知识点的缺失或事实性错漏,希望读者不吝批评指正。
作者
2021.6
|
|