新書推薦:
《
紫云村(史杰鹏笔下大唐小吏的生死逃亡,新历史主义小说见微之作,附赠5张与小说内容高度契合的宣纸彩插)
》
售價:NT$
449.0
《
现代吴语的研究(中华现代学术名著3)
》
售價:NT$
296.0
《
天下的当代性:世界秩序的实践与想象(新版)
》
售價:NT$
352.0
《
德国天才4:断裂与承续
》
售價:NT$
500.0
《
妈妈的情绪,决定孩子的未来
》
售價:NT$
194.0
《
推拿纲目
》
售價:NT$
1836.0
《
精致考古--山东大学实验室考古项目论文集(一)
》
售價:NT$
1112.0
《
从天下到世界——国际法与晚清中国的主权意识
》
售價:NT$
347.0
|
內容簡介: |
全书内容分为三篇。*篇为基础篇,主要介绍量化投资与数据挖掘的关系,以及数据挖掘的概念、实现过程、主要内容、主要工具等内容。第二篇为技术篇,系统介绍了数据挖掘的相关技术及这些技术在量化投资中的应用,主要包括数据的准备、数据的探索、关联规则方法、数据回归方法、分类方法、聚类方法、预测方法、诊断方法、时间序列方法、智能优化方法等内容。第三篇为实践篇,主要介绍数据挖掘技术在量化投资中的综合应用实例,包括统计套利策略的挖掘与优化、配对交易策略的挖掘与实现、数据挖掘在股票程序化交易中的综合应用,以及基于数据挖掘技术的量化交易系统的构建。本书的读者对象为从事投资、数据挖掘、数据分析、数据管理工作的专业人士;金融、经济、管理、统计等专业的教师和学生;希望学习MATLAB的广大科研人员、学者和工程技术人员。
|
關於作者: |
卓金武,MathWorks中国科学计算业务总监,主要职责是向中国区MATLAB正版用户提供数据挖掘和量化投资解决方案。曾2次获全国大学生数学建模竞赛一等奖 2003, 2004,1次获全国研究生数学建模竞赛一等奖 2007;主编三著两部:《MATLAB在数学建模中的应用》(第一版和第二版),《量化投资:数据挖掘技术与实践MATLAB版》。周英,中科数据首席数据科学家,曾就职于知名搜索引擎公司6年,主要从事互联网文本挖掘工作的研发工作,目前专注的领域为大数据挖掘技术的工业应用研究和工程应用,曾获美国大学生数学建模竞赛二等奖一项,全国研究生数学建模竞赛二等奖一项,著有《大数据挖掘:系统方法与实例分析》
|
目錄:
|
第一篇基础篇
第1章绪论2
1.1量化投资与数据挖掘的关系2
1.1.1什么是量化投资2
1.1.2量化投资的特点3
1.1.3量化投资的核心量化模型5
1.1.4量化模型的主要产生方法
数据挖掘7
1.2数据挖掘的概念和原理8
1.2.1什么是数据挖掘8
1.2.2数据挖掘的原理10
1.3数据挖掘在量化投资中的应用11
1.3.1宏观经济分析11
1.3.2估价13
1.3.3量化选股14
1.3.4量化择时14
1.3.5算法交易14
1.4本章小结15
参考文献16
第2章数据挖掘的内容、过程及
工具17
2.1数据挖掘的内容17
2.1.1关联17
2.1.2回归19
2.1.3分类20
2.1.4聚类21
2.1.5预测22
2.1.6诊断23
2.2数据挖掘过程24
2.2.1数据挖掘过程概述24
2.2.2挖掘目标的定义25
2.2.3数据的准备26
2.2.4数据的探索28
2.2.5模型的建立29
2.2.6模型的评估33
2.2.7模型的部署35
2.3数据挖掘工具36
2.3.1MATLAB36
2.3.2SAS37
2.3.3SPSS38
2.3.4WEKA39
2.3.5R41
2.3.6工具的比较与选择42
2.4本章小结43
参考文献43
第3章MATLAB快速入门44
3.1MATLAB快速入门44
3.1.1MATLAB概要44
3.1.2MATLAB的功能45
3.1.3快速入门案例46
3.1.4入门后的提高55
3.2MATLAB常用技巧55
3.2.1常用标点的功能55
3.2.2常用操作指令56
3.2.3指令编辑操作键56
3.2.4MATLAB数据类型56
3.3MATLAB开发模式58
3.3.1命令行模式58
3.3.2脚本模式58
3.3.3面向对象模式58
3.3.4三种模式的配合58
3.4小结59
第二篇技术篇
第4章数据的准备63
4.1数据的收集63
4.1.1认识数据63
4.1.2数据挖掘的数据源64
4.1.3数据抽样65
4.1.4量化投资的数据源67
4.1.5从雅虎获取交易数据69
4.1.6从大智慧获取财务数据71
4.1.7从Wind中获取高质量数据73
4.2数据质量分析75
4.2.1数据质量分析的必要性75
4.2.2数据质量分析的目的75
4.2.3数据质量分析的内容76
4.2.4数据质量分析的方法76
4.2.5数据质量分析的结果及应用82
4.3数据预处理82
4.3.1为什么需要数据预处理82
4.3.2数据预处理的主要任务83
4.3.3数据清洗84
4.3.4数据集成88
4.3.5数据归约89
4.3.6数据变换90
4.4本章小结92
参考文献93
第5章数据的探索94
5.1衍生变量95
5.1.1衍生变量的定义95
5.1.2变量衍生的原则和方法96
5.1.3常用的股票衍生变量96
5.1.4评价型衍生变量101
5.1.5衍生变量数据收集与集成103
5.2数据的统计104
5.2.1基本描述性统计105
5.2.2分布描述性统计106
5.3数据可视化106
5.3.1基本可视化方法107
5.3.2数据分布形状可视化108
5.3.3数据关联情况可视化110
5.3.4数据分组可视化111
5.4样本选择113
5.4.1样本选择的方法113
5.4.2样本选择应用实例113
5.5数据降维116
5.5.1主成分分析(PCA)基本
原理116
5.5.2PCA应用案例:企业综合
实力排序118
5.5.3相关系数降维122
5.6本章小结123
参考文献123
第6章关联规则方法124
6.1关联规则概要124
6.1.1关联规则的提出背景124
6.1.2关联规则的基本概念125
6.1.3关联规则的分类127
6.1.4关联规则挖掘常用算法128
6.2Apriori算法128
6.2.1Apriori算法的基本思想128
6.2.2Apriori算法的步骤129
6.2.3Apriori算法的实例129
6.2.4Apriori算法的程序实现132
6.2.5Apriori算法的优缺点135
6.3FP-Growth算法136
6.3.1FP-Growth算法步骤136
6.3.2FP-Growth算法实例137
6.3.3FP-Growth算法的优缺点139
6.4应用实例:行业关联选股法139
6.5本章小结141
参考文献142
第7章数据回归方法143
7.1一元回归144
7.1.1一元线性回归144
7.1.2一元非线性回归148
7.1.3一元多项式回归153
7.2多元回归153
7.2.1多元线性回归153
7.2.2多元多项式回归157
7.3逐步归回160
7.3.1逐步回归的基本思想160
7.3.2逐步回归步骤161
7.3.3逐步回归的MATLAB方法162
7.4Logistic回归164
7.4.1Logistic模型164
7.4.2Logistic回归实例165
7.5应用实例:多因子选股模型
的实现168
7.5.1多因子模型的基本思想168
7.5.2多因子模型的实现169
7.6本章小结172
参考文献172
第8章分类方法173
8.1分类方法概要173
8.1.1分类的概念173
8.1.2分类的原理174
8.1.3常用的分类方法175
8.2K-近邻(KNN)176
8.2.1K-近邻原理176
8.2.2K-近邻实例177
8.2.3K-近邻特点180
8.3贝叶斯分类181
8.3.1贝叶斯分类原理181
8.3.2朴素贝叶斯分类原理182
8.3.3朴素贝叶斯分类实例184
8.3.4朴素贝叶斯特点185
8.4神经网络185
8.4.1神经网络的原理185
8.4.2神经网络的实例188
8.4.3神经网络的特点188
8.5逻辑斯蒂(Logistic)189
8.5.1逻辑斯蒂的原理189
8.5.2逻辑斯蒂的实例189
8.5.3逻辑斯蒂的特点189
8.6判别分析190
8.6.1判别分析的原理190
8.6.2判别分析的实例191
8.6.3判别分析的特点191
8.7支持向量机(SVM)192
8.7.1SVM的基本思想192
8.7.2理论基础193
8.7.3支持向量机的实例196
8.7.4支持向量机的特点196
8.8决策树197
8.8.1决策树的基本概念197
8.8.2决策树的建构的步骤198
8.8.3决策树的实例201
8.8.4决策树的特点202
8.9分类的评判202
8.9.1正确率202
8.9.2ROC曲线204
8.10应用实例:分类选股法206
8.10.1案例背景206
8.10.2实现方法208
8.11延伸阅读:其他分类方法210
8.12本章小结211
参考文献211
第9章聚类方法212
9.1聚类方法概要212
9.1.1聚类的概念212
9.1.2类的度量方法214
9.1.3聚类方法的应用场景216
9.1.4聚类方法的分类217
9.2K-means方法217
9.2.1K-means的原理和步骤218
9.2.2K-means实例1:自主编程219
9.2.3K-means实例2:集成函数221
9.2.4K-means的特点224
9.3层次聚类225
9.3.1层次聚类的原理和步骤225
9.3.2层次聚类的实例227
9.3.3层次聚类的特点229
9.4神经网络聚类229
9.4.1神经网络聚类的原理和步骤229
9.4.2神经网络聚类的实例229
9.4.3神经网络聚类的特点230
9.5模糊C-均值(FCM)方法230
9.5.1FCM的原理和步骤230
9.5.2FCM的应用实例232
9.5.3FCM算法的特点233
9.6高斯混合聚类方法233
9.6.1高斯混合聚类的原理和步骤233
9.6.2高斯聚类的实例236
9.6.3高斯聚类的特点236
9.7类别数的确定方法237
9.7.1类别的原理237
9.7.2类别的实例238
9.8应用实例:股票聚类分池240
9.8.1聚类目标和数据描述240
9.8.2实现过程240
9.8.3结果及分析242
9.9延伸阅读244
9.9.1目前聚类分析研究的主要
内容244
9.9.2SOM智能聚类算法245
9.10本章小结246
参考文献246
第10章预测方法247
10.1预测方法概要247
10.1.1预测的概念247
10.1.2预测的基本原理248
10.1.3量化投资中预测的主要
内容249
10.1.4预测的准确度评价及影响
因素250
10.1.5常用的预测方法251
10.2灰色预测252
10.2.1灰色预测原理252
10.2.2灰色预测的实例254
10.3马尔科夫预测256
10.3.1马尔科夫预测的原理256
10.3.2马尔科夫过程的特性257
10.3.3马尔科夫预测的实例258
10.4应用实例:大盘走势预测262
10.4.1数据的选取及模型的建立263
10.4.2预测过程264
10.4.3预测结果与分析265
10.5本章小结265
参考文献267
第11章诊断方法268
11.1离群点诊断概要268
11.1.1离群点诊断的定义268
11.1.2离群点诊断的作用269
11.1.3离群点诊断方法分类271
11.2基于统计的离群点诊断271
11.2.1理论基础271
11.2.2应用实例273
11.2.3优点与缺点275
11.3基于距离的离群点诊断275
11.3.1理论基础275
11.3.2应用实例276
11.3.3优点与缺点278
11.4基于密度的离群点挖掘278
11.4.1理论基础278
11.4.2应用实例279
11.4.3优点与缺点281
11.5基于聚类的离群点挖掘281
11.5.1理论基础281
11.5.2应用实例282
11.5.3优点与缺点284
11.6应用实例:离群点诊断量化
择时284
11.7延伸阅读:新兴的离群点
挖掘方法286
11.7.1基于关联的离群点挖掘286
11.7.2基于粗糙集的离群点挖掘286
11.7.3基于人工神经网络的离群点
挖掘287
11.8本章小结287
参考文献288
第12章时间序列方法289
12.1时间序列的基本概念289
12.1.1时间序列的定义289
12.1.2时间序列的组成因素290
12.1.3时间序列的分类291
12.1.4时间序列分析方法292
12.2平稳时间序列分析方法292
12.2.1
|
內容試閱:
|
除了你的才华,其他一切都不重要!
近年来,互联网和人工智能技术的飞速发展,推动传统金融大踏步前进,尤其是量化投资、互联网金融、移动计算等领域,用一日千里来形容亦不为过。2015年年初,李克强总理在政府工作报告中提出制定互联网 行动计划,推动移动互联网、云计算、大数据等与各行业的融合发展。2015年9月,国务院又印发了《促进大数据发展行动纲要》,提出推动产业创新发展,培育数据应用新业态,积极推动大数据与其他行业的融合,大力培育互联网金融、数据服务、数据处理分析等新业态。可见,大数据金融将会成为未来十年闪亮的领域之一。2012年年初,中国量化投资学会联合中国工信出版集团电子工业出版社,共同策划出版了量化投资与对冲基金丛书,深受业内好评。在此基础上,我们再次重磅出击,整合业内顶尖人才,推出大数据金融丛书,引领时代前沿,助力行业发展。
本书特点
和卓金武认识是在一次行业会议上,我听到他演讲有关数据挖掘的课题,内容很详实精彩,会后与他交流后,发现他在量化投资领域做了很多年的研究,于是就建议他写一本有关基于数据挖掘的量化投资的教材,他欣然同意。一年后该书出版,受到业内很多好评。这次的改版更是对原先内容的一个大的升级和优化。
数据挖掘是人工智能领域的一个重要分支,在学术界发展了大概30年,最近在业内改头换面,以大数据的名词大放异彩。这个技术在过去十年各行各业都得到了广泛的应用,如语音识别、人脸识别等。在金融投资的领域,数据挖掘主要用于各种交易模式的识别、策略优化等,最近几年也得到了越来越多的研究人员的支持。这本《量化投资MATLAB数据挖掘技术与实践》,以详实的内容、深入的研讨,将数据挖掘技术用于量化投资的方方面面,可以对读者起着非常重要的借鉴作用。
本书的基础篇阐述了与数据挖掘有关的基础理论,包括数据挖掘原理、数据挖掘过程及数据挖掘的主要工具,特别是通过几个案例进行快速的MATLAB入门,让读者了解MATLAB中与数据挖掘有关的一些函数和工具箱的作用。
技术篇阐述了有关数据挖掘的各种技术,包括数据的准备、数据的探索、关联规则方法、数据回归、分类方法、聚类方法、预测方法、诊断方法、时间序列方法和智能优化方法等。其中,关联规则、分类方法、聚类方法是数据挖掘的最主要的内容。关联规则解决不同因素之间的因果关系问题,试图从大量的数据中,找到看似不相关的因素之间背后有可能隐藏的逻辑关系。分类方法则对历史知识进行分类处理,试图找到对未来的预测。例如,可以将股票分为涨和跌两大类别,学习分类模型后,可用于对未来股票的走势进行预测。聚类是一种无监督的学习,也就是说,在没有历史样本的情况下,找到背后的大致规律。这特别适用于波动不规律的品种的投资策略。马尔科夫链是一种预测方法,可以用于大盘走势的预测。我们日常看到的K线都属于时间序列。时间序列的研究方法可以用于K线走势的预测,包括ARMA模型、ARIMA模型、ARCH模型、GARCH模型等。
实践篇则介绍了多个基于数据挖掘的策略,包括统计套利策略、配对交易策略,以及有关数据挖掘系统的一些阐述等。统计套利用到的模式和分类技术;配对交易用到的协整关系和配对交易函数,可以用基于数据挖掘的技术来实现。书稿的最后两章分别阐述了基于Quantrader平台的量化投资和基于数据挖掘技术的量化交易系统,为投资者提供实际交易的辅助。
卓金武的这本书在理论方面具有很深的探讨,在实践方面又有多个案例,是一本不可多得的优秀教材,特此推荐。
美好前景
中国经济经过几十年的高速发展,各行各业基本上已经定型,能够让年轻人成长的空间越来越小。未来十年,大数据金融领域是少有的几个有着百倍、甚至千倍成长空间的行业,在传统的以人为主的分析逐步被数据和模型替代的过程中,从事数据处理、模型分析、交易实现、资产配置的核心人才(我们称之为宽客),将有广阔的舞台可以充分展示自己的才华。在这个领域中,将不再关心你的背景和资历,无论学历高低,无论有无经验,只要你勤奋、努力,脚踏实地地研究数据、研究模型、研究市场,实现财务自由并非是遥不可及的梦想。对于宽客来说,除了你的才华,其他一切都不重要!
丁鹏 博士
中国量化投资学会 理事长
《量化投资策略与技术》作者
大数据金融丛书主编
2016.10 上海
前 言
量化投资交易策略的业绩稳定,市场规模和份额不断扩大,得到越来越多投资者的认可。中国金融业飞速发展,尤其是2010年股指期货的推出,使得量化投资和对冲基金逐步进入国内投资者的视野。2012年丁鹏博士所著的《量化投资策略与技术》出版后,更是推动了量化投资技术在国内的普及。目前,量化投资、对冲基金已经成为中国资本市场热门的话题之一,各投资机构纷纷开始着手打造各自的量化投资精英团队。
量化投资是将投资理念及策略通过具体指标、参数的设计,融入到具体的模型中,用模型对市场进行不带任何情绪的跟踪,简单而言,就是用数量化的方法对股票、期货等投资对象进行估值,选取适合的对象进行投资。目前,量化投资的书籍主要集中在模型和策略及工具的使用上,但关于如何产生这些量化模型、量化策略的书籍的确非常少。金融市场瞬息万变,为了更好地进行量化投资,我们要不断去验证既有模型的有效性,同时要想在金融行业保持自己的竞争力,又必须不断开发新的模型,而验证模型、开发模型,所谓量化投资的主要内容,都需要数据的支撑。另一方面,金融领域是数据资源保存最好、最为丰富的行业,在金融领域已经积累了大量的数据,同时每天还在产生大量的交易数据、价格数据等数据信息。这些数据资源正好为量化投资提供了很好的数据基础,那么问题的关键就是如何利用金融业丰富的数据资源更好地进行量化投资。
数据挖掘技术是从数据中挖掘有用知识的一门系统性的技术,刚好解决了数据利用的问题,所以,数据挖掘与量化投资便很自然地结合在一起。但数据挖掘在国内也是一个新领域,所以,还没有关于量化投资与数据挖掘相结合的相关书籍。另外,目前关于数据挖掘的几本书基本都是译著,由于语言和文化的差异,国内读者读起来相对吃力。在这样的背景下,能有一本书介绍如何利用数据挖掘技术进行量化投资还是很好的。
巧合的是,笔者在MathWorks平时的工作职责之一是支持金融客户,相当比例是关于量化投资的,二是支持其他商业客户的数据挖掘,所以对这两个领域都有一定的了解。在一次研讨会上,丁鹏博士与笔者讨论了数据挖掘在量化投资中应用的话题,感觉这是个非常好的课题,建议笔者写一本这样的书。笔者对这个课题也非常感兴趣,于是就开始了这本书的创作。
《量化投资数据挖掘技术与实践(MATLAB版)》于2015年6月出版,一年以内已四次印刷,不少热心的读者发来E-mail与作者讨论书中的内容,并提出建议和不足。为了回馈读者,也为了让本书质量更好,于是在2016年年初就启动了新版的编写工作。新版主要变动的地方有两个方面:一个是对上一版中发现的不足进行了修订,另一个是增加了MATLAB快速入门和基于Quantrader平台的量化投资两个章节。另外,有关程序化交易内容的章节也进行了大幅修改,主要是让程序直接与Wind数据对接。
本书内容
全书内容分为三篇。
第一篇为基础篇,主要介绍一些基本概念和知识,包括量化投资与数据挖掘的关系,以及数据挖掘的概念、实现过程、主要内容、主要工具等内容,并在第三章介绍了MATLAB快速入门。
第二篇为技术篇,是本书的主体,系统介绍了数据挖掘的相关技术及这些技术在量化投资中的应用实例。这部分又分为如下三个层次:
(1)数据挖掘前期的一些技术,包括数据的准备(收集数据、数据质量分析、数据预处理等)和数据的探索(衍生变量、数据可视化、样本选择、数据降维等)。
(2)数据挖掘的核心六大类方法,包括关联规则、回归、分类、聚类、预测和诊断。对于每类方法,则详细介绍了其包含的典型算法,包括基本思想、应用场景、算法步骤、MATLAB实现程序和应用案例。同时,对每类方法还介绍了一个在量化投资中的应用案例,以强化这些方法在量化投资中的实用性。
(3)数据挖掘中特殊的实用技术,包含两章内容,一是关于时序数据挖掘的时间序列技术,二是关于优化的智能优化方法。这个层次也是数据技术体系中不可或缺的技术。时序数据是数据挖掘中的一类特殊数据,并且金融数据往往都具有时序性,所以针对该类特殊的数据类型,又介绍了时间序列方法。另外,数据挖掘离不开优化,量化投资也离不开优化,所以又以一章智能优化方法来介绍两个比较常用的优化方法,遗传算法和模拟退火算法。
第三篇为实践篇,主要介绍数据挖掘技术在量化投资中的综合应用实例,包括统计套利策略的挖掘与优化、配对交易策略的挖掘与实现、基于Wind数据的程序化交易,基于Quantrader平台的量化投资,最后一章基于数据挖掘技术的量化交易系统,则给出了集成主流数据挖掘技术的量化投资系统的框架,读者可以利用该框架,依据书中介绍的数据挖掘技术,结合自己的情况,开发出属于自己的量化交易系统,从而轻松实现从理论到实践的跨越,更好地利用数据挖掘技术在量化投资的领域乘风破浪,不断创造佳绩。
本书特色
综观全书,可发现本书的特点鲜明,主要表现在:
(1)方法务实,学以致用。本书介绍的方法都是数据挖掘中的主流方法,都经过实践的检验,具有较强的实践性。对于每种方法,本书基本都给出了完整、详细的源代码,这对读者来说,具有非常大的参考价值,很多程序可供读者直接套用并加以学习,并可以直接转化为自己的量化投资实战工具。
(2)知识系统,易于理解。本书的知识体系应该是当前数据挖掘书籍中最全、最完善的,不仅包含详细的数据挖掘流程、数据准备方法、数据探索方法,还包含六大类数据挖掘主体方法、时序数据挖掘方法、智能优化方法。正因为有完整的知识体系,读者读起来才有很好的完整感,从而更利于理解数据挖掘的知识体系,这对于读者
|
|