新書推薦:
《
卡特里娜(“同一颗星球”丛书)
》
售價:NT$
398.0
《
伟大民族:从路易十五到拿破仑的法国史(方尖碑)
》
售價:NT$
857.0
《
古今“书画同源”论辨——中国书法与中国绘画的关系问题兼中国画笔墨研究
》
售價:NT$
602.0
《
《日本文学史序说》讲演录
》
售價:NT$
332.0
《
无尽的海洋:美国海事探险与大众文化(1815—1860)
》
售價:NT$
454.0
《
治盗之道:清代盗律的古今之辨
》
售價:NT$
556.0
《
甲骨文丛书·剑桥世界暴力史(第一卷):史前和古代世界(套装全2册)
》
售價:NT$
959.0
《
甲骨文丛书·中华早期帝国:秦汉史的重估
》
售價:NT$
1367.0
|
編輯推薦: |
本书注重算法理论与实际案例相结合,将枯燥无味的预测算法原理用R语言重现,并通过案例让读者掌握预测模型的应用。
|
內容簡介: |
R语言具有上手快、效率高的特点,它横跨金融、生物、医学、互联网等多个领域,主要用于统计、建模及可视化。预测是数据挖掘的主要作用之一,也是大数据时代的核心价值所在。基于R语言来做预测,兼具效率和价值的双重属性,这是本书的一大亮点。本书共分为三部分。第一部分讲预测基础,主要涵盖预测概念理解、预测方法论、分析方法、特征技术、模型优化及评价,读者通过这部分内容的学习,可以掌握进行预测的基本步骤和方法思路;第二部分讲预测算法,该部分包含了多元回归分析、复杂回归分析、时间序列及进阶算法,内容比较有难度,需要细心体会;第三部分讲预测案例,包括短期日负荷曲线预测和股票价格预测两个实例,读者可以了解到实施预测时需要关注的技术细节。希望读者在看完本书后,能够将本书的精要融会贯通,进一步在工作和学习实践中提炼价值。
|
關於作者: |
游皓麟,高级数据分析师,目前专注于NLP、知识图谱以及深度学习的研究与实现。曾服务于华为技术软件有限公司等企业,多次出席R语言会议并发表演讲,在小象学院担任过R语言数据挖掘和机器学习讲师。
|
目錄:
|
第一部分预测入门篇
第1章预测入门2
1.1 什么是预测3
1.1.1预测的定义3
1.1.2预测的特点4
1.1.3预测的分类4
1.1.4预测的基本原则5
1.2 大数据与预测7
1.2.1什么是大数据7
1.2.2大数据预测的优势9
1.2.3大数据预测的特征9
1.2.4大数据预测案例12
1.3 预测利器之R语言22
1.3.1R语言简介22
1.3.2R语言预测初步33
1.3.3R语言预测常用包42
第2章预测方法论44
2.1 预测流程45
2.1.1确定主题45
2.1.2收集数据47
2.1.3选择方法49
2.1.4分析规律53
2.1.5建立模型57
2.1.6评估效果60
2.1.7发布模型60
2.2 指导原则61
2.2.1界定问题61
2.2.2判断预测法63
2.2.3外推预测法64
2.2.4因果预测法66
2.3 团队构成66
2.3.1成员分类67
2.3.2数据氛围68
2.3.3团队合作70
第3章分析方法72
3.1 相关分析73
3.1.1自相关分析73
3.1.2偏相关分析74
3.1.3简单相关分析75
3.1.4互相关分析83
3.1.5典型相关分析84
3.2 对应分析88
3.3 频谱分析92
3.4 趋势分析94
3.5 聚类分析96
3.5.1K-Means算法96
3.5.2系统聚类算法99
3.6 关联分析105
3.6.1关联规则挖掘:Apriori与Eclat算法105
3.6.2序列模式挖掘:SPADE算法119
第4章特征构建技术132
4.1 特征变换133
4.1.1概念分层134
4.1.2标准化136
4.1.3离散化139
4.1.4函数变换142
4.1.5深入表达143
4.2 特征组合143
4.2.1基于特定的领域知识143
4.2.2二元组合144
4.2.3高阶多项式148
4.3 自动生成:基于遗传编程的方法152
4.3.1基本思路153
4.3.2特征表达式154
4.3.3产生初始种群162
4.3.4计算适应度163
4.3.5选择、交叉和变异165
4.3.6实例分析171
第5章特征选择方法176
5.1 直接法177
5.2 单元法177
5.2.1Pearson相关系数177
5.2.2距离相关系数179
5.2.3单因素方差分析181
5.2.4信息增益184
5.2.5卡方检验191
5.2.6Gini系数194
5.3 多元法198
5.3.1逐步回归198
5.3.2随机森林203
5.3.3遗传算法210
第6章模型参数优化213
6.1 交叉验证214
6.2 网格搜索215
6.3 遗传算法217
6.3.1基本概念217
6.3.2遗传算法算例218
6.3.3遗传算法实现步骤223
6.3.4遗传算法R语言实现223
6.3.5R语言mcga和genalg包的应用228
6.4 粒子群优化233
6.4.1基本概念及原理233
6.4.2粒子群算法R语言实现235
6.4.3粒子群算法实现步骤238
6.4.4R语言pso包的应用239
6.5 模拟退火241
6.5.1基本概念及原理241
6.5.2模拟退火算法R语言实现242
6.5.3模拟退火算法实现步骤244
6.5.4R语言GenSA和stats包的应用245
第7章预测效果评估250
7.1 概率预测评估方法251
7.1.1混淆矩阵251
7.1.2ROC曲线255
7.1.3KS曲线261
7.1.4累计收益图263
7.1.5累计提升图264
7.1.6累计响应图266
7.2 数值预测评估方法267
7.2.1常见评估指标267
7.2.2ASD累计收益图270
第二部分预测算法篇
第8章线性回归及其优化274
8.1 多元线性回归275
8.1.1回归模型和基本假定275
8.1.2最小二乘估计276
8.1.3回归方程和回归系数的显著性检验276
8.1.4多重共线性277
8.2 Ridge回归280
8.2.1基本概念281
8.2.2岭迹曲线281
8.2.3基于GCV准则确定岭参数283
8.2.4Ridge回归的R语言实现284
8.3 Lasso回归285
8.3.1基本概念285
8.3.2使用LAR求解Lasso286
8.3.3Lasso算法的R语言实现288
8.3.4R语言lars包的应用290
8.4 分位数回归292
8.4.1基本概念292
8.4.2分位数回归的计算294
8.4.3用单纯形法求解分位数回归及R语言实现296
8.4.4R语言quantreg包的应用298
8.5 稳健回归300
8.5.1基本概念301
8.5.2M-估计法及其R语言实现301
8.5.3应用R语言MASS包实现稳健回归304
第9章复杂回归分析307
9.1 梯度提升回归树(GBRT)308
9.1.1Boosting方法简介308
9.1.2AdaBoost算法308
9.1.3提升回归树算法311
9.1.4梯度提升312
9.1.5GBRT的R语言实现314
9.1.6R语言gbm包的应用316
9.2 神经网络320
9.2.1基本概念320
9.2.2单层感知器学习算法322
9.2.3SLP回归算法的R语言实现323
9.2.4BP神经网络学习算法325
9.2.5BP回归算法的R语言实现327
9.2.6RBF神经网络学习算法330
9.2.7RBF回归算法的R语言实现332
9.2.8Elman神经网络学习算法334
9.2.9Elman回归算法的R语言实现336
9.2.10使用R语言包构建神经网络338
9.3 支持向量机回归343
9.3.1基本问题344
9.3.2LS-SVMR算法347
9.3.3LS-SVMR算法的R语言实现348
9.4 高斯过程回归349
9.4.1GPR算法350
9.4.2GPR算法的R语言实现352
9.4.3R语言kernlab包的应用355
第10章时间序列分析358
10.1 Box-Jenkins方法359
10.1.1p阶自回归模型359
10.1.2q阶移动平均模型361
10.1.3自回归移动平均模型363
10.1.4ARIMA模型365
10.1.5ARIMA模型的R语言实现367
10.1.6R语言forecast包的应用373
10.2 门限自回归模型376
10.2.1TAR模型的基本原理376
10.2.2TAR模型的R语言实现377
10.2.3R语言TSA包的应用380
10.3 GARCH模型族382
10.3.1线性ARCH模型382
10.3.2GRACH模型383
10.3.3EGARCH模型384
10.3.4Power ARCH模型384
10.3.5PARCH模型的R语言实现385
10.3.6R语言fGarch包的应用395
10.4 向量自回归模型398
10.4.1VAR模型基本原理398
10.4.2VAR模型的R语言实现399
10.4.3R语言vars包的应用403
10.5 卡尔曼滤波器算法405
10.5.1Kalman滤波算法初步406
10.5.2Kalman滤波的R语言实现407
10.5.3R语言FKF包的应用409
第三部分预测应用篇
第11章短期日负荷曲线预测414
11.1 电力行业负荷预测介绍415
11.2 短期日负荷曲线预测的基本要求415
11.3 预测建模准备416
11.3.1基础数据采集416
11.3.2缺失数据处理及平滑418
11.3.3潜在规律分析421
11.4 基于RBF神经网络的预测426
11.4.1RBF网络结构设计426
11.4.2确定最优参数427
11.4.3建模并实现预测431
11.4.4效果评估433
11.5 基于LS-SVMR算法的预测435
11.5.1确定最优参数436
11.5.2建模并实现预测438
11.5.3效果评估439
第12章股票价格预测442
12.1 股票市场简介443
12.1.1股票的基本概念443
12.1.2股票市场常用术语443
12.1.3股价波动的影响因素447
12.2 获取股票数据452
12.3 基于VAR算法的预测455
12.3.1平稳性检验455
12.3.2VAR模型定阶456
12.3.3预测及效果验证457
参考文献459
|
內容試閱:
|
序 一
我已经工作满一年了,多年以后我仍然会想起那一幕,一个很朴实的小伙子,说的一句很朴实的话。在简单的交谈后,我认识了皓麟。当时感觉他是一个比较平淡的人,但是多年的经验却让我感觉到他是一个有想法的人。在以后的工作中,我们经常在一起合作,研究、讨论并实践许多机器学习模型,从分类模型、关联模型到预测模型,有幸的是,这些模型都取得了预期效果,得到了用户的肯定。整个过程中,感觉皓麟聪慧、思路敏锐、责任心强,软件操作能力特别是R语言能力一流,是一个较为理想的工作伙伴。更可贵的是,皓麟还表现出了比同龄人成熟的一面。
我打算写一本有关预测实战的书,记得一年前的一天接到皓麟的电话。我知道这几年皓麟在机器学习算法,特别是预测专题研究、实践方面取得了很多成果。他做过演讲,在网校讲过课,已在圈内小有名气。以前听他说过要写一本书,这次真的下定决心做了,而且当时他决定回成都发展,已经辞职,这种情况下,我知道他的压力还是蛮大的。在后继的时间里,皓麟经常打电话和我探讨我知道的、不知道的、懂的或不懂的各种预测、优化算法、数学理论基础,也包括以效果为导向的各种模型的组合实践,感觉他在理论修养、预测模型的把控方面已经达到了较高水准。期间,我能感觉到皓麟在写作过程中表现出的克服理论、实践中诸多困难的很强的定力、毅力与良好的心态。
现如今,智能浪潮如火如荼,算法,特别是有效的算法发挥着越来越大的作用。在这其中,预测算法始终是重要的算法方向。它可以让我们知道谁才是我们的消费者,某客户打算购买的产品是什么,哪类用户最可能流失,下个月景区的人流量是多少,哪支球队更有可能获胜,智能聊天中下一句更可能的语句组合是什么等诸多预测问题。如果预测模型精度足够高,它能给业务带来很多的可能性,并进一步创造价值。
本书的案例代码以R语言为主要实现工具。R语言有着丰富的软件包,截至目前R语言包的数量已超7000个,包含诸多行业的诸多算法,涉及分析、挖掘、机器学习、智能算法类、优化类以及微分类等各种算法和操作,在处理中小数据时是最佳选择,在处理大数据时也有诸多优势。R语言与Hadoop、Spark等主流平台也有接口,具有很好的扩展性。
本书首先讲述了预测的概述,包括预测的优势、特征等。随后从方法论的角度,让读者更加能够理解并掌握处理预测问题时的思路。接着,进入具体分析技术的讲解。特别是皓麟有深入研究的特征构建和特征选择技术,这部分是较为关键的环节,没有良好的特征或更广泛的输入,后继算法再好,也难出很好的效果,故作者在此花了较大精力。在模型参数优化阶段主要用了在工业界应用广泛的智能类算法,选择遗传、粒子群与模拟退火等几种经典算法,同时将原理与实现步骤也一一说明。
在算法阶段,主要讲解了常见的回归算法,也讲解了复杂的回归算法,展示了常见的各种时间序列算法以及非线性方面。最后以真实数据为例,详细讲解了两个案例,这部分对生产的模型有较大的借鉴作用。
本书思路清晰,算法较为全面新颖,案例真实且效果不错,对从事分析、挖掘与机器学习的读者具有较大的参考价值。
刘爱松
亚信科技大数据平台部人工智能专家
序 二
随着大数据的概念变得越来越流行,对数据的探索、分析和预测已经成为大数据分析领域的基本技能之一。作为探索和分析数据的基本理论和工具,利用科学的数据挖掘技术进行数据预处理和借助成熟的机器学习算法进行模型拟合成为时下的热门技术之一。R语言作为功能强大并且免费的数据挖掘工具,在数据挖掘领域获得了越来越多用户的青睐。近几年,中国R语言大会在越来越多的高校举行,参会人数也呈现爆发式增长,尤其是业界人士占据了相当大的比例。如今年举办的第九届中国R语言大会(北京会场)比往届有了更大的突破,会议共设有22个分会场,126场主题报告,覆盖大数据技术、机器学习、可视分析、社交网络、互联网金融、量化投资、人网物联、生物信息、自然语言等诸多当下热门话题。报名非常火爆,人数突破5000人,报名单位超过1500个。不仅创下历届之最,也使本次会议成为亚洲地区规模最大的数据科学盛会之一。
本书作者游浩麟先生是多届中国R语言大会的演讲嘉宾,其在广州会场分享的主题《R语言并行计算实践》广受学生们喜爱,也为业界的数据分析人员在利用R语言处理大数据时如何解决内存问题提供了很好的解决方案。作者多年专注于数据分析、挖掘、大数据领域,在互联网电信电力等行业具有丰富的数据分析与挖掘建模经验。
非常荣幸能够受邀为本书写序。虽然本人也玩R语言多年,但当我拿到本书样稿时,看目录就有很强的阅读欲望,整本书的条理清晰、思维缜密,内容由浅入深。阅读内容之后,发现本书注重算法理论与实际案例相结合,作者将枯燥无味的诸多预测算法原理用R语言重现,并通过案例让读者掌握预测模型的应用。
本书分为三部分共12章。
第一部分为预测入门篇,包括预测入门、方法论、特征构建及选择、模型参数优化及效果评估等内容。我们做任何事情都需要有方法论的指导,数据预测也不例外。作者根据从事预测工作多年的经验,从数据挖掘CRISP-DM标准过程提炼出预测基本流程:确定主题、收集数据、选择方法、分析规律、建立模型、评估效果及发布模型的预测工作闭环。在实际生产环境中,Raw Data(原始数据)基本达不到直接建模的要求,需要经过数据处理技术或业务经验进行特征构建及选择,将Raw Data转换成适合建模的数据。特征的构建与选择在提供预测精度方面越来越受到重视,甚至影响到预测项目的成败。本书详细介绍了特征构建技术以及特征选择方法。记得曾经有学员问我为什么他自己构建的系谱聚类结果看起来特别怪异,相信他如果看完本书的特征构建技术等章节内容就会找到答案。模型评估是最重要也是最容易被大家忽视的一个环节。我的团队曾经有同事利用神经网络模型对玩家付费进行流失预测,得出准确率高达 97%的预测模型,结果用其他数据预测出来的结果却惨不忍睹,是因为其未对模型进行是否存在过拟合的检验。故模型评估的环节至关重要,它就像一道关口,只有通过它的模型,才能给予被用于真实环境的机会;只有不断通过它的模型,才能被认为是稳定可靠的。
第二部分是预测算法篇,包括线性回归、复杂回归分析及时间序列分析三大主题。其中线性回归包括经典的线性回归及其模型优化,当出现多重共线性问题时的Ridge及Lasso回归;复杂回归分析包括梯度提升回归树、神经网络、支持向量机等近几年非常流行的机器学习算法。
第三部分是预测应用篇,其中一个案例是作者在做电力数据时的一个短期负荷曲线预测:从业务背景介绍开始,包括数据采集、数据处理、数据探索、数据建模及模型评估一整套完整的数据预测解决方案,读者可以很好地将此方法移植到其他的生产数据中。
本书既强调深入的算法理论,又强调实际应用。书中有大量的R语言代码帮助读者理解算法原理及数据预测。如果是有兴趣进入数据挖掘行业的读者,这本书非常有参考和指导意义,会使你成为数据处理及数据建模预测的多面手,不至于拿到原始数据时一筹莫展。如果是已具有一定数据挖掘经验的专业人士,本书亦能作为一面哈哈镜,照出自己平时工作中需要完善的地方。
谢佳标
乐逗游戏
前 言
为什么要写这本书
2014年对我来说具有特别的意义,这一年我含莘如苦地恶补了R语言、数据挖掘的进阶算法及应用,同年还多次参加了大数据、R语言的会议,收获良多,认识了不少志同道合的朋友。也是在这一年,我成为了小象学院的兼职讲师,并录制了《数据挖掘之R语言实践》的课程,让我对数据挖掘的理解又上了一个台阶。这年的10月,我回四川老家参加了小妹的婚礼,了却了一桩心愿,从此小妹不再一个人奋斗了,衷心祝愿他们能够一生幸福。时值国庆,我带着全家去了趟九寨沟,虽然路途疲备,但是号称童话世界的九寨沟给我留下了深刻的印象,水是从来没有见过的圣洁,风景更是美不胜收。也就是在这一年,因为工作需要,我开始接触实实在在的预测。起初我便觉得这事不好做,因为当时做的是短期日负荷曲线预测,并不像收入预测、景区人流量预测等情况只需要预测一个值,而是要预测一条曲线。我当时基本把国内关于负荷预测的书籍、博士硕士论文、期刊看了个遍,每天下班回去看,周末也看,该用的时间都用上了,这样我对负荷预测业务及算法的理解很快地提升了一个档次。但是这还不能让我满意,因为最终要拿数据来说话。我用业余时间写了一套R语言并行计算框架,可以同时支持成千上万台变压器数据的建模和预测。可是真正影响效果的不是平台,而是预测背后的那一整套逻辑。当时我就想有没有一套通用的预测方法论,可以直接拿过来使用。这个问题一直在我心底装了很久,后来通过与团队的沟通我们确立了自己的预测体系,虽然不能通用,但是可以解决目前的问题。接着我花了大量时间调测优化模型,期望以统一的框架搞定所有问题,那段时间我研究了很多的预测算法,这些算法包括高斯过程回归、神经网络、卡尔曼滤波等,为了提高预测精度,我使用了很多模型,并使用组合预测的方法来提升效果,甚至考虑通过预测误差来学习优化参数。就是这样的反复折腾,使我在模型调优上的水平很快提升,并且效果也达到了预期的预测目标。这个经历更让我意识到,现在不只是电力行业,其实在其他很多行业,包括电商、物流、金融等都对预测有着天生的依赖性。我们可以通过预测了解到各区域用户的需求趋势,为战略布局提供决策依据;我们也可以通过预测提前预知,使其按正常方式进行下去,我们所关注的指标的变化,并通过有效的途径,牵引向好的方向发展。预测的魅力在于控制、在于引导、在于把握未来。基于以上思考,我觉得很有必要做一个总结,将长期以来混乱的知识体系进行有条理的整理,以供大家学习、交流、讨论,一起成长。
阅读对象
?对数据挖掘、机器学习、预测算法及商业预测应用感兴趣的大专院校师生
?数据挖掘工程师或从事数据挖掘相关工作
?各行各业的数据分析师
?对数据挖掘、预测专题感兴趣的读
预测入门
早在2012年,大数据就被炒得如火如荼。经过几年的发展,很多企业逐步认识到大数据的价值,并着手建立大数据的价值链。2015年4月14日,贵阳大数据交易所的成立,意味着大数据在中国已经跨出重要一步。同时,作为大数据时代最核心的预测,也在近两年被很多公司尝试落地。大数据预测的价值正逐步受到重视。
1.1 什么是预测
预测,天然带着一种神秘感,或是要预言某件事情将会发生,或是运用计算机推算出下一次地震发生的准确时间和位置,诸如此类。本节从预测的定义、预测的特点、预测的分类,以及进行预测时需要注意的基本原则出发,逐步揭开预测的神秘面纱。
1.1.1 预测的定义
预就是预先、事先,测就是度量、推测。预测通常被理解为对某些事物进行事先推测的过程。由于预测具有提前预知事物发展动向的能力,因此科学的预测是很多决策、计划的前提和保证。预测涉及很多行业和领域,并衍生出很多预测专题,除了常见的经济预测、股票市场预测、气象预测,还有人口预测、上网流量预测、产品销量预测、市场需求预测、流行病预测、价格预测等。
预测的定义有很多种,一般认为,预测是从事物发展的历史和现状着手,使用事物的基础信息和统计数据,在严格的理论基础上,对事物历史发展过程进行深刻的定性分析和严密的定量计算,以了解和认识事物的发展变化规律,进一步对事物未来的发展做出科学推测的过程。
一万个读者就有一万个哈姆雷特,同样,对于预测的定义,不同的专家学者也各持己见。概括来讲,主要有六类。
综合上述观点,本书给出预测的定义为:所谓预测,是指基于对事物历史发展规律的了解和当前状态的把握,进一步使用科学的理论、方法和技术,对事物未来发展的走势或状态做出估计、判断的过程。
1.1.2 预测的特点
(1)短期可预测
预测是通过事物的过去及现在推测未来,未来的时间可长可短。如果太长,由于存在很多不确定因素的干扰,预测结果可信度较低,短期预测的结果往往更加可信。
(2)预测随机事物
随机事物具有不确定性,这才决定了预测的价值。实现预测,要从随机的变化规律中,找出相对固定的模式,或局部,或整体。
(3)预测需要数据
实现预测,要通过各种方法采取与预测对象相关的数据,包括历史的、当前的及未来的信息(比如日期、季节、天气预报、业务数据等)。将这些信息进行融合、清洗和加工。
(4)结果仅供参考
由于预测的是随机事物,其发展包含很多不确定性,因此预测结果本来就是不确定的,预测值与真实结果多少会存在误差。
1.1.3 预测的分类
预测可以按不同的维度进行分类,下面阐述常见的预测分类方法。
按范围分类
分为宏观预测和微观预测两类。宏观预测是指为整体的未来发展进行的各种预测。主要考虑预测对象相关指标之间的关系及变化规律。如国民经济预测、教育发展预测、生态破坏预测等。微观预测是指对具体单位或业务的发展前景进行的各种预测。也是研究预测对象相关指标之间的关系及变化规律,如对某产品的产量、销量、利润、费用、价格等的预测。
按时间长短分类
预测按时间长短不同,可分为短期预测、中期预测和长期预测。
因预测对象性质的不同,对短期、中期、长期的划分也不同。对于国民经济预测、技术预测,5年以下为短期预测,5~15年为中期预测,15年以上为长期预测。对于工业经营预测,3年以下为短期预测,3~8年为中期预测,8年以上为长期预测。对于市场预测,半年以下为短期预测,0.5~1年为中期预测,1年以上为长期预测。总体来讲,对短期预测结果的精度要求比较高,而对长期预测结果的精度要求比较低。
按有无假设条件分类
按预测对象有无假设条件,预测可分为条件预测和无条件预测。条件预测一般以一定的决策方案或其他假设条件为前提。无条件预测则不附带任何条件。
按预测结果的要求分类
预测按照其对结果的要求不同,可分为定性预测、定量预测和定时预测。
定性预测是指预测者根据一定的理论方法和经验,在调查研究的基础上,进一步对其发展趋势做出判断,用于预测事物的发展趋势或可能性,如通过研究最新政策和分析某基金的历史资料,判断该基金未来半年将呈增长趋势发展,即属于定性预测的范围。通常可使用的数据很少使用定性预测,一般应用于新产品、新科技的预测,它涉及直觉和经验层面。定量预测是指在收集了预测对象的基础资料和统计数据的基础上,通过运用统计学方法或建立数学模型来求出预测值的过程,如根据某款游戏两年的统计数据,建立时间序列模型,对未来三个月的收入进行预测,即属于定量预测的范围。定时预测是预测对象未来到达的时间,比如预测地震的发生等。
按趋势是否确定分类
如果事物的发展趋势是确定的,那么预测就是确定性预测,一般为短期预测;如果事物的发展趋势是不确定的,那么预测就是随机性预测,一般为长期预测。
按预测依据分类
如果使用事物前后时期的资料进行预测,那么这种预测叫作动态预测;如果使用相关关系进行间接预测,那么这种预测叫作静态预测。
1.1.4 预测的基本原则
科学的预测是在一定原则的指导下,按一定步骤有组织地进行的。预测一般应遵循以下原则。
(1)目的性原则
目的性原则就是在进行预测时,要关注预测功能的受用者及其对预测结果的要求,只有在充分了解受用者的需求及要求的情况下,正确地开展预测,才能避免产生盲目性。比如开展短期负荷预测,就要提前与用户进行沟通,了解当前现状及其要达到的目标(如每天上午8点钟之前发布预测结果,要求精度不低于90%),保证预测工作有明确的目的性。
(2)连贯性原则
连贯性表示连续的情况或状态,连贯性原则主要包括两点:一是指时间上的连贯性,也就是说预测对象较长一段时间内所表现出来的规律特征相对稳定;二是指结构上的连贯性,即预测系统的结构在较长一段时间内相对稳定,预测模型涉及的对象及相互关系相对稳定,模型中各变量的相互关系在历史资料中表现得相对稳定。连贯性原则在进行预测时非常重要,它保证了预测对象规律在预测时间内仍然适用,这很关键。如果在样本期内,预测对象的变化规律发生巨大变化,那么必然会破坏这种连贯性,对有效预测造成困难。
(3)关联性原则
关联性原则强调在预测的时候从相关事物出发去分析影响因素,主要包括中心化关联和类比性关联。以预测对象为中心,去寻找与预测对象相互影响的事物,可能涉及政治、社会、技术、经济等多个方面,这就是中心化关联。比如对旅游景点的人流量进行预测,以景点的人流量为中心,从此出发,可以找到很多影响景点人流量的事物,比如天气情况、节假日情况、交通情况等,基于此考虑,可从诸多的影响因素中找出合适的因素用于预测建模。如果考虑与预测对象相似的事物,从其发展规律中找出有助于预测对象进行预测的因素或信息,这就是类比性关联。比如对某产品用户流失情况进行预测,从用户生命周期分析中可知,凡是使用该产品的用户大致都经过导入期、成长期、成熟期、衰退期。这一过程对所有用户而言都是相似的。分析以前成熟期的用户流失的因素,有助于预测未来用户流失情况。不管是中心化关联还是类比性关联,都需要预测人员具有丰富的知识和经验,进行多向性思考和分析。
(4)近大远小原则
近大远小指的是离预测时间越近信息就越重要,离预测时间越远信息就越不重要。这也很好理解,我们知道预测对象的规律越接近预测时间,可信度越高,以前的旧规律不见得合适拿过来用于预测。所以在进行预测时,不能太关注于模型的拟合程度,模型的拟合度越高,越不一定适合用于做预测;反之,我们更应该关注,模型是否在近期的历史数据上表现良好,这种方法可以用来选择合适的预测模型。同样,在我们建模求解参数时,也应该加大近期样本的权重,对离预测时间较远的样本,可以适当减少建模的权重,这样得到的模型,更能体现预测模型在近期数据变化规律上表现的优势。模型的评价亦是如此,预测模型在接近预测日的样本表现得好,预测模型才算有效,如果有预测模型在历史数据上表现良好,在近期的样本上表现不好,这样的模型只能说在历史数据中拟合得很好,不能说是用于预测的较好模型。总之,近大远小的原则,有助于我们在预测时选择样本、选取模型、求解参数和评价预测效果。
(5)概率性原则
概率是对随机事件发生的可能性的度量。由于绝大多数预测是针对随机事物,所以预测得准与不准,也会以概率的形式体现出来。需要注意的是,概率只是一种可能性,一般用0~1之间的实数表示。概率为0为不可能发生的事情,概率为1为确定性事件,一定会发生。概率为0~1的,值越大可能性越大,值越小可能性越小。即便是概率为0.9,事件也可能不发生,因为只是概率,不是确定性事件,所以是正常的;但如果持续100次有50次都没有发生,那就是概率计算有问题。如果概率为0.001的事件发生了,也叫作小概率事件,是很难遇见的,应该特别引起重视。所以,认清预测的结果带有概率性是很关键的。若预测结果是类别(结果只有几个选项,如是与否、命中与不命中等),那概率表示预测到正确选项的可能性程度;若预测结果是连续的实值,那概率可以表示预测到实值所在区间的可能性程度。
(6)反馈性原则
反馈指返回到起始位置并产生影响。反馈的作用在于发现问题,对问题进行修正,对系统进行优化等。在预测的过程中,如果预测偏差很大,超出了之前设定的范围,那么需要反馈回来做一些调整,简单一点就是调整一些参数,复杂一点可能要更新整个模型。预测反馈的最大作用在于它实现了整个预测过程的不断优化与动态化,保证了预测工作的可持续进行。
(7)及时性原则
预测是与时间紧密关联的一项工作。预测的结果应该快速地被用于决策,不然,时机一过,就失去了预测的价值。这点在地震预测中就能明显地看出来。所以能够迅速、及时地提供预测结果是预测工作的基本要求。
(8)经济性原则
开展预测工作,需要一定的硬件、人力、时间、财力等资源,所以预测本来是讲求投资回报率的。经济性原则就是要在保证预测结果精度的前提下,合理地安排、布置,选择合适的建模方法和工具,以最低的费用和最短的时间,获得预期的预测结果。一定不要过度追求精确性而无故地耗费成本。
以上八条基本原则,刻画了预测工作的全过程。首先要明确预测的目的,接着采用关联性原则来建立好的分析方法和预测思路,在保持一定连贯性的前提下应用远大近小的原则,建立起预测模型。然后,对预测的结果做出概率性预测,对预测偏差较大地,动态地反馈回来,并结合模型的实际情况做出调整和修正,使模型更优。当然,提供预测结果必须是及时的,预测工作的开展也必须控制在一定的成本之内。这样,整个预测便建立在坚实的理论基础之上了。
|
|