新書推薦:
《
积极心理学
》
售價:NT$
254.0
《
自由,不是放纵
》
售價:NT$
250.0
《
甲骨文丛书·消逝的光明:欧洲国际史,1919—1933年(套装全2册)
》
售價:NT$
1265.0
《
剑桥日本戏剧史(剑桥世界戏剧史译丛)
》
售價:NT$
918.0
《
中国高等艺术院校精品教材大系:材料的时尚表达??服装创意设计
》
售價:NT$
347.0
《
美丽与哀愁:第一次世界大战个人史
》
售價:NT$
653.0
《
国家豁免法的域外借鉴与实践建议
》
售價:NT$
857.0
《
大单元教学设计20讲
》
售價:NT$
347.0
|
編輯推薦: |
1. 理论与实践结合。全书对数据挖掘的基本原理进行了详细而系统的介绍,并且还给出了其实现的源代码和运行结果界面。读者可以通过源程序深入了解算法的原理。2. 对常见的数据挖掘算法,本书均以例题的方式进行了应用说明,并且还对个算法的优缺点进行了总结,给出了各种算法的具体应用领域。3. 有配套的课件。
|
內容簡介: |
本书对数据挖掘的基本算法进行了系统介绍,每种算法不仅介绍了算法的基本原理,而且配有大量例题以及源代码,并对源代码进行了分析,这种理论和实践相结合的方式有助于读者较好地理解和掌握抽象的数据挖掘算法。 全书共分11章,内容同时涵盖了数据预处理、关联规则挖掘算法、分类算法和聚类算法,具体章节包括绪论、数据预处理、关联规则挖掘、决策树分类算法、贝叶斯分类算法、人工神经网络算法、支持向量机、Kmeans聚类算法、K中心点聚类算法、神经网络聚类算法以及数据挖掘的发展等内容。 本书可作为高等院校数据挖掘课程的教材,也可以作为从事数据挖掘工作以及其他相关工程技术工作人员的参考书。
|
目錄:
|
目录
第1章绪论1
1.1数据挖掘的概念1
1.2数据挖掘的历史及发展1
1.3数据挖掘的研究内容及功能5
1.3.1数据挖掘的研究内容5
1.3.2数据挖掘的功能6
1.4数据挖掘的常用技术及工具9
1.4.1数据挖掘的常用技术9
1.4.2数据挖掘的工具12
1.5数据挖掘的应用热点12
1.6小结14
思考题15第2章数据预处理16
2.1数据预处理的目的 16
2.2数据清理18
2.2.1填充缺失值18
2.2.2光滑噪声数据18
2.2.3数据清理过程19
2.3数据集成和数据变换20
2.3.1数据集成20
2.3.2数据变换21
2.4数据归约23
2.4.1数据立方体聚集23
2.4.2维归约23
2.4.3数据压缩24
2.4.4数值归约25
2.4.5数据离散化与概念分层28
2.5特征选择与提取302.5.1特征选择30
2.5.2特征提取31
2.6小结33
思考题33第3章关联规则挖掘35
3.1基本概念 35
3.2关联规则挖掘算法Apriori算法原理36
3.3Apriori算法实例分析38
3.4Apriori算法源程序分析41
3.5Apriori算法的特点及应用50
3.5.1Apriori算法特点50
3.5.2Apriori 算法应用51
3.6小结52
思考题52第4章决策树分类算法54
4.1基本概念54
4.1.1决策树分类算法概述54
4.1.2决策树基本算法概述54
4.2决策树分类算法ID3算法原理56
4.2.1ID3算法原理56
4.2.2熵和信息增益57
4.2.3ID3算法59
4.3ID3算法实例分析60
4.4ID3算法源程序分析64
4.5ID3算法的特点及应用72
4.5.1ID3算法特点72
4.5.2ID3算法应用72
4.6决策树分类算法C4.5算法原理73
4.6.1C4.5算法73
4.6.2C4.5算法的伪代码75
4.7C4.5算法实例分析76
4.8C4.5算法源程序分析 77
4.9C4.5算法的特点及应用101
4.9.1C4.5算法特点101
4.9.2C4.5算法应用101
4.10小结102
思考题102第5章贝叶斯分类算法103
5.1基本概念103
5.1.1主观概率103
5.1.2贝叶斯定理104
5.2贝叶斯分类算法原理105
5.2.1朴素贝叶斯分类模型105
5.2.2贝叶斯信念网络107
5.3贝叶斯算法实例分析110
5.3.1朴素贝叶斯分类器110
5.3.2BBN112
5.4贝叶斯算法源程序分析114
5.5贝叶斯算法特点及应用119
5.5.1朴素贝叶斯分类算法119
5.5.2贝叶斯信念网120
思考题121第6章人工神经网络算法122
6.1基本概念122
6.1.1生物神经元模型122
6.1.2人工神经元模型123
6.1.3主要的神经网络模型124
6.2BP算法原理126
6.2.1Delta学习规则的基本原理126
6.2.2BP网络的结构126
6.2.3BP网络的算法描述127
6.2.4标准BP网络的工作过程129
6.3BP算法实例分析130
6.4BP算法源程序分析134
6.5BP算法的特点及应用143
6.5.1BP算法特点143
6.5.2BP算法应用144
6.6小结145
思考题145第7章支持向量机146
7.1基本概念146
7.1.1支持向量机理论基础146
7.1.2统计学习核心理论146
7.1.3学习过程的一致性条件146
7.1.4函数集的VC维147
7.1.5泛化误差界148
7.1.6结构风险最小化归纳原理148
7.2支持向量机原理149
7.2.1支持向量机核心理论149
7.2.2最大间隔分类超平面149
7.2.3支持向量机150
7.2.4核函数分类153
7.3支持向量机实例分析154
7.4支持向量机的特点及应用156
7.4.1支持向量机的特点156
7.4.2支持向量机的应用157
7.5小结158
思考题158第8章Kmeans聚类算法159
8.1简介159
8.2Kmeans聚类算法原理159
8.3Kmeans聚类算法实例分析161
8.4Kmeans聚类算法源程序分析164
8.5Kmeans聚类算法的特点及应用171
8.5.1Kmeans聚类算法的特点171
8.5.2Kmeans聚类算法的应用171
8.6小结172
思考题172第9章K中心点聚类算法173
9.1简介173
9.2K中心点聚类算法原理173
9.3K中心点聚类算法实例分析174
9.4K中心点聚类算法源程序分析175
9.5K中心点聚类算法的特点及应用183
9.5.1K中心点聚类算法的特点183
9.5.2K中心点聚类算法的应用183
9.6小结183第10章神经网络聚类方法: SOM 184
10.1简介184
10.2竞争学习算法基础184
10.2.1自组织神经网络结构184
10.2.2自组织神经网络的原理185
10.3SOM算法原理187
10.3.1SOM网络的拓扑结构187
10.3.2SOM权值调整域188
10.3.3SOM网络运行原理189
10.3.4学习方法189
10.4SOM算法实例分析190
10.4.1问题描述190
10.4.2网络设计及学习结果191
10.4.3结果输出191
10.5SOM算法源程序分析192
10.6SOM算法的特点及应用202
10.6.1SOM特点202
10.6.2SOM应用202
10.7小结203
思考题203第11章数据挖掘的发展204
11.1Web挖掘204
11.1.1Web数据挖掘定义204
11.1.2Web数据挖掘分类204
11.1.3Web数据挖掘的数据源206
11.1.4Web数据挖掘中知识的分类207
11.1.5Web数据挖掘的关键问题208
11.2空间数据挖掘209
11.2.1空间数据挖掘的定义与特点209
11.2.2空间数据挖掘的体系结构210
11.2.3空间数据挖掘可获得的知识
类型210
11.2.4空间数据挖掘的方法212
11.3流数据挖掘215
11.3.1流数据的特点215
11.3.2流数据挖掘关键技术215
11.3.3流数据挖掘的实际应用及前景217
11.4数据挖掘与可视化技术218
11.4.1什么是可视化218
11.4.2数据可视化技术分类219
11.4.3数据挖掘可视化技术的应用221
11.5小结222
思考题223参考文献224
|
內容試閱:
|
前言数据挖掘涉及数据库技术、人工智能、统计学、机器学习等多学科领域,并且已经在各行各业有了非常广泛的应用。为适应我国数据挖掘的教学工作,作者在数据挖掘教学实践的基础上,参阅了多种国内外最新版本的教材,编写了本书。本书可以作为高等院校研究生的教材,也可以为相关行业的工程技术人员提供有益的参考。本书在第1版的基础上对其中欠妥之处进行了修改,内容安排和第1版一致,循序渐进地对数据挖掘原理进行了通俗易懂的讲解。本书最大的特点是理论与实践相结合,全书几乎所有的算法都配有实例和源程序,这种理论与实际相结合的方法克服了重理论轻实践的内容组织方式,便于读者理解和掌握其中知识。具体而言,本书11章内容之间的关系如下图所示。
本书配有教学课件,读者可登录www.tup.com.cn网站自行下载。由于编者水平有限,本书难免存在不少缺点和不足之处,恳请专家和读者批评指正。
编者2016年9月
第5章贝叶斯分类算法〖1〗5.1基本概念〖1〗5.1.1主观概率贝叶斯方法是一种研究不确定性的推理方法。不确定性常用贝叶斯概率表示,它是一种主观概率。通常的经典概率代表事件的物理特性,是不随人意识变化的客观存在。而贝叶斯概率则是人的认识,是个人主观的估计,随个人主观认识的变化而变化。例如事件的贝叶斯概率只指个人对该事件的置信程度,因此是一种主观概率。投掷硬币可能出现正反面两种情形,经典概率代表硬币正面朝上的概率,这是一个客观存在;而贝叶斯概率则指个人相信硬币会正面朝上的程度。同样的例子还有,一个企业家认为一项新产品在未来市场上销售的概率是0.8,这里的0.8是根据他多年的经验和当时的一些市场信息综合而成的个人信念。一个投资者认为购买某种股票能获得高收益的概率是0.6,这里的0.6是投资者根据自己多年股票生意经验和当时股票行情综合而成的个人信念。贝叶斯概率是主观的,对其估计取决于先验知识的正确性和后验知识的丰富和准确度。因此贝叶斯概率常常可能随个人掌握信息的不同而发生变化。对即将进行的羽毛球单打比赛结果进行预测,不同人对胜负的主观预测都不同。如果对两人的情况和各种现场的分析一无所知,就会认为两者的胜负比例为1∶1;如果知道其中一人为本届奥运会羽毛球单打冠军,而另一人只是某省队新队员,则可能给出的概率是奥运会冠军和省队队员的胜负比例为3∶1;如果进一步知道奥运冠军刚好在前一场比赛中受过伤,则对他们胜负比例的主观预测可能会下调为2∶1。所有的预测推断都是主观的,基于后验知识的一种判断,取决于对各种信息的掌握。经典概率方法强调客观存在,它认为不确定性是客观存在的。在同样的羽毛球单打比赛预测中,从经典概率的角度看,如果认为胜负比例为1∶1,则意味着在相同的条件下,如果两人进行100场比赛,其中一人可能会取得50场的胜利,同时丢掉另外50场。主观概率不像经典概率那样强调多次重复,因此在许多不可能出现重复事件的场合能得到很好的应用。上面提到的企业家对未来产品的预测,投资者对股票是否能取得高收益的预测以及羽毛球比赛胜负的预测中,都不可能进行重复的实验,因此,利用主观概率,按照个人对事件的相信程度而对事件做出推断是一种很合理且易于解释的方法。5.1.2贝叶斯定理〖*45〗1. 基础知识(1) 已知事件A发生的条件下,事件B发生的概率,叫作事件B在事件A发生下的条件概率,记为PBA,其中PA叫作先验概率,PBA叫作后验概率,计算条件概率的公式为PBA=PABPA(51)条件概率公式通过变形得到乘法公式为PAB=PBAPA(52)(2) 设A,B为两个随机事件,如果有PAB=PAPB成立,则称事件A和B相互独立。此时有PAB=PA,PAB=PAPB成立。设A1,A2,,An为n个随机事件,如果对其中任意m2mn个事件Ak1,Ak2,,Akm,都有PAk1,Ak2,,Akm=PAk1PAk2PAkm(53)成立,则称事件A1,A2,,An相互独立。(3) 设B1,B2,,Bn为互不相容事件,PBi0,i=1,2,,n,且ni=1Bi=,对任意的事件Ani=1Bi,计算事件A概率的公式为PA=ni=1PBiPABi54)设B1,B2,,Bn为互不相容事件,PBi0,i=1,2,,n,PA0,则在事件A发生的条件下,事件Bi发生的概率为PBiA=PBiAPA=PBiPABini=1PBiPABi(55)则称该公式为贝叶斯公式。2. 贝叶斯决策准则假设=C1,C2,,Cm是有m个不同类别的集合,特征向量X是d维向量,PXCi是特征向量X在类别Ci状态下的条件概率,PCi为类别Ci的先验概率。根据前面所述的贝叶斯公式,后验概率PCiX的计算公式为PCiX=PXCiPXPCi(56)其中PX=mj=1PXCjPCj。贝叶斯决策准则为: 如果对于任意ij,都有PCiXPCjX成立,则样本模式X被判定为类别Ci。3. 极大后验假设根据贝叶斯公式可得到一种计算后验概率的方法: 在一定假设的条件下,根据先验概率和统计样本数据得到的概率,可以得到后验概率。令Pc是假设c的先验概率,它表示c是正确假设的概率,PX表示的是训练样本X的先验概率,PXc表示在假设c正确的条件下样本X发生或出现的概率,根据贝叶斯公式可以得到后验概率的计算公式为PcX=PXcPcPX (57)设C为类别集合也就是待选假设集合,在给定未知类别标号样本X时,通过计算找到可能性最大的假设cC,具有最大可能性的假设或类别被称为极大后验假设maximum a posteriori,记作cmap。cmap=argmaxcCPcX=argmaxcCPXcPcPX(58)由于PX与假设c无关,故上式可变为cmap=argmaxcCPXcPc(59)当没有给定类别概率的情形下,可做一个简单的假定。假设C中每个假设都有相等的先验概率,也就是对于任意的ci,cjCij,都有Pci=Pcj,再做进一步简化,只需计算PXc找到使之达到最大的假设。PXc被称为极大似然假设maximum likelihood,记为cml。cml=argmaxcCPXc(510)5.2贝叶斯分类算法原理〖1〗5.2.1朴素贝叶斯分类模型贝叶斯分类器诸多算法中朴素贝叶斯分类模型是最早的。它的算法逻辑简单,构造的朴素贝叶斯分类模型结构也比较简单,运算速度比同类算法快很多,分类所需的时间也比较短,并且大多数情况下分类精度也比较高,因而在实际中得到了广泛的应用。该分类器有一个朴素的假定: 以属性的类条件独立性假设为前提,即在给定类别状态的条件下,属性之间是相互独立的。朴素贝叶斯分类器的结构示意图如图51所示。图51朴素贝叶斯分类器的结构示意图假设样本空间有m个类别C1,C2,,Cm,数据集有n个属性A1,A2,,An,给定一未知类别的样本X=x1,x2,,xn,其中xi表示第i个属性的取值,即xiAi,则可用贝叶斯公式计算样本X=x1,x2,,xn属于类别Ck1km的概率。由贝叶斯公式,有PCkX=PCkPXCkPXPCkPXCk,即要得到PCkX的值,关键是要计算PXCk和PCk。令CX为X所属的类别标签,由贝叶斯分类准则,如果对于任意ij都有PCiXPCjX成立,则把未知类别的样本X指派给类别Ci,贝叶斯分类器的计算模型为VX=argmaxPCiPXCi(511)由朴素贝叶斯分类器的属性独立性假设,假设各属性xii=1,2,,n间相互类条件独立,则PXCi=nk=1PxkCi (512)于是式(511)被修改为VX=argmaxiPCink=1PxkCi(513)PCi为先验概率,可通过PCi=did计算得到,其中di是属于类别Ci的训练样本的个数;d是训练样本的总数。若属性Ak是离散的,则概率可由PxkCi=dikdi计算得到,其中dik是训练样本集合中属于类Ci并且属性Ak取值为xk的样本个数,di是属于类Ci的训练样本个数。朴素贝叶斯分类的工作过程如下:(1) 用一个n维特征向量X=x1,x2,,xn来表示数据样本,描述样本X对n个属性A1,A2,,An的量度。(2) 假定样本空间有m个类别状态C1,C2,,Cm,对于给定的一个未知类别标号的数据样本X,分类算法将X判定为具有最高后验概率的类别,也就是说,朴素贝叶斯分类算法将未知类别的样本X分配给类别Ci,当且仅当对于任意的j,始终有PCiXPCjX成立,1im,1jm,ji。使PCiX取得最大值的类别Ci被称为最大后验假定。(3) 由于PX不依赖类别状态,对于所有类别都是常数,故根据贝叶斯定理,最大化PCiX只需要最大化PXCiPCi即可。如果类的先验概率未知,则通常假设这些类别的概率是相等的,即PC1=PC2==PCm,所以只需要最大化PXCi即可,否则就要最大化PXCiPCi。其中可用频率SiS对PCi进行估计计算,Si是给定类别Ci中训练样本的个数;S是训练样本(实例空间)的总数。(4) 当实例空间中训练样本的属性较多时,计算PXCi可能会比较费时,开销较大,此时可以做类条件独立性的假定: 在给定样本类别标号的条件下,假定属性值是相互条件独立的,属性之间不存在任何依赖关系,则下面等式成立: PXCi=nk=1PxkCi。其中概率Px1Ci,Px2Ci,,PxnCi的计算可由样本空间中的训练样本进行估计。实际问题中根据样本属性Ak的离散连续性质,考虑下面两种情形: 如果属性Ak是连续的,则一般假定它服从正态分布,从而来计算类条件概率。 如果属性Ak是离散的,则PxkCi=SikSi,其中Sik是在实例空间中类别为Ci的样本中属性Ak上取值为xk的训练样本个数,而Si是属于类别Ci的训练样本个数。(5) 对于未知类别的样本X,对每个类别Ci分别计算PXCiPCi。样本X被认为属于类别Ci,当且仅当PXCiPCiPXCjPCj,1im,1jm,ji,也就是说样本X被指派到使PXCiPCi取得最大值的类别Ci。朴素贝叶斯分类模型的算法描述如下:(1) 对训练样本数据集和测试样本数据集进行离散化处理和缺失值处理。(2) 扫描训练样本数据集,分别统计训练集中类别Ci的个数di和属于类别Ci的样本中属性Ak取值为xk的实例样本个数dik,构成统计表。(3) 计算先验概率PCi=did和条件概率PAk=xkCi=dikdi,构成概率表。(4) 构建分类模型VX=argmaxiPCiPXCi。(5) 扫描待分类的样本数据集,调用已得到的统计表、概率表以及构建好的分类准则,得出分类结果。5.2.2贝叶斯信念网络朴素贝叶斯分类器的条件独立假设似乎太严格了,特别是对那些属性之间有一定相关性的分类问题。下面介绍一种更灵活的类条件概率PXY的建模方法。该方法不要求给定类的所有属性条件独立,而是允许指定哪些属性条件独立。1. 模型表示贝叶斯信念网络(Bayesian Belief Networks,BBN),简称贝叶斯网络,用图形表示一组随机变量之间的概率关系。贝叶斯网络有以下两个主要成分:(1) 一个有向无环图(Directed Acyclic Graph,DAG),表示变量之间的依赖关系。(2) 一个概率表,把各节点和它的直接父节点关联起来。考虑三个随机变量A、B和C,其中A和B相互独立,并且都直接影响第三个变量C。三个变量之间的关系可以用图52(a)中的有向无环图概括。图中每个节点表示一个变量,每条弧表示变量之间的依赖关系。如果从X到Y有一条有向弧,则X是Y的父母,Y是X的子女。另外,如果网络中存在一条从X到Z的有向路径,则X是Z的祖先,而Z是X的后代。例如,在图52(b)中,A是D的后代,D是B的祖先,而且B和D都不是A的后代节点。贝叶斯网络的重要性质是: 贝叶斯网络中的一个节点,如果它的父母节点已知,则它条件独立于它所有的非后代节点。图52(b)中给定C,A条件独立于B和D,因为B和D都是A的非后代节点。朴素贝叶斯分类器中的条件独立假设也可以用贝叶斯网络来表示。如图52(c)所示,其中Y是目标类,X1,X2,,X5是属性集。图52贝叶斯信念网络在贝叶斯信念网中,除了网络拓扑结构要求的条件独立性外,每个节点还关联一个概率表。如果节点X没有父母节点,则表中只包含先验概率PX。如果节点X只有一个父母节点Y,则表中包含条件概率PXY。如果节点X有多个父母节点Y1,Y2,,Yk,则表中包含条件概率PX|Y1,Y2,,Yk。如图53所示是贝叶斯网络的一个例子,对心脏病或心口痛患者建模。假设图中每个变量都是二值的。心脏病节点(HD)的父母节点对应于影响该疾病的危险因素,例如锻炼(E)和饮食(D)等。心脏病节点的子节点对应于该病的症状,如胸痛(CP)和高血压(BP)等。如图53所示,心口痛(HB)可能源于不健康的饮食,同时又可能导致胸痛。图53发现心脏病和心口痛病人的贝叶斯网影响疾病的危险因素对应的节点只包含先验概率,而心脏病、心口痛以及它们的相应症状所对应的节点都包含条件概率。为了节省空间,图中省略了一些概率。注意PX=x-=1-PX=x,PX=x-Y=1-PX=xY,其中x-表示与x相反的结果。因此,省略的概率可以很容易求得。例如,条件概率P心脏病=no锻炼=no,饮食=健康=1-P心脏病=yes锻炼=no,饮食=健康=1-0.55=0.452. 模型建立贝叶斯网络的建模包括两个步骤: 创建网络结构以及估计每一个节点的概率表中的概率值。网络拓扑结构可以通过对主观的领域专家知识编码获得,算法5.1给出了归纳贝叶斯网络拓扑结构的一个系统过程。算法5.1贝叶斯网络拓扑结构的生成算法。(1) 设T=X1,X2,,Xd表示变量的一个总体次序。(2) FOR j=1 to d DO。(3) 令XTj表示T中第j个次序最高的变量。(4) 令XTj=X1,X2,,XTj-1表示排在XTj前面的变量的集合。(5) 从XTj中去掉对Xj没有影响的变量(使用先验知识)。(6) 在XTj和XTj中剩余的变量之间画弧。(7) END FOR。我们以图5.3为例解释上述步骤,执行步骤(1)后,设变量次序为E,D,HD,HB,CP,BP,从变量D开始,经过步骤(2)~(7),得到以下条件概率: PDE化简为PD。 PHDE,D不能化简。 PHBHD,E,D化简为PHBD。 PCPHB,HD,E,D化简为PCPHB,HD。 PBPCP,HB,HD,E,D化简为PBPHD。基于以上条件概率,创建节点之间的弧E,HD、D,HD、D,HB、HD,CP、HB,CP和HD,BP。这些弧构成了如图53所示的网络结构。算法5.1保证生成的拓扑结构不包括环。这一点的证明也很简单。如果存在环,那么至少有一条弧从低序节点指向高序节点,并且至少存在另一条弧从高序节点指向低序节点。由于算法5.1不允许从低序节点到高序节点的弧存在,因此拓扑结构中不存在环。然而,如果对变量采用不同的排序方案,得到的网络拓扑结构可能会有变化。某些拓扑结构可能质量很差,因为它在不同的节点对之间产生了很多条弧。从理论上讲,可能需要检查所有d!种可能的排序才能确定最佳的拓扑结构,这是一项计算开销很大的任务。一种替代的方法是把变量分为原因变量和结果变量,然后从各原因变量向其对应的结果变量画弧。这种方法简化了贝叶斯网络结构的建立。一旦找到了合适的拓扑结构,与各节点关联的概率表就确定了。对这些概率的估计比较容易,与朴素贝叶斯分类器中所用的方法类似。5.3贝叶斯算法实例分析〖1〗5.3.1朴素贝叶斯分类器【例5.1】应用朴素贝叶斯分类器来解决这样一个分类问题: 根据天气状况来判断某天是否适合打网球。给定如表51所示的14个训练实例,其中每一天由属性outlook,temperature,humidity,windy来表征,类属性为play tennis。表5114个训练实例dayoutlooktemperaturehumiditywindyplay tennis1sunnyhothighweakno2sunnyhothighstrongno3overcasthothighweakyes4rainmildhighweakyes5raincoolnormalweakyes6raincoolnormalstrongno7overcastcoolnormalstrongyes8sunnymildhighweakno9sunnycoolnormalweakyes10rainmildnormalweakyes11sunnymildnormalstrongyes12overcastmildhighstrongyes13overcasthotnormalweakyes14rainmildhighstrongno现有一测试实例x: ,问这一天是否适合打网球?图54朴素贝叶斯分类器的结构显然,我们的任务就是要预测此新实例的类属性play tennis的取值yes或no, 为此,我们构建了如图54所示的朴素贝叶斯网络分类器。图中的类节点C表示类属性play tennis, 其他4个节点A1,A2,A3,A4分别代表4个属性outlook,temperature,humidity,windy,类节点C是所有属性节点的父亲节点,属性节点和属性节点之间没有任何的依赖关系。根据公式有Vx=argmaxcyes,noPcPsunnycPcoolcPhighcPstrongc为计算Vx, 需要从如表51所示的14个训练实例中估计出概率。Pyes,Psunnyyes,Pcoolyes,Phighyes,Pstrongyes,Pno,Psunnyno,Pcoolno,Phighno,Pstrongno。具体的计算如下:Pyes=914Psunnyyes=29Pcoolyes=39Phighyes=39Pstrongyes=39Pno=514Psunnyno=35Pcoolno=15Phighno=45Pstrongno=35所以有PyesPsunnyyesPcoolyesPhighyesPstrongyes=0.005291PnoPsunnynoPcoolnoPhighnoPstrongno=0.0205704可见,朴素贝叶斯分类器将此实例分类为no。【例5.2】应用朴素贝叶斯分类器来解决这样一个分类问题: 给出一个商场顾客数据库(训练样本集合),判断某一顾客是否会买电脑。给定如表52所示的15个训练实例,其中每个实例由属性age,income,student,credit rating来表征,样本集合的类别属性为buy computer,该属性有两个不同的取值,即yes,no,因此就有两个不同的类别m=2。设C1对应yes类别,C2对应no类别。表5215个训练实例ageincomestudentcredit ratingbuy computer30 highnofairno30 highnoexcellentno3140 highnofairyes40 mediumnofairyes40 lowyesfairyes40 lowyesexcellentno3140 lowyesexcellentyes30 mediumnofairno续表ageincomestudentcredit ratingbuy computer30 lowyesfairyes40 mediumyesfairyes30 mediumyesexcellentyes3140 mediumnoexcellentyes3140 highyesfairyes40 medium noexcellentno现有一测试实例x: age
|
|