最优分类器设计

基于参数估计的最优分类器设计

一、目录

1. 分类器概述

1.1模式识别系统和模式识别方法

1.1.1模式识别的基本概念

1.1.2 模式识别系统

1.1.3 模式识别的基本方法

1.2分类器的原理概述

1.2.1 分类器的定义

1.2.2 分类器的描述方法

1.3分类器的分类方法

1.3.1决策树

1.3.2贝叶斯

2. 贝叶斯决策理论

2.1最大后验概率判决准则

2.2最小风险贝叶斯判决准则

3. 概率密度函数参数估计理论

3.1 概率密度函数估计

3.1.1 概率密度函数估计概述

3.1.2 参数估计的基本概念

3.2 最大似然估计

3.3 贝叶斯估计

4. 贝叶斯分类器设计

4.1 原理分析

4.2 分类器设计过程概述

4.3 分类器的最大似然估计

4.3.1 最大似然估计函数原理

4.3.2 最大似然估计估计类条件概率密度函数

4.3.3 代码实现与结果

4.4 贝叶斯分类器的设计

4.4.1 最小错误概率贝叶斯分类器设计

4.4.2 最小风险贝叶斯分类器设计

4.4.3 多项式分类器 (Polynomial Classifiers)

二、论文正文

1. 分类器概述

1.1模式识别系统和模式识别方法

1.1.1模式识别的基本概念

模式识别(Pattern Recognition)-----用计算机实现人对各种事物或现象的分析, 描述, 判断, 识别。具体来说就是利用计算机对某些物理对象进行分类,在错误概率最小的条件下, 使识别的结果尽量与客观事物相符。

模式识别是一种智能活动,包含分析与判断两个过程。分析的过程在于确定用于划分模式类的特征及其表达方法;判断的过程则体现在依据待识别对象的特征,将其判属于某一个模式类。

1.1.2 模式识别系统

一、模式识别系统简介

模式识别的本质就是根据模式的特性表达和模式类的划分方法,利用计算机将模式判属特定的类。因此,模式识别需要解决5个问题:模式的数字化表达、模式特性的选择、特性表达方法的确定、模式类的表达和判决方法的确定。

一般由数据获取,预处理,特征提取选择、分类决策及分类器设计五部分组成。分类器设计在训练过程中完成,利用样本进行训练,确定分类器的具体参数。而分类决策在识别过程中起作用,对待识别的样本进行分类决策。如图:

1. 信息获取

对于机器识别来说,由于计算机只能处理数字信号,计算机获取模式信息意味着实现观察对象的数字化表达.

观察对象——>传感器——>A/D转换器——>数字化表达

2. 预处理

在得模式的数学表达后,往往需要对它进行预处理,以便去除或减少噪声的影响,突出有用信息。

3. 特征提取和选择

特征提取是指采用映射(或变换)实现由模式测量空间向特征空间的转变,或者将特征空间的维数从高维变成低维。

4. 分类判决

模式类是指具有相似特征的模式的集合,模式和模式类的关系就是元素和集合的关系。模式的分类过程,事实上就是判定表征观察对象的元素和指定的从属关系的过程。

1.1.3 模式识别的基本方法

模式识别的本质在于实现元素(表征观察对象)和集合(表征模式类)的从属关系的判定过程。

一、统计模式识别

统计模式识别(statistic pattern recognition ) 的基本原理是:有相似性的样本在模式空间中互相接近,并形成“集团”,即“物以类聚”。 其分析方法是根据模式所测得的特征向量。

统计模式识别系统主要由信息获取、预处理、特征提取和选择以及分类器4个部分组成,其中分类器包括分类器设计和分类决策。

二、结构模式识别

其基本思想是把一个模式描述为较简单的子模式的组合,子模式又可描述为更简单的子模式的组合,最终得到一个树形的结构描述,在底层的最简单的子模式称为模式基元。在句法方法中选取基元的问题相当于在决策理论方法中选取特征的问题。通常要求所选的基元能对模式提供一个紧凑的反映其结构关系的描述,又要易于用非句法方法加以抽取。

三、神经网络模式识别

神经网络是受人脑组织的生理学启发而创立的。由一系列互相联系的、相同的单元(神经元)组成。相互间的联系可以在不同的神经元之间传递增强或抑制信号。增强或抑制是通过调整神经元相互间联系的权重系数来(weight )实现。

神经网络可以实现监督和非监督学习条件下的分类。

四、模糊模式识别

模糊集合论采用隶属度来描述元素属于一个集合的程度,用来解决信息的不确定性问题。模糊模式识别是以模糊论为基础,对应的判决结果转化为软判决,识别结果是观察对象属于每一类的隶属度。

1.2分类器的原理概述

1.2.1 分类器的定义

分类器(classifier )是使待分对象被划归某一类而使用的分类装置或数学模型。分类器是一种计算机程序。

1.2.2 分类器的描述方法

模式分类器的描述方法很多,这里仅介绍三种,他们之间是统一的。

一、映射描述法

因为我们获取的观察对象总是有限的,因此,可以用d+1维向量

x 1, x 2,...... x d ; ∂)((x , x ,...... x )为特征向量,是 表来表示:其中:12d

R d 中的一个点,α取值于集合{1,2,„,m},表示模式的真实标号,是未知的量。模式的分类的实质在于实现特征空间R d 到类别号空间{1,2,„,m}的一个映射,即R d →{1, 2,...., m }。给定一个映射f ,就给出了一种模式识别方法,不同的映射对应不同的分类方法,这就是模式识别的映射描述法。

二、划分描述法

由于每一个特征向量是R d 空间的一个点,且R d →{1, 2,...., m } 是一个多对一的映射,通过映射,本质上实现了对R d 空间的划分,

即把R d 划分为m 个不从跌的区域,每一个区域对应一个类别。设R i 对应第i 类的ωi 。

三、判别函数法

把分类问题对应为R d 空间上的多元函数,通常称为判别函数(或判决函数)g i (x ), i =1, 2,....., m 。 对于任给某类未知类别的样本计算各类判别函数的值g i (x ), i =1, 2,....., m ,将样本判属有极大极小x ,函数值哪一类,到底取极大还是极小值,需要根据具体问题的物理意义确定。不同的判别函数对应不同的模式分类方法。

模式分类实际上是将特征空间划分为不同的决策区域,相邻决策区域被决策面所分割,这些决策面是特征空间的超曲面,其决策面方程满足相邻两个决策判别函数相等。

1.3分类器的分类方法

主要分类方法介绍解决分类问题的方法很多[40-42] ,单一的分类方法主要包括:决策树、贝叶斯、人工神经网络、K-近邻、支持向量机和基于关联规则的分类等;另外还有用于组合单一分类方法的集成学习算法,如Bagging 和Boosting 等。

1.3.1决策树

决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别。

1.3.2贝叶斯

贝叶斯(Bayes )分类算法是一类利用概率统计知识进行分类的算法,如朴素贝叶斯(Naive Bayes)算法。这些算法主要利用Bayes 定理来预测一个未知类别的样本属于各个类别的可能性,选择其中可能性最大的一个类别作为该样本的最终类别。由于贝叶斯定理的成立本身需要一个很强的条件独立性假设前提,而此假设在实际情况中经常是不成立的,因而其分类准确性就会下降。为此就出现了许多降低独立性假设的贝叶斯分类算法,如TAN (Tree Augmented Na?ve Bayes)算法,它是在贝叶斯网络结构的基础上增加属性对之间的关联来实现的。

2. 贝叶斯决策理论

统计决策理论是处理模式分类问题的基本理论之一,也是基于参数估计的最优化分类器设计主要应用的理论。这里将详细讨论分类器设计用到的三大理论:最大后验概率判决准则、最小风险贝叶斯判决准则、最小最大风险判决准则。

基本假设:

ωm 组成,给定模式空间S ,有m 个互不相交的模式集合ω1, ω2,.....

即S =ω1 ω2 ..... ωm ωi ωj =ϑ(i ≠j ; i , j =1, 2,...., m )。几个基本假设如下:

(1)假设类ωj 的先验概率为P (ωj );

(2)样本x 由特征向量来表示,同样记为x ,假设为d 维,即 x =(x 1, x 2,...., x d ) ;

(3)特征向量x 的取值范围构成特征空间,记为R d ;

(4)特征向量x 的类条件概率密度函数为p (x |ωi ) , 表示当样本

x ∈ωi 时,特征向量x 的概率密度函数;

(5)特征向量x 的后验概率为P (ωi |x ) , 表示在特征向量x 出现的条件下,样本x 来自ωj 的概率,即ωj 出现的概率。

模式识别就是根据特征向量x 的取值,依据某个判决准则把样本

ωm 中的一个 x 划分到ω1, ω2,.....

2.1最大后验概率判决准则

最大后验概率判决准则的思想是, 把样本归入后验概率最大的类别中去。最大后验概率判别准则会使平均错误概率达到最小。一、两类分类的最小错误率概率分类决策规则:

设N 个样本分为两类。每个样本抽出n 个特征, x =(x1, x2, x3,…, xn )

⎧若P (ωx ) >P (ωx ), 则x ∈ω121

⎨⎩若P (ω1x )

P (ωi |x ) 为状态后验概率。由Bayes 公式: 其中,

P (ωi x ) =p (x i ) P (ωi ) ∑p (x ) P (ω) j j

j =12

两类分类的贝叶斯决策函数

(1) g (x ) =P (ω1x ) -P (ω2x ), (后验概率)

(2) g (x ) =p (x 1) P (ω1) -p (x 2) P (ω2), (类条件概率密度) p (x 1) P (ω2) (3) g (x ) =-, (似然比形式) p (x 2) P (ω1)

p (x 1) P (ω2) (4) g (x ) =ln -ln , (取对数方法) p (x 2) P (ω1)

二、最大后验概率判决准则:

假设已知P (ωj )和p (x |ωi ) ,最大后验概率判决准则就是把样本x 归入后验概率最大的类别中去,即就是,若:

p (x |ωi ) P (ωi ) P (ω|x ) =P (ωi |x ) =max P (ωi |x ) i ∈(1, 2,... m ) 则:i p (x )

这里类似的几种最大后验概率判决准则:

(1) 若p (x |ωi ) P (ωi ) =max p (x |ωi ) P (ωi ) i =(1, 2,...., m ), 则x ∈ωi

p (x |ωi ) P (ωj ) (2) 若L (x ) =>(i =1, 2,....., m ; i ≠j ), 则x ∈ωi p (x |ωj ) P (ωi )

P (ωi ) (3) 若InL (x ) =Inp (x |ωj ) -Inp (x |ωi ) >In (i =1, 2,.... m ; i ≠j ), 则x ∈ωj . P (ωj )

其中,L (x ) 称为似然比,InL (x ) 称为对数似然比。

在最大后验概率判决准则中,x ∈ωi 的决策区域R j 为

p (x |ωi ) P (ωj ) R j ={x |>, i =1, 2,...., m ; i ≠j }(j =1, 2,.... m ) p (x |ωj ) P (ωi ) 最大后验概率判决准则使平均错误概率达到最小。因此,最大后验概率判决准则又称为最小错误概率判决准则。

2.2最小风险贝叶斯判决准则

考虑到由于客观事物的复杂性,分类器作出各种判决时的风险是不一样的。因此,在分类器中引入了风险的概念, 即就是错误分类造成的损失。在实际应用中根据具体情况决定各种风险的大小,通常用一组系数λ(αj , ωi )来表示。这样就提出了最小风险贝叶斯判决准则。它的基本思路是归策划定一个损失值,将其作为错误决策的损失量度。

一、最小风险贝叶斯判决准则

损失函数λ(αj , ωi )

的损失。实际中λ(αj , ωi ):对真实类别为第i 类的样本采取决策αj 所带来长写作λij 。

对于给定的类ωj 的样本,正确判定时的代价函数应该是最小的,即 λ(αi , ωi ) =min λ(αj , ωi )≥0(i =1, 2,....., m ) 当样本x 的真实类别未知时,决策αj 的条件风险是对x 为所有可能的真实类别条件下将样本

R (αj |x ) =∑λ(αj , ωi )P (ωi |x )

i =1m 判为第j 类的代价求平均,即:

m ) 条件风险R (αj |x )(j =1, 2,... 在特定的特征空间中的平均值称为期

望风险,记为R ,即:R =⎰R (α(x ) |x ) p (x ) dx =∑⎰R (αj |x ) p (x ) dx

R d j =1R j m

期望风险的另一种表示方式:

R =∑λji P (αj , ωi ) =∑λji P (αj |ωi ) P (ωi ) =∑⎰R (αj |x ) p (x ) dx

j , i j , i j =1R j m

可见,期望风险反映对整个特征空间上所有x 采取相应决策所带来的平均风险。若对每一个x 都选择最小的条件风险,就能保证总体风险R 最小,因此,得到最小风险贝叶斯判决准则如下: 如果:R (αk |x ) =min R (αi |x )(i =1, 2,.... m ) 则判决x ∈ωk 损失函数根据经验和实际问题确定。若将损失函数取为: λ(αj , ωi ) =0(i =j ; i , j =1, 2,... m )

λ(αj , ωi ) =1(i ≠j ; i , j =1, 2,... m )

则称这种损失函数为0—1损失函数。此时,决策αj 的条件风险为

因此当取0—1损失函数时,最小风险贝叶斯判别准则等价于最大后验概率判别准则。这说明最大后验概率判别准则是最小风险贝叶斯判别准则的特例。

二、两类分类问题

对于两类分类问题,条件风险为: R (αj |x ) =∑λ(αj , ωi )P (ωi |x ) =∑P (ωi |x ) =1-P (ωj |x ) i =1i ≠j m

R (α1|x ) =λ(α1, ω1) P (ω1|x ) +λ(α1, ω2) P (ω2|x )

R (α2|x ) =λ(α2, ω1) P (ω1|x ) +λ(α2, ω2) P (ω2|x )

按最小风险贝叶斯准则有:

[λ(α2, ω1) -λ(α1, ω1)]P (ω1|x ) >[λ(α1, ω2) -λ(α2, ω2)]P (ω2|x ) 则x ∈ω1

[λ(α2, ω1) -λ(α1, ω1)]P (ω1|x )

[λ(α2, ω1) -λ(α1, ω1)]p (x |ω1) P (ω1) >[λ(α1, ω2) -λ(α2, ω2)]p (x |ω2) P (ω2) 则x ∈ω1

[λ(α2, ω1) -λ(α1, ω1)]p (x |ω1) P (ω1)

p (x |ω1) P (ω2) λ(α1, ω2) -λ(α2, ω1) L (x ) =>. 则x ∈ω1p (x |ω2) P (ω1) λ(α2, ω1) -λ(α1, ω2)

p (x |ω1) P (ω2) λ(α1, ω2) -λ(α2, ω1) L (x ) =

由此可见,和最大后验概率判别准则相比,形式相似,只是阀值发生了变化。

3. 概率密度函数参数估计理论

3.1 概率密度函数估计

3.1.1 概率密度函数估计概述

在第二节介绍了几种经典的统计分类决策规则,其中,均假设已知先验概率与类条件概率密度函数。但是实际很多情况,能够利用的只有有限个样本,而先验概率与类条件概率密度函数都是未知的,需要根据已有样本进行参数估计,然后将估计值当做真实值来使用。

因此,在统计分类决策中,把分类器设计过程分为两步:第一步是利用统计推断中的估计理论,根据样本集,估计p (x |ωi ) 和 P (ωi ) ,分别记为p (x |ωi ) 和P (ωi ) ;第二步是将理论估计量带入统计决策规则中,实现分类器的设计。这样的分类器设计过程称为基于样本的两步统计分类决策。

当然,基于样本的两步统计分类器性能与理论上的统计分类器不同。人们希望当样本数目N →∞时,基于样本的分类器收敛于理论上的结果。事实上,利用统计学中估计量的性质,只要可以说明,当 N →∞时,估计收敛于理论即可。

根据概率密度函数形式已知与否,概率密度函数估计分为参数估计与非参数估计。

(1)参数估计:概率密度函数的形式已知,而表征函数的参数未知,需要通过训练数据来估计。确定性参数估计方法把参数看做确定而未知的,典型方法为最大似然估计。随机参数估计方法把参数看做某种分布的随机变量,典型方法为Bayes 估计

(2)非参数估计:概率密度函数的形式未知,也不作假设,利用训

练数据直接对概率密度进行估计。常用的非参数估计方法有Parzen 窗法和kn-近邻法。

整体分类构架如下图:

3.1.2 参数估计的基本概念

1. 统计量:总体的某种信息是样本集K={x1, x2 , „, xN}的某种函数f(K)。

2. 参数空间:总体分布的未知参数θ所有可能取值组成的集合(Θ)

3. 点估计和区间估计点估计的估计量(variable)和估计值(value)

ˆθ的故计量θ=d (x 1, x 2,..., x N ) =d (K ) 是样本集的函数,他对样本值的

一次估计称为估计值。

4. 估计量的评价标准:无偏性,有效性,一致性

无偏性:E (θ) =θ

有效性:D (θ) 小,估计更有效

一致性:样本数趋于无穷时, 依概率趋于θ

3.2 最大似然估计

最大似然估计是一种常用的、有效的方法,就是求使似然函数达到最大的参数值作为估计,其中:

(1)假设参数θ是确定而未知的量。

(2)样本集可按类别分开,不同类别的密度函数的参数分别用各类的样本集来训练。

(3)概率密度函数的形式已知,参数未知,为了描述概率密度函数p(x|ωi) 与参数θ的依赖关系,用p(x|ωi, θ) 表示。

一、似然函数

设某一样本集X ={x 1, x 2,....., x N },具有概率密度p (x k |θ)(k =1, 2,...., N ) , 并且样本是独立抽取的。N 个随机样本的联合密度为:

p (x |θ) =p (x 1, x 2,....., x N |θ) =∏p (x k |θ)

k =1N

称p (x |θ) 为样本集X 的似然函数。p (x |θ) 为θ的函数,记为L (θ) ,即 L (θ) =p (x 1, x 2,....., x N |θ) =∏p (x k |θ)

k =1N

最大似然估计的基本思想是:事件X ={x 1, x 2,....., x N }在观察(从概率总体中抽取样本)中出现了,那么,可认为p (x |θ) 达到了最大值。使

ˆp (x |θ) 达到最大值的θˆ就是θ的最大似然估计,记为θML ,即

ˆ) =max L (θ) L (θML

∂L (θ) =0ˆθ∂θML 最大似然估计求的。

N →∞lim P (θˆ-θ>ε) =0

二、对数似然函数

在很多情况下,特别是对于指数密度函数,使用似然函数的对数要比似然函数本身更加方便、简洁。对数函数是单调递增的,因此,使对数似然函数最大的θ值也必然使似然函数达到最大值。

H (θ) =InL (θ) =∑Inp (x k |θ)

k =1N

ˆ求上式对θ的偏导等于零时的解,同样可得θML ,即

N ∂∂H (θ) =∑Inp (x k |θ) =0∂θk =1∂θ

若θ有p 个分量,即θ=[θ1, θ2,.... θp ]T

,则θˆ=[θˆ1, ML , θˆ2, ML ,..., θˆp , ML ]T

。由下

面p 个联立方程确定:

N ∂∂H (θ) =∑Inp (x k , θ) =0(i =1, 2,.... p ) ∂θi k =1∂θi

最大似然估计示意图:

三、一维正态分布的最大似然估计

设Xi =(x1,x2,„,xN) 为N 个一维样本,是从一维正态分布概率密度函数p(x|θi) 总体中独立抽取的θi =(θ1, θ2)T ,θ1=μ,θ2=σ2则: θi 最大似然估计量 为下述方程的解:

由上述方程组解得θ1=μ,θ2=σ2的最大似然估计量:

结论:正态总体均值的最大似然估计即为训练样本的算术平均; 协方差的最大似然估计是N 个矩阵的算术平均。

四、多维正态分布的最大似然估计

设Xi =(x1,x2,„,xN)T ,为N 个d 维样本,是从d 维正态分布概率密度函数p(x|θi) 总体中独立抽取的,θi =(θ1, θ2)T ,θ1=μ,θ

2=Σ则:

θi最大似然估计量θˆ为下述方程的解:

由上述方程组解得θ1=μ,θ2=Σ的最大似然估计量:

结论:正态总体均值的最大似然估计即为训练样本的算术平均; 协方差的最大似然估计是N 个矩阵的算术平均。

3.3 贝叶斯估计//还得添加 贝叶斯估计是把带估计的参数作为某种分布形式的随机变量,通过对第i 类学习样本的观察,使概率密度分布装换为后验概率,获得参数分布的概率密度函数,再通过求取其数学期望获得参数估计值。

贝叶斯估计的具体步骤为:

(1)确定θ的先验分布P (θ) ,待估参数为随机变量。

i T x =(x , x ,... x ) 12N (2)用第i 类样本求出样本的联合分布概率密度

P (x i |θ) ,它是θ的函数。

(3)利用贝叶斯公式求出 的后验概率

(4)求参数估计值。

5. 贝叶斯分类器设计

4.1 原理分析

贝叶斯分类器是基于贝叶斯网络所构建的分类器,贝叶斯网络是描述数据变量之间关系的图形模型,是一个带有概率注释的有向无环图。

贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。

(1) 贝叶斯分类并不把一个对象绝对地指派给某一类, 而是通过计算得出属于某一类的概率, 具有最大概率的类便是该对象所属的类;

(2) 一般情况下在贝叶斯分类中所有的属性都潜在地起作用, 即并不是一个或几个属性决定分类, 而是所有的属性都参与分类;

(3) 贝叶斯分类对象的属性可以是离散的、连续的, 也可以是混合的。

4.2 分类器设计过程概述

一、分类器设计的条件:

贝叶斯分类的先决条件:决策分类的类别数是一定的,设有c 个模式类ωi(i=1,2,…,c ); 各类别总体的概率分布已知,待识别模式的特征向量x 的状态后验概率P(ωi|x)是已知的;或各类出现的先验概率P(ωi) 和类条件概率密度函数p(x|ωi) 已知。

二、分类器设计的一般步骤

1. 确定要分类的样本

确定要分类的数据集,大概估计数据集内的样本类型,即分为几类,然后根据实际情况确定样本的特征。实际情况通常是利用软件随机产生几类样本的,而样本的概率密度是可以得到的,其实就是根据样本的概率密度函数得到随机样本。

2. 准备分类器设计的参数

在贝叶斯分类器的设计时需要知道先验概率P (ωi ) 以及类条件概率密度函数P (X |ωi ) i =1, , c 。故要根据已知条件计算出这些参数。本次设计是在已知类条件概率密度函数的情况下进行分类器设计的。

3. 利用最大似然估计估计类条件概率密度。

根据实际的样本的概率密度函数计算先验概率,并利用最大似然估计估计类条件概率密度。实际的计算过程在最大似然估计原理部分已经细讲了。

4. 根据实际条件选择分类器设计准则

常用的贝叶斯分类器设计准则有三种:最大后验概率判决准则(最

小错误概率判决准则)、最小风险贝叶斯判决准则、最小最大风险判决准则„这里仅利用最大后验概率判决准则和最小风险贝叶斯判决准则设计分类器。

4.3 分类器的最大似然估计

4.3.1 最大似然估计函数的参数估计原理

考虑一维正态分布的参数估计。设样本(一维)x 1, x 2,..... x N 都是由独立的抽样试验采集的,且密度函数服从正态分布,其均值与方差都未知,求均值与方差的最大似然估计。

2ˆT

θ=μ, θ=σ, θ=(θ, θ) 212,则x k 的密度函数为: 设1

2

⎡⎤(x -μ) 1k ˆp (x k |θ) =exp ⎢-⎥2

2σ⎦2πσ⎣

样本的似然函数为

2N ⎡⎤(x -μ) k ˆ) =L (θ) =∏p (x k |θexp -⎢∑⎥N 2

2σk =1k =1N ⎣⎦(2π) 2σ

N

1

⎡N (x k -μ) 2⎤

=exp ⎢-∑⎥N

N 2θk =12⎣⎦(2π) 2θ21

对数似然函数为:

1

H (θ) =InL (θ) =-

2θ2

∑(x k -θ1) 2-

k =1

N

N N In 2π-In θ222

因此

∂1

H (θ) =∂θ1θ2

∑(x

k =1

N

k

-θ1)

∂1N N 2H (θ) =2∑(x k -θ1) -∂θ22θ22θ2k =1

联立方程有:

∂1H (θ) =∂θ1θ2

∑(x

k =1

N

k

-θ1)

=0

∂1N N 2

H (θ) =(x -θ) -=0∑k 12∂θ22θ22θ2k =1

可得均值与方差的最大似然估计分别为:

ˆML μˆσ

2

1=N

∑x

i =1N i =1

N

i

=ML

1=N

2

(x -) ∑i

上述的结果也可以推广到多元正态分布。设样本(d 维)x 1, x 2,..... x N 服从d 元正态分布,其均值向量μ与协方差矩阵∑未知,则x k 的密度函数为:

p (x k |θˆ) =

1(2π) d ∑

⎡1⎤T -1

exp -(x -μ) ∑(x -μ) k 1⎢2k ⎥⎣⎦2

通过推到,均值向量与协方差矩阵的最大似然估计分别为:

ˆML μ

1

=N

∑x

i =1N i =1

N

i

=i

1ˆ∑=ML

N

∑(x

ˆML )(x i -μˆML ) T -μ

4.3.2 利用最大似然估计估计类条件概率函数

一、确定要分类的样本

这里用mvnrnd()函数随机产生两类样本 (1) 求出两类样本的均值

μ=

1N i

X ∈

X ∑ω

i

i =1,2

(2) 求每一类样本的协方差矩阵

1N i w i i

s =(x lj -μw ∑j )(x lk -μk )

N i -1l =1

i jk

j , k =1,2

式中,l 代表样本在类中的序号,其中

x lj

代表w i 类的第l 个样本,第j 个特征值;

i

μw j

代表w i 类的N i 个样品第j 个特征的平均值

x lk 代表w i 类的第l 个样品,第k 个特征值;

μk w 代表w i 类的N i 个样品第k 个特征的平均值。

i

w i 类的协方差矩阵为

i i

⎛∑11⎫∑12

∑= i

i ⎪

⎝∑21∑22⎭i

-1∑i (3) 计算出每一类的协方差矩阵的逆矩阵以及协方差矩阵的

行列式∑i

(4)两类的先验概率相同(P (ω1) =P (ω2) ),两类的类条件概率密度函数服从二维正态分布,即

P (x |ω1) ~N (μ1, Σ1) P (x |ω2) ~N (μ2, Σ2)

其中,μ1=[3,6]T ,Σ1=⎢

⎡0.50⎤⎡20⎤T

,,Σ=μ=[3,-2]11⎥⎢02⎥。 02⎣⎦⎣⎦

所以可以得到样本的均值向量和协方差矩阵

μML

1=N

∑x

i =1

N

i

∧∧

1N T =(x -)(x -) i μML i μML ∑N ∑i =1

二、用最大似然估计估计类条件概率密度函数

4.3.3 代码实现与结果

一、样本的产生

二、两类样本

三、最大似然估计估计类条件概率密度函数

四、最大似然估计

五、类条件概率密度三维图:

4.4 贝叶斯分类器的设计

4.4.1 最小错误概率贝叶斯分类器设计

一、两类分类的最小错误率概率分类决策规则

设N 个样本分为两类。每个样本抽出n 个特征, x =(x1,xn )

若P (ω1x ) >P (ω2x ), 则x ∈ω1

⎩若P (ω1x )

其中,

P (ωi |x ) 为状态后验概率。由Bayes 公式:

2

P (ωi x ) =p (x i ) P (ωi )

∑p (x j

) P (ωj

)

j =1

x2, x3,…,

两类分类的贝叶斯决策函数 ) (1) g (x ) =P (ω1x ) -P (ω2x ), (后验概率

(2) g (x ) =p (1) P (ω1) -p (x 2) P (ω2), (类条件概率密度) p (x 1) P (ω2)

(3) g (x ) =-, (似然比形式) p (x 2) P (ω1) p (x 1) P (ω2) (4) g (x ) =ln -ln , (取对数方法)

p (x 2) P (ω1)

二、最小错误概率贝叶斯分类器设计代码

三、结果

4.4.2 最小风险贝叶斯分类器设计

一、最小风险贝叶斯分类器设计原理

1. 在已知P (ωi ) ,P (X |ωi ) ,i =1, , c 及给出待识别的X 的情况下,根据贝叶斯公式计算出后验概率:

P (X |ωi ) =

P (X |ωi ) P (ωi )

∑P (X |ω) P (ω)

j

j

j =1

j =1, , c

2. 利用计算出的后验概率及决策表,按下式计算出采取αi 决策的条件风险:

R (αi |X ) =∑λ(αi , ωj ) P (ωj |X )

j =1c

i =1, , a

3. 对2中得到的a 个条件风险值R (αi |X ) (i =1, , a )进行比较,找出使条件风险最小的决策αk ,即:

R (αk |X ) =m i R n (αk |X )

i =1, , c

则αk 就是最小风险贝叶斯决策。 二、程序代码

4.4.3 多项式分类器 (Polynomial Classifiers)

基于参数估计的最优分类器设计

一、目录

1. 分类器概述

1.1模式识别系统和模式识别方法

1.1.1模式识别的基本概念

1.1.2 模式识别系统

1.1.3 模式识别的基本方法

1.2分类器的原理概述

1.2.1 分类器的定义

1.2.2 分类器的描述方法

1.3分类器的分类方法

1.3.1决策树

1.3.2贝叶斯

2. 贝叶斯决策理论

2.1最大后验概率判决准则

2.2最小风险贝叶斯判决准则

3. 概率密度函数参数估计理论

3.1 概率密度函数估计

3.1.1 概率密度函数估计概述

3.1.2 参数估计的基本概念

3.2 最大似然估计

3.3 贝叶斯估计

4. 贝叶斯分类器设计

4.1 原理分析

4.2 分类器设计过程概述

4.3 分类器的最大似然估计

4.3.1 最大似然估计函数原理

4.3.2 最大似然估计估计类条件概率密度函数

4.3.3 代码实现与结果

4.4 贝叶斯分类器的设计

4.4.1 最小错误概率贝叶斯分类器设计

4.4.2 最小风险贝叶斯分类器设计

4.4.3 多项式分类器 (Polynomial Classifiers)

二、论文正文

1. 分类器概述

1.1模式识别系统和模式识别方法

1.1.1模式识别的基本概念

模式识别(Pattern Recognition)-----用计算机实现人对各种事物或现象的分析, 描述, 判断, 识别。具体来说就是利用计算机对某些物理对象进行分类,在错误概率最小的条件下, 使识别的结果尽量与客观事物相符。

模式识别是一种智能活动,包含分析与判断两个过程。分析的过程在于确定用于划分模式类的特征及其表达方法;判断的过程则体现在依据待识别对象的特征,将其判属于某一个模式类。

1.1.2 模式识别系统

一、模式识别系统简介

模式识别的本质就是根据模式的特性表达和模式类的划分方法,利用计算机将模式判属特定的类。因此,模式识别需要解决5个问题:模式的数字化表达、模式特性的选择、特性表达方法的确定、模式类的表达和判决方法的确定。

一般由数据获取,预处理,特征提取选择、分类决策及分类器设计五部分组成。分类器设计在训练过程中完成,利用样本进行训练,确定分类器的具体参数。而分类决策在识别过程中起作用,对待识别的样本进行分类决策。如图:

1. 信息获取

对于机器识别来说,由于计算机只能处理数字信号,计算机获取模式信息意味着实现观察对象的数字化表达.

观察对象——>传感器——>A/D转换器——>数字化表达

2. 预处理

在得模式的数学表达后,往往需要对它进行预处理,以便去除或减少噪声的影响,突出有用信息。

3. 特征提取和选择

特征提取是指采用映射(或变换)实现由模式测量空间向特征空间的转变,或者将特征空间的维数从高维变成低维。

4. 分类判决

模式类是指具有相似特征的模式的集合,模式和模式类的关系就是元素和集合的关系。模式的分类过程,事实上就是判定表征观察对象的元素和指定的从属关系的过程。

1.1.3 模式识别的基本方法

模式识别的本质在于实现元素(表征观察对象)和集合(表征模式类)的从属关系的判定过程。

一、统计模式识别

统计模式识别(statistic pattern recognition ) 的基本原理是:有相似性的样本在模式空间中互相接近,并形成“集团”,即“物以类聚”。 其分析方法是根据模式所测得的特征向量。

统计模式识别系统主要由信息获取、预处理、特征提取和选择以及分类器4个部分组成,其中分类器包括分类器设计和分类决策。

二、结构模式识别

其基本思想是把一个模式描述为较简单的子模式的组合,子模式又可描述为更简单的子模式的组合,最终得到一个树形的结构描述,在底层的最简单的子模式称为模式基元。在句法方法中选取基元的问题相当于在决策理论方法中选取特征的问题。通常要求所选的基元能对模式提供一个紧凑的反映其结构关系的描述,又要易于用非句法方法加以抽取。

三、神经网络模式识别

神经网络是受人脑组织的生理学启发而创立的。由一系列互相联系的、相同的单元(神经元)组成。相互间的联系可以在不同的神经元之间传递增强或抑制信号。增强或抑制是通过调整神经元相互间联系的权重系数来(weight )实现。

神经网络可以实现监督和非监督学习条件下的分类。

四、模糊模式识别

模糊集合论采用隶属度来描述元素属于一个集合的程度,用来解决信息的不确定性问题。模糊模式识别是以模糊论为基础,对应的判决结果转化为软判决,识别结果是观察对象属于每一类的隶属度。

1.2分类器的原理概述

1.2.1 分类器的定义

分类器(classifier )是使待分对象被划归某一类而使用的分类装置或数学模型。分类器是一种计算机程序。

1.2.2 分类器的描述方法

模式分类器的描述方法很多,这里仅介绍三种,他们之间是统一的。

一、映射描述法

因为我们获取的观察对象总是有限的,因此,可以用d+1维向量

x 1, x 2,...... x d ; ∂)((x , x ,...... x )为特征向量,是 表来表示:其中:12d

R d 中的一个点,α取值于集合{1,2,„,m},表示模式的真实标号,是未知的量。模式的分类的实质在于实现特征空间R d 到类别号空间{1,2,„,m}的一个映射,即R d →{1, 2,...., m }。给定一个映射f ,就给出了一种模式识别方法,不同的映射对应不同的分类方法,这就是模式识别的映射描述法。

二、划分描述法

由于每一个特征向量是R d 空间的一个点,且R d →{1, 2,...., m } 是一个多对一的映射,通过映射,本质上实现了对R d 空间的划分,

即把R d 划分为m 个不从跌的区域,每一个区域对应一个类别。设R i 对应第i 类的ωi 。

三、判别函数法

把分类问题对应为R d 空间上的多元函数,通常称为判别函数(或判决函数)g i (x ), i =1, 2,....., m 。 对于任给某类未知类别的样本计算各类判别函数的值g i (x ), i =1, 2,....., m ,将样本判属有极大极小x ,函数值哪一类,到底取极大还是极小值,需要根据具体问题的物理意义确定。不同的判别函数对应不同的模式分类方法。

模式分类实际上是将特征空间划分为不同的决策区域,相邻决策区域被决策面所分割,这些决策面是特征空间的超曲面,其决策面方程满足相邻两个决策判别函数相等。

1.3分类器的分类方法

主要分类方法介绍解决分类问题的方法很多[40-42] ,单一的分类方法主要包括:决策树、贝叶斯、人工神经网络、K-近邻、支持向量机和基于关联规则的分类等;另外还有用于组合单一分类方法的集成学习算法,如Bagging 和Boosting 等。

1.3.1决策树

决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别。

1.3.2贝叶斯

贝叶斯(Bayes )分类算法是一类利用概率统计知识进行分类的算法,如朴素贝叶斯(Naive Bayes)算法。这些算法主要利用Bayes 定理来预测一个未知类别的样本属于各个类别的可能性,选择其中可能性最大的一个类别作为该样本的最终类别。由于贝叶斯定理的成立本身需要一个很强的条件独立性假设前提,而此假设在实际情况中经常是不成立的,因而其分类准确性就会下降。为此就出现了许多降低独立性假设的贝叶斯分类算法,如TAN (Tree Augmented Na?ve Bayes)算法,它是在贝叶斯网络结构的基础上增加属性对之间的关联来实现的。

2. 贝叶斯决策理论

统计决策理论是处理模式分类问题的基本理论之一,也是基于参数估计的最优化分类器设计主要应用的理论。这里将详细讨论分类器设计用到的三大理论:最大后验概率判决准则、最小风险贝叶斯判决准则、最小最大风险判决准则。

基本假设:

ωm 组成,给定模式空间S ,有m 个互不相交的模式集合ω1, ω2,.....

即S =ω1 ω2 ..... ωm ωi ωj =ϑ(i ≠j ; i , j =1, 2,...., m )。几个基本假设如下:

(1)假设类ωj 的先验概率为P (ωj );

(2)样本x 由特征向量来表示,同样记为x ,假设为d 维,即 x =(x 1, x 2,...., x d ) ;

(3)特征向量x 的取值范围构成特征空间,记为R d ;

(4)特征向量x 的类条件概率密度函数为p (x |ωi ) , 表示当样本

x ∈ωi 时,特征向量x 的概率密度函数;

(5)特征向量x 的后验概率为P (ωi |x ) , 表示在特征向量x 出现的条件下,样本x 来自ωj 的概率,即ωj 出现的概率。

模式识别就是根据特征向量x 的取值,依据某个判决准则把样本

ωm 中的一个 x 划分到ω1, ω2,.....

2.1最大后验概率判决准则

最大后验概率判决准则的思想是, 把样本归入后验概率最大的类别中去。最大后验概率判别准则会使平均错误概率达到最小。一、两类分类的最小错误率概率分类决策规则:

设N 个样本分为两类。每个样本抽出n 个特征, x =(x1, x2, x3,…, xn )

⎧若P (ωx ) >P (ωx ), 则x ∈ω121

⎨⎩若P (ω1x )

P (ωi |x ) 为状态后验概率。由Bayes 公式: 其中,

P (ωi x ) =p (x i ) P (ωi ) ∑p (x ) P (ω) j j

j =12

两类分类的贝叶斯决策函数

(1) g (x ) =P (ω1x ) -P (ω2x ), (后验概率)

(2) g (x ) =p (x 1) P (ω1) -p (x 2) P (ω2), (类条件概率密度) p (x 1) P (ω2) (3) g (x ) =-, (似然比形式) p (x 2) P (ω1)

p (x 1) P (ω2) (4) g (x ) =ln -ln , (取对数方法) p (x 2) P (ω1)

二、最大后验概率判决准则:

假设已知P (ωj )和p (x |ωi ) ,最大后验概率判决准则就是把样本x 归入后验概率最大的类别中去,即就是,若:

p (x |ωi ) P (ωi ) P (ω|x ) =P (ωi |x ) =max P (ωi |x ) i ∈(1, 2,... m ) 则:i p (x )

这里类似的几种最大后验概率判决准则:

(1) 若p (x |ωi ) P (ωi ) =max p (x |ωi ) P (ωi ) i =(1, 2,...., m ), 则x ∈ωi

p (x |ωi ) P (ωj ) (2) 若L (x ) =>(i =1, 2,....., m ; i ≠j ), 则x ∈ωi p (x |ωj ) P (ωi )

P (ωi ) (3) 若InL (x ) =Inp (x |ωj ) -Inp (x |ωi ) >In (i =1, 2,.... m ; i ≠j ), 则x ∈ωj . P (ωj )

其中,L (x ) 称为似然比,InL (x ) 称为对数似然比。

在最大后验概率判决准则中,x ∈ωi 的决策区域R j 为

p (x |ωi ) P (ωj ) R j ={x |>, i =1, 2,...., m ; i ≠j }(j =1, 2,.... m ) p (x |ωj ) P (ωi ) 最大后验概率判决准则使平均错误概率达到最小。因此,最大后验概率判决准则又称为最小错误概率判决准则。

2.2最小风险贝叶斯判决准则

考虑到由于客观事物的复杂性,分类器作出各种判决时的风险是不一样的。因此,在分类器中引入了风险的概念, 即就是错误分类造成的损失。在实际应用中根据具体情况决定各种风险的大小,通常用一组系数λ(αj , ωi )来表示。这样就提出了最小风险贝叶斯判决准则。它的基本思路是归策划定一个损失值,将其作为错误决策的损失量度。

一、最小风险贝叶斯判决准则

损失函数λ(αj , ωi )

的损失。实际中λ(αj , ωi ):对真实类别为第i 类的样本采取决策αj 所带来长写作λij 。

对于给定的类ωj 的样本,正确判定时的代价函数应该是最小的,即 λ(αi , ωi ) =min λ(αj , ωi )≥0(i =1, 2,....., m ) 当样本x 的真实类别未知时,决策αj 的条件风险是对x 为所有可能的真实类别条件下将样本

R (αj |x ) =∑λ(αj , ωi )P (ωi |x )

i =1m 判为第j 类的代价求平均,即:

m ) 条件风险R (αj |x )(j =1, 2,... 在特定的特征空间中的平均值称为期

望风险,记为R ,即:R =⎰R (α(x ) |x ) p (x ) dx =∑⎰R (αj |x ) p (x ) dx

R d j =1R j m

期望风险的另一种表示方式:

R =∑λji P (αj , ωi ) =∑λji P (αj |ωi ) P (ωi ) =∑⎰R (αj |x ) p (x ) dx

j , i j , i j =1R j m

可见,期望风险反映对整个特征空间上所有x 采取相应决策所带来的平均风险。若对每一个x 都选择最小的条件风险,就能保证总体风险R 最小,因此,得到最小风险贝叶斯判决准则如下: 如果:R (αk |x ) =min R (αi |x )(i =1, 2,.... m ) 则判决x ∈ωk 损失函数根据经验和实际问题确定。若将损失函数取为: λ(αj , ωi ) =0(i =j ; i , j =1, 2,... m )

λ(αj , ωi ) =1(i ≠j ; i , j =1, 2,... m )

则称这种损失函数为0—1损失函数。此时,决策αj 的条件风险为

因此当取0—1损失函数时,最小风险贝叶斯判别准则等价于最大后验概率判别准则。这说明最大后验概率判别准则是最小风险贝叶斯判别准则的特例。

二、两类分类问题

对于两类分类问题,条件风险为: R (αj |x ) =∑λ(αj , ωi )P (ωi |x ) =∑P (ωi |x ) =1-P (ωj |x ) i =1i ≠j m

R (α1|x ) =λ(α1, ω1) P (ω1|x ) +λ(α1, ω2) P (ω2|x )

R (α2|x ) =λ(α2, ω1) P (ω1|x ) +λ(α2, ω2) P (ω2|x )

按最小风险贝叶斯准则有:

[λ(α2, ω1) -λ(α1, ω1)]P (ω1|x ) >[λ(α1, ω2) -λ(α2, ω2)]P (ω2|x ) 则x ∈ω1

[λ(α2, ω1) -λ(α1, ω1)]P (ω1|x )

[λ(α2, ω1) -λ(α1, ω1)]p (x |ω1) P (ω1) >[λ(α1, ω2) -λ(α2, ω2)]p (x |ω2) P (ω2) 则x ∈ω1

[λ(α2, ω1) -λ(α1, ω1)]p (x |ω1) P (ω1)

p (x |ω1) P (ω2) λ(α1, ω2) -λ(α2, ω1) L (x ) =>. 则x ∈ω1p (x |ω2) P (ω1) λ(α2, ω1) -λ(α1, ω2)

p (x |ω1) P (ω2) λ(α1, ω2) -λ(α2, ω1) L (x ) =

由此可见,和最大后验概率判别准则相比,形式相似,只是阀值发生了变化。

3. 概率密度函数参数估计理论

3.1 概率密度函数估计

3.1.1 概率密度函数估计概述

在第二节介绍了几种经典的统计分类决策规则,其中,均假设已知先验概率与类条件概率密度函数。但是实际很多情况,能够利用的只有有限个样本,而先验概率与类条件概率密度函数都是未知的,需要根据已有样本进行参数估计,然后将估计值当做真实值来使用。

因此,在统计分类决策中,把分类器设计过程分为两步:第一步是利用统计推断中的估计理论,根据样本集,估计p (x |ωi ) 和 P (ωi ) ,分别记为p (x |ωi ) 和P (ωi ) ;第二步是将理论估计量带入统计决策规则中,实现分类器的设计。这样的分类器设计过程称为基于样本的两步统计分类决策。

当然,基于样本的两步统计分类器性能与理论上的统计分类器不同。人们希望当样本数目N →∞时,基于样本的分类器收敛于理论上的结果。事实上,利用统计学中估计量的性质,只要可以说明,当 N →∞时,估计收敛于理论即可。

根据概率密度函数形式已知与否,概率密度函数估计分为参数估计与非参数估计。

(1)参数估计:概率密度函数的形式已知,而表征函数的参数未知,需要通过训练数据来估计。确定性参数估计方法把参数看做确定而未知的,典型方法为最大似然估计。随机参数估计方法把参数看做某种分布的随机变量,典型方法为Bayes 估计

(2)非参数估计:概率密度函数的形式未知,也不作假设,利用训

练数据直接对概率密度进行估计。常用的非参数估计方法有Parzen 窗法和kn-近邻法。

整体分类构架如下图:

3.1.2 参数估计的基本概念

1. 统计量:总体的某种信息是样本集K={x1, x2 , „, xN}的某种函数f(K)。

2. 参数空间:总体分布的未知参数θ所有可能取值组成的集合(Θ)

3. 点估计和区间估计点估计的估计量(variable)和估计值(value)

ˆθ的故计量θ=d (x 1, x 2,..., x N ) =d (K ) 是样本集的函数,他对样本值的

一次估计称为估计值。

4. 估计量的评价标准:无偏性,有效性,一致性

无偏性:E (θ) =θ

有效性:D (θ) 小,估计更有效

一致性:样本数趋于无穷时, 依概率趋于θ

3.2 最大似然估计

最大似然估计是一种常用的、有效的方法,就是求使似然函数达到最大的参数值作为估计,其中:

(1)假设参数θ是确定而未知的量。

(2)样本集可按类别分开,不同类别的密度函数的参数分别用各类的样本集来训练。

(3)概率密度函数的形式已知,参数未知,为了描述概率密度函数p(x|ωi) 与参数θ的依赖关系,用p(x|ωi, θ) 表示。

一、似然函数

设某一样本集X ={x 1, x 2,....., x N },具有概率密度p (x k |θ)(k =1, 2,...., N ) , 并且样本是独立抽取的。N 个随机样本的联合密度为:

p (x |θ) =p (x 1, x 2,....., x N |θ) =∏p (x k |θ)

k =1N

称p (x |θ) 为样本集X 的似然函数。p (x |θ) 为θ的函数,记为L (θ) ,即 L (θ) =p (x 1, x 2,....., x N |θ) =∏p (x k |θ)

k =1N

最大似然估计的基本思想是:事件X ={x 1, x 2,....., x N }在观察(从概率总体中抽取样本)中出现了,那么,可认为p (x |θ) 达到了最大值。使

ˆp (x |θ) 达到最大值的θˆ就是θ的最大似然估计,记为θML ,即

ˆ) =max L (θ) L (θML

∂L (θ) =0ˆθ∂θML 最大似然估计求的。

N →∞lim P (θˆ-θ>ε) =0

二、对数似然函数

在很多情况下,特别是对于指数密度函数,使用似然函数的对数要比似然函数本身更加方便、简洁。对数函数是单调递增的,因此,使对数似然函数最大的θ值也必然使似然函数达到最大值。

H (θ) =InL (θ) =∑Inp (x k |θ)

k =1N

ˆ求上式对θ的偏导等于零时的解,同样可得θML ,即

N ∂∂H (θ) =∑Inp (x k |θ) =0∂θk =1∂θ

若θ有p 个分量,即θ=[θ1, θ2,.... θp ]T

,则θˆ=[θˆ1, ML , θˆ2, ML ,..., θˆp , ML ]T

。由下

面p 个联立方程确定:

N ∂∂H (θ) =∑Inp (x k , θ) =0(i =1, 2,.... p ) ∂θi k =1∂θi

最大似然估计示意图:

三、一维正态分布的最大似然估计

设Xi =(x1,x2,„,xN) 为N 个一维样本,是从一维正态分布概率密度函数p(x|θi) 总体中独立抽取的θi =(θ1, θ2)T ,θ1=μ,θ2=σ2则: θi 最大似然估计量 为下述方程的解:

由上述方程组解得θ1=μ,θ2=σ2的最大似然估计量:

结论:正态总体均值的最大似然估计即为训练样本的算术平均; 协方差的最大似然估计是N 个矩阵的算术平均。

四、多维正态分布的最大似然估计

设Xi =(x1,x2,„,xN)T ,为N 个d 维样本,是从d 维正态分布概率密度函数p(x|θi) 总体中独立抽取的,θi =(θ1, θ2)T ,θ1=μ,θ

2=Σ则:

θi最大似然估计量θˆ为下述方程的解:

由上述方程组解得θ1=μ,θ2=Σ的最大似然估计量:

结论:正态总体均值的最大似然估计即为训练样本的算术平均; 协方差的最大似然估计是N 个矩阵的算术平均。

3.3 贝叶斯估计//还得添加 贝叶斯估计是把带估计的参数作为某种分布形式的随机变量,通过对第i 类学习样本的观察,使概率密度分布装换为后验概率,获得参数分布的概率密度函数,再通过求取其数学期望获得参数估计值。

贝叶斯估计的具体步骤为:

(1)确定θ的先验分布P (θ) ,待估参数为随机变量。

i T x =(x , x ,... x ) 12N (2)用第i 类样本求出样本的联合分布概率密度

P (x i |θ) ,它是θ的函数。

(3)利用贝叶斯公式求出 的后验概率

(4)求参数估计值。

5. 贝叶斯分类器设计

4.1 原理分析

贝叶斯分类器是基于贝叶斯网络所构建的分类器,贝叶斯网络是描述数据变量之间关系的图形模型,是一个带有概率注释的有向无环图。

贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。

(1) 贝叶斯分类并不把一个对象绝对地指派给某一类, 而是通过计算得出属于某一类的概率, 具有最大概率的类便是该对象所属的类;

(2) 一般情况下在贝叶斯分类中所有的属性都潜在地起作用, 即并不是一个或几个属性决定分类, 而是所有的属性都参与分类;

(3) 贝叶斯分类对象的属性可以是离散的、连续的, 也可以是混合的。

4.2 分类器设计过程概述

一、分类器设计的条件:

贝叶斯分类的先决条件:决策分类的类别数是一定的,设有c 个模式类ωi(i=1,2,…,c ); 各类别总体的概率分布已知,待识别模式的特征向量x 的状态后验概率P(ωi|x)是已知的;或各类出现的先验概率P(ωi) 和类条件概率密度函数p(x|ωi) 已知。

二、分类器设计的一般步骤

1. 确定要分类的样本

确定要分类的数据集,大概估计数据集内的样本类型,即分为几类,然后根据实际情况确定样本的特征。实际情况通常是利用软件随机产生几类样本的,而样本的概率密度是可以得到的,其实就是根据样本的概率密度函数得到随机样本。

2. 准备分类器设计的参数

在贝叶斯分类器的设计时需要知道先验概率P (ωi ) 以及类条件概率密度函数P (X |ωi ) i =1, , c 。故要根据已知条件计算出这些参数。本次设计是在已知类条件概率密度函数的情况下进行分类器设计的。

3. 利用最大似然估计估计类条件概率密度。

根据实际的样本的概率密度函数计算先验概率,并利用最大似然估计估计类条件概率密度。实际的计算过程在最大似然估计原理部分已经细讲了。

4. 根据实际条件选择分类器设计准则

常用的贝叶斯分类器设计准则有三种:最大后验概率判决准则(最

小错误概率判决准则)、最小风险贝叶斯判决准则、最小最大风险判决准则„这里仅利用最大后验概率判决准则和最小风险贝叶斯判决准则设计分类器。

4.3 分类器的最大似然估计

4.3.1 最大似然估计函数的参数估计原理

考虑一维正态分布的参数估计。设样本(一维)x 1, x 2,..... x N 都是由独立的抽样试验采集的,且密度函数服从正态分布,其均值与方差都未知,求均值与方差的最大似然估计。

2ˆT

θ=μ, θ=σ, θ=(θ, θ) 212,则x k 的密度函数为: 设1

2

⎡⎤(x -μ) 1k ˆp (x k |θ) =exp ⎢-⎥2

2σ⎦2πσ⎣

样本的似然函数为

2N ⎡⎤(x -μ) k ˆ) =L (θ) =∏p (x k |θexp -⎢∑⎥N 2

2σk =1k =1N ⎣⎦(2π) 2σ

N

1

⎡N (x k -μ) 2⎤

=exp ⎢-∑⎥N

N 2θk =12⎣⎦(2π) 2θ21

对数似然函数为:

1

H (θ) =InL (θ) =-

2θ2

∑(x k -θ1) 2-

k =1

N

N N In 2π-In θ222

因此

∂1

H (θ) =∂θ1θ2

∑(x

k =1

N

k

-θ1)

∂1N N 2H (θ) =2∑(x k -θ1) -∂θ22θ22θ2k =1

联立方程有:

∂1H (θ) =∂θ1θ2

∑(x

k =1

N

k

-θ1)

=0

∂1N N 2

H (θ) =(x -θ) -=0∑k 12∂θ22θ22θ2k =1

可得均值与方差的最大似然估计分别为:

ˆML μˆσ

2

1=N

∑x

i =1N i =1

N

i

=ML

1=N

2

(x -) ∑i

上述的结果也可以推广到多元正态分布。设样本(d 维)x 1, x 2,..... x N 服从d 元正态分布,其均值向量μ与协方差矩阵∑未知,则x k 的密度函数为:

p (x k |θˆ) =

1(2π) d ∑

⎡1⎤T -1

exp -(x -μ) ∑(x -μ) k 1⎢2k ⎥⎣⎦2

通过推到,均值向量与协方差矩阵的最大似然估计分别为:

ˆML μ

1

=N

∑x

i =1N i =1

N

i

=i

1ˆ∑=ML

N

∑(x

ˆML )(x i -μˆML ) T -μ

4.3.2 利用最大似然估计估计类条件概率函数

一、确定要分类的样本

这里用mvnrnd()函数随机产生两类样本 (1) 求出两类样本的均值

μ=

1N i

X ∈

X ∑ω

i

i =1,2

(2) 求每一类样本的协方差矩阵

1N i w i i

s =(x lj -μw ∑j )(x lk -μk )

N i -1l =1

i jk

j , k =1,2

式中,l 代表样本在类中的序号,其中

x lj

代表w i 类的第l 个样本,第j 个特征值;

i

μw j

代表w i 类的N i 个样品第j 个特征的平均值

x lk 代表w i 类的第l 个样品,第k 个特征值;

μk w 代表w i 类的N i 个样品第k 个特征的平均值。

i

w i 类的协方差矩阵为

i i

⎛∑11⎫∑12

∑= i

i ⎪

⎝∑21∑22⎭i

-1∑i (3) 计算出每一类的协方差矩阵的逆矩阵以及协方差矩阵的

行列式∑i

(4)两类的先验概率相同(P (ω1) =P (ω2) ),两类的类条件概率密度函数服从二维正态分布,即

P (x |ω1) ~N (μ1, Σ1) P (x |ω2) ~N (μ2, Σ2)

其中,μ1=[3,6]T ,Σ1=⎢

⎡0.50⎤⎡20⎤T

,,Σ=μ=[3,-2]11⎥⎢02⎥。 02⎣⎦⎣⎦

所以可以得到样本的均值向量和协方差矩阵

μML

1=N

∑x

i =1

N

i

∧∧

1N T =(x -)(x -) i μML i μML ∑N ∑i =1

二、用最大似然估计估计类条件概率密度函数

4.3.3 代码实现与结果

一、样本的产生

二、两类样本

三、最大似然估计估计类条件概率密度函数

四、最大似然估计

五、类条件概率密度三维图:

4.4 贝叶斯分类器的设计

4.4.1 最小错误概率贝叶斯分类器设计

一、两类分类的最小错误率概率分类决策规则

设N 个样本分为两类。每个样本抽出n 个特征, x =(x1,xn )

若P (ω1x ) >P (ω2x ), 则x ∈ω1

⎩若P (ω1x )

其中,

P (ωi |x ) 为状态后验概率。由Bayes 公式:

2

P (ωi x ) =p (x i ) P (ωi )

∑p (x j

) P (ωj

)

j =1

x2, x3,…,

两类分类的贝叶斯决策函数 ) (1) g (x ) =P (ω1x ) -P (ω2x ), (后验概率

(2) g (x ) =p (1) P (ω1) -p (x 2) P (ω2), (类条件概率密度) p (x 1) P (ω2)

(3) g (x ) =-, (似然比形式) p (x 2) P (ω1) p (x 1) P (ω2) (4) g (x ) =ln -ln , (取对数方法)

p (x 2) P (ω1)

二、最小错误概率贝叶斯分类器设计代码

三、结果

4.4.2 最小风险贝叶斯分类器设计

一、最小风险贝叶斯分类器设计原理

1. 在已知P (ωi ) ,P (X |ωi ) ,i =1, , c 及给出待识别的X 的情况下,根据贝叶斯公式计算出后验概率:

P (X |ωi ) =

P (X |ωi ) P (ωi )

∑P (X |ω) P (ω)

j

j

j =1

j =1, , c

2. 利用计算出的后验概率及决策表,按下式计算出采取αi 决策的条件风险:

R (αi |X ) =∑λ(αi , ωj ) P (ωj |X )

j =1c

i =1, , a

3. 对2中得到的a 个条件风险值R (αi |X ) (i =1, , a )进行比较,找出使条件风险最小的决策αk ,即:

R (αk |X ) =m i R n (αk |X )

i =1, , c

则αk 就是最小风险贝叶斯决策。 二、程序代码

4.4.3 多项式分类器 (Polynomial Classifiers)


相关内容

  • 有色金属加工工程项目分类标准与实施
  • 第38卷第6期2009年12月 有色金属加工 NONFERROUSMETALSPROCESSING VoL38No.6 December2009 有色金属加工工程项目分类标准与实施 马书志 (洛阳有色金属加工设计研究院,河南洛阳471039) 摘要:本文论述了有色金属加工工程项目分类的必要性.提出了 ...

  • 2012文化分类
  • 文化及相关产业分类(2012) 来源:国家统计局设管司 2012-07-31 09:23:53 一.目的和作用 (一)为深入贯彻落实党的十七届六中全会关于深化文化体制改革.推动社会主义文化大发展大繁荣的精神,建立科学可行的文化及相关产业统计制度,制定本分类. (二)本分类为界定我国文化及相关单位的生 ...

  • 我国设计施工总承包模式的分类研究
  • 建筑经济2008年12月增刊行业发展论坛 我国设计施工总承包模式的 分类研究 ■夏 波,陈炳泉 (香港理工大学建筑及房地产学系,香港) [摘 要] 首先考察了目前DB模式分类的依据和框架,在此基础上结合中国国情提出以业主/承包商所承担的不同设计阶段为主要依据,将DB模式分为Developandcon ...

  • 一年级[一起来分类]教学设计
  • 一年级<一起来分类>教学设计 一年级<一起来分类>教学设计及反思 教材分析: "一起来分类"是"分类"这一单元的第二课时,本单元的第一课时"整理房间"是给定标准让学生分类,而"一起来分类"是自定标 ...

  • 第三章会计科目设计
  • 第三章会计科目设计 内容提示:通过本章的学习,要求重点掌握总分类科目的设计.明细分类科目的设计.会计科目的编号和使用说明:了解会计科目设计的意义和原则. 第一节会计科目设计的意义和原则 一.设计会计科目的意义 会计科目设计是会计制度设计的一个重要环节,是确定会计对象经济内容的分类体系,为会计凭证.会 ...

  • SPSS数据分析的统计方法选择
  • 数据分析的统计方法选择小结 目 录 数据分析的统计方法选择小结 . ...................................................................................................... 1 目 录 ....... ...

  • 三角形的分类
  • 角形的分类"是小学几何知识学习,尤其是三角形知识学习的一个重要内容.切实掌握三角形的分类,有利于学生更全面理解三角形的特征,并为后续知识的学习打下扎实的基础.在"三角形的分类"这个内容的编排上,教材分了两个层次.第一层次,按角分,认识锐角三角形.直角三角形.钝角三角形: ...

  • [多种多样的植物]教学设计(设计稿)
  • <多种多样的植物>教学设计 贵州省黔南州都匀市第九完全小学:王春凤 常见菌类植物介绍 自然界的菌类植物体为单细胞或丝状体,一般不含光合作用的色素,不能自制养料.它们的营养方式是异养的,一般营寄生或腐生生物均具有细胞壁或某一阶段具有细胞壁,这是他们的共同特征.菌类植物共分三门:细菌门.粘菌 ...

  • [分类]教学设计
  • 教学设计 北师大出版社 一年级上册第四单元<分类> 第二课时<一起来分类> 一.教材分析 教材在"一起来分类"的情景活动中,一方面巩固分类的思想,同时又引出了分类标准的多样化.让学生初步体会到分类的必要性和重要性.学生从情境图中能直观感受不同的分类方法,但 ...