线性SVM 算法与最小平方误差算
法的比较
(哈尔滨工程大学 动力与能源工程学院,黑龙江 哈尔滨 150001)
摘要:在机器识别模式里,在基于贝叶斯决策理论之上有多种算法。机器识别应用领
域十分广泛,例如可以区分柴油机是否工作正常。在此,我利用两种不同的算法对两批不同的柴油机的多项热力学参数进行分析并且得到结果。两种算法均能够识别两批不同的柴油机,线性SVM 算法比最小平方误差算法更加准确的将两批柴油机进行了分类,两类算法执行时间相近,准确度前者比后者更高。在做出一系列性能比较后,可以得出线性SVM 算法比最小平方误差算法性能更加优秀。
关键词:线性SVM 算法;最小平方误差算法;贝叶斯决策定理;柴油机
Linear SVM algorithm and the least square error of
algorithms of comparison
WU Z.ying
(Colle ge of Power and Energy Engine erin g, Harbin Engin eerin g University, Harbin
150001,China )
Abstract :In the machine reco gnit ion mode, based on Bayesian decision theory in above
have many algor it hms. The machine reco gnit ion ap p licat ion field is very ext ensive, for examp le can be the difference between diesel engin e is working prop erly. In this, I used two different algorit hm of two different diesel engin e a number of thermody nami cs paramet ers and get the result analysis. The two algorithm are able to identify two group of different diesel engine, made a series of performan ce in comp arison, it can be conc luded that SVM
1
t han the least square algorit hm linear error al gorit hm is more outst anding. With information and automat ion technology of development , the Marine shipping enterp rise has accumulat ed a lot of operat ional data and dia gnosis data, Bayesian method for the calcul at ion of prior p robabilit y provided conditions. Linear SVM algorithm and the least square error algor it hm are based on Bay esian decision theory and formula and the establish ment , in this, I will be based on matlab model in g income the result that come out to the two algorit hm make the comp arison.
Ke ywords: Lin ear SVM algorit hm; The least square error of algorit hms ; Bayesian decision t heorem; Diesel engine
0 引言
柴油机经过长时间工作后, 各部件的老化、磨损和调节机构工作的误差增大及操作、调试不当等诸多因素, 均将导致发动机性能恶化, 使做功能力下降
[1]
1 贝叶斯决策
1.1 贝叶斯决策理论
贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分。 贝叶斯决策就是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策。
贝叶斯决策理论方法是统计模型决策中的一个基本方法,其基本思想是: ● 已知类条件概率密度参数表达式和
先验概率
● 利用贝叶斯公式转换成后验概率 ● 根据后验概率大小进行决策分类 设D 1,D 2,……,Dn 为样本空间S 的一个划分,如果以P(Di)表示事件Di 发生的概率,且P(Di)>0(i =1,2,…,n ) 。对于任一事件x ,P(x)>0,有贝叶斯公式
. 实践证明, 这些变化会通过油机各
个热力学性能参数的变化表现出来 .
但来自热力学参数的信息具有不确定性, 其与故障之间的直接联系较难确定 , 因此, 可以借助概率推理、模糊推理等不确定性理论进行处理分析. 朴素贝叶斯诊断法是一种建立在概率密度函数基础上的诊断方法, 相比其他诊断法, 具有相对小的诊断出错率. 随着信息化和自动化技术的不断发展, 各船舶航运企业积累了大量的运行数据和诊断数据, 为贝叶斯方法先验概率的计算提供了条件. 线性SVM 算法与最小平方误差算法都是根据贝叶斯决策理论与公式而建立的,在此,我将根据用matlab 建模所得出来的结果对这两种算法做出比较。
[2]
2
P (Di /x )=
P (Di )*P (X /Di )
n
∑
P (X /Di )*P (Di )
i =1
1.2 贝叶斯决策理论分析
对于任何给定问题,可以通过似然率测试决策规则得到最小的错误概率。这个错误概率称为贝叶斯错误率,且是所有分类器中可以得到的最好结果。最小化错误概率的决策规则就是最大化后验概率判据。贝叶斯决策理论方法是统计模式识别中的一个基本方法。贝叶斯决策判据既考虑了各类参考总体出现的概率大小,又考虑了因误判造成的损失大小,判别能力强。贝叶斯方法更适用于下列场合:
(1) 样本(子样) 的数量(容量) 不充分大,因而大子样统计理论不适宜的场合。
(2) 试验具有继承性,反映在统计学上就是要具有在试验之前已有先验信息的场合。用这种方法进行分类时要求两点:
第一,要决策分类的参考总体的类
别数是一定的。例如两类参考总体(正常状态D l 和异常状态D 2) ,或L 类参考总体D 1,D 2,…,D L (如良好、满意、可以、不满意、不允许、……)。
第二,各类参考总体的概率分布是已知的,即每一类参考总体出现的先验概率P(Di)以及各类概率密度函数P(x/Di) 是已知的。显然,0≤P(Di)≤1,(i =l,2,…,L ) ,∑P(Di)=1。
对于两类故障诊断问题,就相当于在识别前已知正常状态D 1的概率户(D 1) 和异常状态0:的概率P(D2) ,它们是由
先验知识确定的状态先验概率。如果不
做进一步的仔细观测,仅依靠先验概率去作决策,那么就应给出下列的决策规则:若P(D1) >P(D2) ,则做出状态属于D 1类的决策;反之,则做出状态属于D 2类的决策。例如,某设备在365天中,有故障是少见的,无故障是经常的,有故障的概率远小于无故障的概率。因此,若无特B ,j 明显的异常状况,就应判断为无故障。显然,这样做对某一实际的待检状态根本达不到诊断的目的,这是由于只利用先验概率提供的分类信息太少了。为此,我们还要对系统状态进行状态检测,分析所观测到的信息。
2 最小平方差算法理论简介
最小平方误差算法是最常用的一种经典模式识别和回归分析方法,其目标是使线性函数输出与期望输出的误差平方和为最小。
最小平方误差的基本思路是选择估计量使模型(包括静态或动态的,线性或非线性的)输出与实测输出之差的平方和达到最小。这种求误差平方和的方式可以避免正负误差相抵,而且便于数学处理(例如用误差的绝对值就不便于处理)。
线性最小二乘法是应用最广泛的参数估计方法,它在理论研究和工程应用中都具有重要的作用,同时它又是许多其他更复杂方法的基础。
一般可以有线性二乘算法,多项式
3
二乘算法,和曲线二乘算法。
3 线性SVM 算法理论简介
支持向量机(SVM )是20世纪90年代初由V apnik 等人提出的一类新型机器学习方法,此方法能够在训练样本很少的情况下达到很好的分类推广能力。
自动识别技术是自动控制系统的一个重要的领域。识别的准确性和识别速度直接关系到该技术是否能够得到实际应用。传统的识别方法,如模板匹配、神经网络等,在进行识别时其识别率很大程度上依赖于训练样本的数量,且在无特征提取的情况下,识别的正确率相对较低。
支持矢量机能够较好的解决小样本、非线性及高维数等模式识别问题。近年来SVM 已在脸像识别、函数逼近以及概率密度估计等众多领域得到了广泛的应用。利用该方法进行识别,在训练样本相对较少且无较多特征提取的情况下,仍可得到较高的识别率。
SVM 分类器是二分类器,因此采用多个二分类器组合的
one-against-the-others 算法,可以将多类识别问题转化为二类识别问题来解决。每个分类器只将一类对象与其余对象区分开,训练样本中该对象对应的y 值为+1,其余对象对应的y 值为-1。首先确定使用的核函数K ,将训练样本值带入优化函数式中,求出最优解及其非零值对对应的支持向量,并根据任一训练样本值求出阈值。进行识别时将输入信号送到每一个分类器,然后循环检查所
有的分类器输出。
大量的实验结果表明,在训练样本较少的情况下,该系统的识别率较高,并具有算法简单,无需先验知识,容易
控制和稳定性好等优点。
4 比较线性SVM 算法与最小平方误差算法
4.1 实验设定场景
某船舶航运企业分别对一批正常工作的柴油机和一批已经损坏的柴油机进行某两项热力学性能参数的运行数据进行采集,预计采集两项参数各100例,分别采用线性SVM 算法与最小平方误差法对收集的数据进行处理并且建立模
型,以判断是否有柴油机损坏,并对两
种算法进行分析。
4.2 实验后所得到的模型图形
图1 线性SVM 算法建模所得图形
4
图2 最小平方误差算法建模所得图形
4.3 对实验结果的分析
由于两种算法的核函数不同,线性SVM 算法比较复杂,需要做的计算量较最小平方误差算法要更加多;而最小平方误差算法主要在处理数据以及较简单的最小平方误差运算,最终线性SVM 算法运算时间和最小平方误差算法相差不多,但是运算精度较最小平方误差算法提高了很多。
从最小平方误差的matlab 图形中可以看出出现的误差比较明显(两个绿色的圆圈被划分在直线的另一边),而在线性SVM 的matlab 图形中出现的误差较
小,结果较最小平方法搜索的图形准确,有说服力。
结果表明识别率相差与识别时间稍有差别,因此在该识别模式中,线性SVM 算法比最小平方误差算法性能更加优越。
5 结论
从以上两种算法所得的建模图形分析,损坏柴油机与未损坏柴油机能够通过对两项热力学数据的分析从而被机器区分开来。
由于采集的数据一共为100组,因此算法运行之后得到的结果并不是十分
准确。
线性SVM 算法比最小平方误差算法更加准确的将两批柴油机进行了分类,两类算法执行时间相近,准确度前者比后者更高。
当数据达到一定数量的时候,两类算法的精确度都会更加地提高,能够进行准确的分类。
当两类算法进行比较时,线性SVM 算法的性能要优越于最小平方误差算法的性能。
参考文献:
[1] 蒲立俊. 基于瞬时转速的柴油机状态监测
与故障诊断技术研究[D].武汉:武汉理工大学,2000.
[2] 朱伟明. 基于贝叶斯融合的柴油机性能状
态评估方法研究[J].内燃机,2010.
5
线性SVM 算法与最小平方误差算
法的比较
(哈尔滨工程大学 动力与能源工程学院,黑龙江 哈尔滨 150001)
摘要:在机器识别模式里,在基于贝叶斯决策理论之上有多种算法。机器识别应用领
域十分广泛,例如可以区分柴油机是否工作正常。在此,我利用两种不同的算法对两批不同的柴油机的多项热力学参数进行分析并且得到结果。两种算法均能够识别两批不同的柴油机,线性SVM 算法比最小平方误差算法更加准确的将两批柴油机进行了分类,两类算法执行时间相近,准确度前者比后者更高。在做出一系列性能比较后,可以得出线性SVM 算法比最小平方误差算法性能更加优秀。
关键词:线性SVM 算法;最小平方误差算法;贝叶斯决策定理;柴油机
Linear SVM algorithm and the least square error of
algorithms of comparison
WU Z.ying
(Colle ge of Power and Energy Engine erin g, Harbin Engin eerin g University, Harbin
150001,China )
Abstract :In the machine reco gnit ion mode, based on Bayesian decision theory in above
have many algor it hms. The machine reco gnit ion ap p licat ion field is very ext ensive, for examp le can be the difference between diesel engin e is working prop erly. In this, I used two different algorit hm of two different diesel engin e a number of thermody nami cs paramet ers and get the result analysis. The two algorithm are able to identify two group of different diesel engine, made a series of performan ce in comp arison, it can be conc luded that SVM
1
t han the least square algorit hm linear error al gorit hm is more outst anding. With information and automat ion technology of development , the Marine shipping enterp rise has accumulat ed a lot of operat ional data and dia gnosis data, Bayesian method for the calcul at ion of prior p robabilit y provided conditions. Linear SVM algorithm and the least square error algor it hm are based on Bay esian decision theory and formula and the establish ment , in this, I will be based on matlab model in g income the result that come out to the two algorit hm make the comp arison.
Ke ywords: Lin ear SVM algorit hm; The least square error of algorit hms ; Bayesian decision t heorem; Diesel engine
0 引言
柴油机经过长时间工作后, 各部件的老化、磨损和调节机构工作的误差增大及操作、调试不当等诸多因素, 均将导致发动机性能恶化, 使做功能力下降
[1]
1 贝叶斯决策
1.1 贝叶斯决策理论
贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分。 贝叶斯决策就是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策。
贝叶斯决策理论方法是统计模型决策中的一个基本方法,其基本思想是: ● 已知类条件概率密度参数表达式和
先验概率
● 利用贝叶斯公式转换成后验概率 ● 根据后验概率大小进行决策分类 设D 1,D 2,……,Dn 为样本空间S 的一个划分,如果以P(Di)表示事件Di 发生的概率,且P(Di)>0(i =1,2,…,n ) 。对于任一事件x ,P(x)>0,有贝叶斯公式
. 实践证明, 这些变化会通过油机各
个热力学性能参数的变化表现出来 .
但来自热力学参数的信息具有不确定性, 其与故障之间的直接联系较难确定 , 因此, 可以借助概率推理、模糊推理等不确定性理论进行处理分析. 朴素贝叶斯诊断法是一种建立在概率密度函数基础上的诊断方法, 相比其他诊断法, 具有相对小的诊断出错率. 随着信息化和自动化技术的不断发展, 各船舶航运企业积累了大量的运行数据和诊断数据, 为贝叶斯方法先验概率的计算提供了条件. 线性SVM 算法与最小平方误差算法都是根据贝叶斯决策理论与公式而建立的,在此,我将根据用matlab 建模所得出来的结果对这两种算法做出比较。
[2]
2
P (Di /x )=
P (Di )*P (X /Di )
n
∑
P (X /Di )*P (Di )
i =1
1.2 贝叶斯决策理论分析
对于任何给定问题,可以通过似然率测试决策规则得到最小的错误概率。这个错误概率称为贝叶斯错误率,且是所有分类器中可以得到的最好结果。最小化错误概率的决策规则就是最大化后验概率判据。贝叶斯决策理论方法是统计模式识别中的一个基本方法。贝叶斯决策判据既考虑了各类参考总体出现的概率大小,又考虑了因误判造成的损失大小,判别能力强。贝叶斯方法更适用于下列场合:
(1) 样本(子样) 的数量(容量) 不充分大,因而大子样统计理论不适宜的场合。
(2) 试验具有继承性,反映在统计学上就是要具有在试验之前已有先验信息的场合。用这种方法进行分类时要求两点:
第一,要决策分类的参考总体的类
别数是一定的。例如两类参考总体(正常状态D l 和异常状态D 2) ,或L 类参考总体D 1,D 2,…,D L (如良好、满意、可以、不满意、不允许、……)。
第二,各类参考总体的概率分布是已知的,即每一类参考总体出现的先验概率P(Di)以及各类概率密度函数P(x/Di) 是已知的。显然,0≤P(Di)≤1,(i =l,2,…,L ) ,∑P(Di)=1。
对于两类故障诊断问题,就相当于在识别前已知正常状态D 1的概率户(D 1) 和异常状态0:的概率P(D2) ,它们是由
先验知识确定的状态先验概率。如果不
做进一步的仔细观测,仅依靠先验概率去作决策,那么就应给出下列的决策规则:若P(D1) >P(D2) ,则做出状态属于D 1类的决策;反之,则做出状态属于D 2类的决策。例如,某设备在365天中,有故障是少见的,无故障是经常的,有故障的概率远小于无故障的概率。因此,若无特B ,j 明显的异常状况,就应判断为无故障。显然,这样做对某一实际的待检状态根本达不到诊断的目的,这是由于只利用先验概率提供的分类信息太少了。为此,我们还要对系统状态进行状态检测,分析所观测到的信息。
2 最小平方差算法理论简介
最小平方误差算法是最常用的一种经典模式识别和回归分析方法,其目标是使线性函数输出与期望输出的误差平方和为最小。
最小平方误差的基本思路是选择估计量使模型(包括静态或动态的,线性或非线性的)输出与实测输出之差的平方和达到最小。这种求误差平方和的方式可以避免正负误差相抵,而且便于数学处理(例如用误差的绝对值就不便于处理)。
线性最小二乘法是应用最广泛的参数估计方法,它在理论研究和工程应用中都具有重要的作用,同时它又是许多其他更复杂方法的基础。
一般可以有线性二乘算法,多项式
3
二乘算法,和曲线二乘算法。
3 线性SVM 算法理论简介
支持向量机(SVM )是20世纪90年代初由V apnik 等人提出的一类新型机器学习方法,此方法能够在训练样本很少的情况下达到很好的分类推广能力。
自动识别技术是自动控制系统的一个重要的领域。识别的准确性和识别速度直接关系到该技术是否能够得到实际应用。传统的识别方法,如模板匹配、神经网络等,在进行识别时其识别率很大程度上依赖于训练样本的数量,且在无特征提取的情况下,识别的正确率相对较低。
支持矢量机能够较好的解决小样本、非线性及高维数等模式识别问题。近年来SVM 已在脸像识别、函数逼近以及概率密度估计等众多领域得到了广泛的应用。利用该方法进行识别,在训练样本相对较少且无较多特征提取的情况下,仍可得到较高的识别率。
SVM 分类器是二分类器,因此采用多个二分类器组合的
one-against-the-others 算法,可以将多类识别问题转化为二类识别问题来解决。每个分类器只将一类对象与其余对象区分开,训练样本中该对象对应的y 值为+1,其余对象对应的y 值为-1。首先确定使用的核函数K ,将训练样本值带入优化函数式中,求出最优解及其非零值对对应的支持向量,并根据任一训练样本值求出阈值。进行识别时将输入信号送到每一个分类器,然后循环检查所
有的分类器输出。
大量的实验结果表明,在训练样本较少的情况下,该系统的识别率较高,并具有算法简单,无需先验知识,容易
控制和稳定性好等优点。
4 比较线性SVM 算法与最小平方误差算法
4.1 实验设定场景
某船舶航运企业分别对一批正常工作的柴油机和一批已经损坏的柴油机进行某两项热力学性能参数的运行数据进行采集,预计采集两项参数各100例,分别采用线性SVM 算法与最小平方误差法对收集的数据进行处理并且建立模
型,以判断是否有柴油机损坏,并对两
种算法进行分析。
4.2 实验后所得到的模型图形
图1 线性SVM 算法建模所得图形
4
图2 最小平方误差算法建模所得图形
4.3 对实验结果的分析
由于两种算法的核函数不同,线性SVM 算法比较复杂,需要做的计算量较最小平方误差算法要更加多;而最小平方误差算法主要在处理数据以及较简单的最小平方误差运算,最终线性SVM 算法运算时间和最小平方误差算法相差不多,但是运算精度较最小平方误差算法提高了很多。
从最小平方误差的matlab 图形中可以看出出现的误差比较明显(两个绿色的圆圈被划分在直线的另一边),而在线性SVM 的matlab 图形中出现的误差较
小,结果较最小平方法搜索的图形准确,有说服力。
结果表明识别率相差与识别时间稍有差别,因此在该识别模式中,线性SVM 算法比最小平方误差算法性能更加优越。
5 结论
从以上两种算法所得的建模图形分析,损坏柴油机与未损坏柴油机能够通过对两项热力学数据的分析从而被机器区分开来。
由于采集的数据一共为100组,因此算法运行之后得到的结果并不是十分
准确。
线性SVM 算法比最小平方误差算法更加准确的将两批柴油机进行了分类,两类算法执行时间相近,准确度前者比后者更高。
当数据达到一定数量的时候,两类算法的精确度都会更加地提高,能够进行准确的分类。
当两类算法进行比较时,线性SVM 算法的性能要优越于最小平方误差算法的性能。
参考文献:
[1] 蒲立俊. 基于瞬时转速的柴油机状态监测
与故障诊断技术研究[D].武汉:武汉理工大学,2000.
[2] 朱伟明. 基于贝叶斯融合的柴油机性能状
态评估方法研究[J].内燃机,2010.
5