拟自适应分类随机森林算法

拟自适应分类随机森林算法

马景义 吴喜之 谢邦昌

2011-12-13 15:00:25 来源:《数理统计与管理》(京)2010年5期第805~811页

内容提要:本文给出了集成学习模型可以收敛的集成学习算法,拟自适应分类随机森林算法。拟自适应分类随机森林算法综合了Adaboost算法和随机森林算法的优势,实验数据分析表明,训练集较大时,拟自适应随机森林算法的效果会好于随机森林算法。另外,拟自适应分类随机森林算法的收敛性确保它的推广误差可以通过训练集估计,所以,对于实际数据,拟自适应分类随机森林算法不需要把数据划分为训练集和测试集,从而,可以有效地利用数据信息。

关键词:集成学习 拟自适应 随机森林

作者简介:马景义,中央财经大学统计学院(北京100081);吴喜之,中国人民大学统计学院(北京100872);谢邦昌,中央财经大学统计学院(北京100081),台湾辅仁大学统计资讯学系(台北24205)。

0引言

通过对的训练,分类树[1]、C4.5[2]和神经网络[3]等算法都可以得到预测y的函数,或者模型;分类问题的集成学习方法(ensemble learning methods)则把多个不同个体分类模型的预测结果集合到一起,通过投票,得到一个分类更精确的预测结果。这里个体分类模型的投票模型就是集成学习模型;而个体分类模型被称作基学习模型(base learning model),通过基学习算法获得。在一类集成学习算法中,基学习模型可以被视为某个随机模型的实现。例如Bagging分类树算法中,通过基学习算法(分类树算法)训练,从中等权重抽取的随机自助训练集(bootstrap training data)L,得到的随机模型可以被表示为f(x;L),f指代采用分类树算法得到的模型,L为随机参数。只要获得L的随机实现,就可以通过分类树算法得到基学习模型f(x;

),i=l,…,m。每个基学习器模型以权重1/m(等权重)投票,就可以得到集成学习模型,或者Bagging

分类树模型

其中,I(·)是示性函数。出于简便,本文后面部分将类似Bagging分类树模型,简称特定集成学习算法的集成学习模型。

另外,需要说明的是,等权重自助抽样权重为N维向量。本文后面的部分中,自助抽样权重也是N维向量,自助训练集的大小为N。以自助权重从中抽取自助训练集指,独立地,从中的元素中随机选出(中第n个样本被选中的概率为自助抽样权重的第n个元素,n=1,…,N)N个样本组成自助训练样本。

Breiman的分类随机森林算法[4]业已证明为集成学习算法中最为优秀的算法之一,实践表明,分类随机森林模型的预测性能要优于Bagging分类树模型。和Bagging分类树算法类似,分类随机森林算法的基学习模型也可以表示为随机模型h(x;θ)的实现,只是h(x;θ)通过随机变量划分分类树算法获得。此处,h代表以随机变量划分分类树得到的模型;随机参数θ表示两个方面的随机

要素:从中等权重获得的随机自助训练样本L,以及对L实施随机变量划分分类树算法的过程中,在每个节点处产生划分条件时,随机选择的p个自变量。L的第i个随机实现,以及每个节点处随机选择的p个自变量被确定,则意味着得到了θ的第i个实现

,相应的,基学习模型h(x;

)就可以被确定,i=1,…,m。基学习模型的等权投票模型

就是分类随机森林模型。

Adaboost算法是另一个优秀的集成学习算法[5-6],实践中,它的集成学习模型和分类随机森林模型均有上佳,而且难分伯仲的预测效果。Adaboost算法也是通过多个基学习器模型的投票得到集成学习模型,基学习器模型也利用对

然而,在获取自助训练集时,它采用自适应自助抽样权重,在集成基学习器模型时,采用自适应投票权重。 的自助训练集训练获得;

所谓的自适应自助抽样权重指,随着算法的运行,根据已得到的基学习器模型确定下一个自助训练集的自助抽样权重,更具体地,第i个自助抽样权重

和前i-1个基学习器模型有关,有了后,以为抽样权重,从中抽取自助训练样本。

自适应投票权重指,Adaboost算法采用基学习器算法,如分类树算法,得到基学习器模型f(x;

算法中也使用C4.5和弱神经网络算法为基学习器算法)后,将它们集成为集成学习模型

)(f指代分类树模型,Adaboost

理论研究表明,在样本量N→∞时,Adaboost算法的集成学习模型的推广误差(generalization error)可以收敛到贝叶斯误差

(Bayes risk)[7];然而,许多应用问题中,N→∞是不能被保证的,例如那些样本成本非常高的研究。Breiman[8]指出:N非常大,并不意味着无穷大,许多数据的研究中,N可能非常大,但上述的收敛并不能被保证;Adaboost算法的集成学习模型的预测误差之所以较小,很可能与自适应自助抽样权重和自适应投票权重有关。

本文的立意如下:随机森林算法和Adaboost算法,二者集成学习模型的分类性能难分高下,然而,二者在基学习算法的选择,自助抽样权重的选择,投票权重的选择等三个方面迥然不同;所以,本文考虑建立一个新的算法,把二者的优点集中在一起;以期得到性能更佳的集成学习模型。

在给出新集成算法时,需要考虑一个现实问题。Adaboost算法的基学习模型并不能被表示为某个随机模型的实现,因为不同的基学习模型对应的自助训练集的分布不同;于是,其集成学习模型的收敛性(m→∞)难以被严格证明。如果一个集成学习算法(例如随机森林算法)的集成学习模型是收敛的,那么,用以评价集成学习模型预测效果的推广误差可以通过训练集估计,也就是推广误差的Out-of-Bag估计[9],反之,评价集成学习模型预测效果的推广误差需通过测试集估计,也就是说数据必须被分成训练集和测试集两个部分。然而,数据挖掘中的分类任务中,数据并不都是海量数据,为了评估模型,不得不减少训练集的大小,将导致模型的预测性能下降。换而言之,对于同样的数据,相比随机森林算法,新算法得到的集成学习模型的性能可能更好,但为了评估集成学习模型的性能,不得不使用原始数据中的部分数据得到集成学习模型,其预测性能很可能差于随机森林训练所有原始数据得到的集成学习模型。

本文考虑模仿Adaboost算法中的自适应机制,发明拟自适应机制,并把它运用到分类随机森林算法中,给出集成学习模型可以收敛的拟自适应分类随机森林算法算法。

值得一提的是,本文研究的内容只和分类随机森林算法及Adaboost算法有关,机器学习领域中还有其他优秀的集成学习算法和理论,如随机决策森林[10]及拓展算法[11-12]。本文后续的研究将进一步拓宽视野,从尽可能多的集成学习算法中归纳出更一般性的结论。

本文的内容安排如下:第1节中,给出拟自适应分类随机森林算法算法,拟自适应分类随机森林模型和分类随机森林模型的预测效果比较,拟自适应分类随机森林模型的收敛性证明及其推广误差的Out-of-Bag估计;第2节是本文的结论。

1拟自适应分类随机森林算法

本节中,1.1节将给出拟自适应分类随机森林算法的细节,1.2中用机器学习的基准数据比较拟自适应分类随机森林模型和分类随机森林模型的预测效果,1.3节给出拟自适应分类随机森林模型的收敛性证明的收敛性证明,1.4节给出拟自适应分类随机森林模型的推广误差的Out-of-Bag估计。

1.1拟自适应Adaboost分类随机森林算法描述

本小节首先给出,以随机划分分类树为基学习算法的Adaboost算法中,自适应抽样权重和自适应投票权重的定义方式。

定义拟自适应分类随机森林算法如下。

第1步,运行以随机划分分类树为基学习算法的Adaboost算法S次,记录S个再抽样权重向量,s=1,…,S。

1.2拟自适应分类随机森林算法的预测效果

本小节以机器学习算法比较的基准数据twonorm数据和threenorm数据[13](twonorm数据的贝叶斯误差为0.025,threenorm数据的贝叶斯误差为0.1154),经验分析拟自适应分类随机森林算法的有效性。

每个数据,共生成自变量为21的5个数据集,大小依次为100、200、300、400和10000,前面4个数据集为训练集,最后1个数据为测试集。前面4个数据集可以得到4个分类随机森林模型(m=10000,随机选择3个变量生成划分条件,模型记为RF)和4个拟自适应分类随机森林模型(S=50,m=10000,随机选择3个变量生成划分条件,模型记为QRF),然后,用第5个数据集估计前面训练出的集成学习模型的推广误差,见下页表1。

关于threenorm,在训练集大小为100和200时,分类随机森林模型的推广误差小于拟自适应分类随机森林的推广误差,在训练集大小为300和400时,随机森林算法的推广误差大于拟自适应随机森林算法的推广误差。关于twonorm,在训练集大小为100时,随机森林算法的推广误差小于拟自适应随机森林算法的推广误差,在训练集大小为200,300和400时,随机森林算法的推广误差大于拟自适应随机森林算法的推广误差。出现上述情况的原因如下:以自适应抽样权重抽样时,自助训练集中包含的原始数据占原始数据

比例常小于50%[6],所以原始训练集较小时,其效果不如等权重自助抽样方法(等权自助抽样训练集中包含的原始数据占原始数据的比例约为63%)。

表1四组数据,集成模型推广误差的估计

训练集大小模型 threenorm数据twonorm数据

n=100 RF 0.16270 0.03370

QRF 0.18850 0.03655

n=200 RF 0.14860 0.02680

QRF 0.15305 0.02320

n=300 RF 0.12340 0.02670

QRF 0.11370 0.02505

n=400 RF 0.12430 0.02135

QRF 0.11560 0.01850

所以,在数据量较大时,本文给出的拟自适应分类随机森林算法比随机森林算法更具竞争力。另外,Breiman[4]的分析表明:训练集较大时,分类随机森林模型和以分类树为基学习算法的Adaboost算法模型的预测效果不相上下,训练集较小时,分类随机森林模型的预测效果要略差。这和本文的结论隐隐相合。

1.3拟自适应分类随机森林算法的收敛性

本节探讨拟自适应分类随机森林算法的收敛性。

从中等概率选择的自助抽样权重向量w的样本空间有限,从w为自助抽样权重,从中得到的自助训练集L的样本空间也有限。以L为训练集,随机划分分类树算法得到预测模型的过程中,每个节点处,随机选择的p个划分变量的样本空间有限,节点个数也有限,所以,随机划分分类树算法得到的基学习器模型h(x;π)和它对应的投票权重φ的样本空间有限,我们把它们表示为

这个估计就是推广误差的Out-of-Bag估计,其效果和大小N的测试集得到的推广误差估计一致。

2结论

本文给出了集成学习模型可以收敛的拟自适应分类随机森林算法,拟自适应分类随机森林算法把拟自适应自助抽样权重和拟自适应投票权重加权运用到分类随机森林算法中。经验表明,训练集较大时,拟自适应随机森林算法的效果会好于随机森林算法。拟自适应分类随机森林算法的收敛性确保它的推广误差可以通过训练集估计。这样,对于实际数据,拟自适应分类随机森林算法不需要把数据划分为训练集和测试集,从而,可以有效地利用数据信息,尤其是对于样本获取成本较高的应用。

参考文献:

[1]Breiman L, Friedman J, Olshen R, and Stone C. Classification and Regression Trees[M]. Monterey, CA: Wadsworth and

Brooks, 1984.

[2]Quinlan J R. Bagging, boosting, and C4.5[A]. In: Proceedings of the Thirteenth National Conference on Artificial Intelligence, 725-730[C]. Cambridge, MA: AAAI Press/MIT Press, Portland, Oregon 1996.

[3]Ripley B D. Pattern Recognition and Neural Networks[M]. New York: Cambridge University Press, 1996.

[4]Breiman L. Random forests[J]. Machine Learning, 2001,45(1):5-32.

[5]Freund Y and Schapire R E. Experiments with a new boosting algorithm[A]. In: Proc. 13th International Conference on Machine Learning, 148-146[C]. San Francisco: Morgan Kaufmann, 1996.

[6]Breiman L. Aring classifiers[J]. The Annals of Statistics, 1998,26(3):801-849.

[7]Schapire R E. Freund Y, Bartlett P, Lee W S. Boosting the margin: A new explanation for the effectiveness of voting

methods[J]. The Annals of Statistics, 1998,26(5):1651-1686.

[8]Breiman L. Some infinity theory for predictor ensembles[R]. Technical Report 579, University of California. Department of Statistics, 2000.

[9]Breiman L. Out-of-bag estimation[R]. Technical report, Dept. of Statistics, Univ. of Calif., Berkeley. ftp://ftp.stat.berkeley.edu/pub/users/breiman/OOBestimation.ps.Z,1996.

[10]Ho T K. Random Decision Forest[A]. In: Proceedings of the Third International Conference on Document Analysis and Recognition, 278-282[C], Montreal, Canada, 1995.

[11]Ho T K. The random subspace method for constructing decision forests[J]. IEEE Trans. on Pattern Analysis and Machine Intelligence, 1998,20(8):832-844.

[12]Ho T K. A data complexity analysis of comparative advantages of decision forest constructors[J]. Pattern Analysis

and Applications, 2002,5:102-112.

[13]Blake C, and Merz C. UCI repository of machine learning databases[EB/OL]. http://www.ics.uci.edu/mlearn/MLRepository.html,1998.^

拟自适应分类随机森林算法

马景义 吴喜之 谢邦昌

2011-12-13 15:00:25 来源:《数理统计与管理》(京)2010年5期第805~811页

内容提要:本文给出了集成学习模型可以收敛的集成学习算法,拟自适应分类随机森林算法。拟自适应分类随机森林算法综合了Adaboost算法和随机森林算法的优势,实验数据分析表明,训练集较大时,拟自适应随机森林算法的效果会好于随机森林算法。另外,拟自适应分类随机森林算法的收敛性确保它的推广误差可以通过训练集估计,所以,对于实际数据,拟自适应分类随机森林算法不需要把数据划分为训练集和测试集,从而,可以有效地利用数据信息。

关键词:集成学习 拟自适应 随机森林

作者简介:马景义,中央财经大学统计学院(北京100081);吴喜之,中国人民大学统计学院(北京100872);谢邦昌,中央财经大学统计学院(北京100081),台湾辅仁大学统计资讯学系(台北24205)。

0引言

通过对的训练,分类树[1]、C4.5[2]和神经网络[3]等算法都可以得到预测y的函数,或者模型;分类问题的集成学习方法(ensemble learning methods)则把多个不同个体分类模型的预测结果集合到一起,通过投票,得到一个分类更精确的预测结果。这里个体分类模型的投票模型就是集成学习模型;而个体分类模型被称作基学习模型(base learning model),通过基学习算法获得。在一类集成学习算法中,基学习模型可以被视为某个随机模型的实现。例如Bagging分类树算法中,通过基学习算法(分类树算法)训练,从中等权重抽取的随机自助训练集(bootstrap training data)L,得到的随机模型可以被表示为f(x;L),f指代采用分类树算法得到的模型,L为随机参数。只要获得L的随机实现,就可以通过分类树算法得到基学习模型f(x;

),i=l,…,m。每个基学习器模型以权重1/m(等权重)投票,就可以得到集成学习模型,或者Bagging

分类树模型

其中,I(·)是示性函数。出于简便,本文后面部分将类似Bagging分类树模型,简称特定集成学习算法的集成学习模型。

另外,需要说明的是,等权重自助抽样权重为N维向量。本文后面的部分中,自助抽样权重也是N维向量,自助训练集的大小为N。以自助权重从中抽取自助训练集指,独立地,从中的元素中随机选出(中第n个样本被选中的概率为自助抽样权重的第n个元素,n=1,…,N)N个样本组成自助训练样本。

Breiman的分类随机森林算法[4]业已证明为集成学习算法中最为优秀的算法之一,实践表明,分类随机森林模型的预测性能要优于Bagging分类树模型。和Bagging分类树算法类似,分类随机森林算法的基学习模型也可以表示为随机模型h(x;θ)的实现,只是h(x;θ)通过随机变量划分分类树算法获得。此处,h代表以随机变量划分分类树得到的模型;随机参数θ表示两个方面的随机

要素:从中等权重获得的随机自助训练样本L,以及对L实施随机变量划分分类树算法的过程中,在每个节点处产生划分条件时,随机选择的p个自变量。L的第i个随机实现,以及每个节点处随机选择的p个自变量被确定,则意味着得到了θ的第i个实现

,相应的,基学习模型h(x;

)就可以被确定,i=1,…,m。基学习模型的等权投票模型

就是分类随机森林模型。

Adaboost算法是另一个优秀的集成学习算法[5-6],实践中,它的集成学习模型和分类随机森林模型均有上佳,而且难分伯仲的预测效果。Adaboost算法也是通过多个基学习器模型的投票得到集成学习模型,基学习器模型也利用对

然而,在获取自助训练集时,它采用自适应自助抽样权重,在集成基学习器模型时,采用自适应投票权重。 的自助训练集训练获得;

所谓的自适应自助抽样权重指,随着算法的运行,根据已得到的基学习器模型确定下一个自助训练集的自助抽样权重,更具体地,第i个自助抽样权重

和前i-1个基学习器模型有关,有了后,以为抽样权重,从中抽取自助训练样本。

自适应投票权重指,Adaboost算法采用基学习器算法,如分类树算法,得到基学习器模型f(x;

算法中也使用C4.5和弱神经网络算法为基学习器算法)后,将它们集成为集成学习模型

)(f指代分类树模型,Adaboost

理论研究表明,在样本量N→∞时,Adaboost算法的集成学习模型的推广误差(generalization error)可以收敛到贝叶斯误差

(Bayes risk)[7];然而,许多应用问题中,N→∞是不能被保证的,例如那些样本成本非常高的研究。Breiman[8]指出:N非常大,并不意味着无穷大,许多数据的研究中,N可能非常大,但上述的收敛并不能被保证;Adaboost算法的集成学习模型的预测误差之所以较小,很可能与自适应自助抽样权重和自适应投票权重有关。

本文的立意如下:随机森林算法和Adaboost算法,二者集成学习模型的分类性能难分高下,然而,二者在基学习算法的选择,自助抽样权重的选择,投票权重的选择等三个方面迥然不同;所以,本文考虑建立一个新的算法,把二者的优点集中在一起;以期得到性能更佳的集成学习模型。

在给出新集成算法时,需要考虑一个现实问题。Adaboost算法的基学习模型并不能被表示为某个随机模型的实现,因为不同的基学习模型对应的自助训练集的分布不同;于是,其集成学习模型的收敛性(m→∞)难以被严格证明。如果一个集成学习算法(例如随机森林算法)的集成学习模型是收敛的,那么,用以评价集成学习模型预测效果的推广误差可以通过训练集估计,也就是推广误差的Out-of-Bag估计[9],反之,评价集成学习模型预测效果的推广误差需通过测试集估计,也就是说数据必须被分成训练集和测试集两个部分。然而,数据挖掘中的分类任务中,数据并不都是海量数据,为了评估模型,不得不减少训练集的大小,将导致模型的预测性能下降。换而言之,对于同样的数据,相比随机森林算法,新算法得到的集成学习模型的性能可能更好,但为了评估集成学习模型的性能,不得不使用原始数据中的部分数据得到集成学习模型,其预测性能很可能差于随机森林训练所有原始数据得到的集成学习模型。

本文考虑模仿Adaboost算法中的自适应机制,发明拟自适应机制,并把它运用到分类随机森林算法中,给出集成学习模型可以收敛的拟自适应分类随机森林算法算法。

值得一提的是,本文研究的内容只和分类随机森林算法及Adaboost算法有关,机器学习领域中还有其他优秀的集成学习算法和理论,如随机决策森林[10]及拓展算法[11-12]。本文后续的研究将进一步拓宽视野,从尽可能多的集成学习算法中归纳出更一般性的结论。

本文的内容安排如下:第1节中,给出拟自适应分类随机森林算法算法,拟自适应分类随机森林模型和分类随机森林模型的预测效果比较,拟自适应分类随机森林模型的收敛性证明及其推广误差的Out-of-Bag估计;第2节是本文的结论。

1拟自适应分类随机森林算法

本节中,1.1节将给出拟自适应分类随机森林算法的细节,1.2中用机器学习的基准数据比较拟自适应分类随机森林模型和分类随机森林模型的预测效果,1.3节给出拟自适应分类随机森林模型的收敛性证明的收敛性证明,1.4节给出拟自适应分类随机森林模型的推广误差的Out-of-Bag估计。

1.1拟自适应Adaboost分类随机森林算法描述

本小节首先给出,以随机划分分类树为基学习算法的Adaboost算法中,自适应抽样权重和自适应投票权重的定义方式。

定义拟自适应分类随机森林算法如下。

第1步,运行以随机划分分类树为基学习算法的Adaboost算法S次,记录S个再抽样权重向量,s=1,…,S。

1.2拟自适应分类随机森林算法的预测效果

本小节以机器学习算法比较的基准数据twonorm数据和threenorm数据[13](twonorm数据的贝叶斯误差为0.025,threenorm数据的贝叶斯误差为0.1154),经验分析拟自适应分类随机森林算法的有效性。

每个数据,共生成自变量为21的5个数据集,大小依次为100、200、300、400和10000,前面4个数据集为训练集,最后1个数据为测试集。前面4个数据集可以得到4个分类随机森林模型(m=10000,随机选择3个变量生成划分条件,模型记为RF)和4个拟自适应分类随机森林模型(S=50,m=10000,随机选择3个变量生成划分条件,模型记为QRF),然后,用第5个数据集估计前面训练出的集成学习模型的推广误差,见下页表1。

关于threenorm,在训练集大小为100和200时,分类随机森林模型的推广误差小于拟自适应分类随机森林的推广误差,在训练集大小为300和400时,随机森林算法的推广误差大于拟自适应随机森林算法的推广误差。关于twonorm,在训练集大小为100时,随机森林算法的推广误差小于拟自适应随机森林算法的推广误差,在训练集大小为200,300和400时,随机森林算法的推广误差大于拟自适应随机森林算法的推广误差。出现上述情况的原因如下:以自适应抽样权重抽样时,自助训练集中包含的原始数据占原始数据

比例常小于50%[6],所以原始训练集较小时,其效果不如等权重自助抽样方法(等权自助抽样训练集中包含的原始数据占原始数据的比例约为63%)。

表1四组数据,集成模型推广误差的估计

训练集大小模型 threenorm数据twonorm数据

n=100 RF 0.16270 0.03370

QRF 0.18850 0.03655

n=200 RF 0.14860 0.02680

QRF 0.15305 0.02320

n=300 RF 0.12340 0.02670

QRF 0.11370 0.02505

n=400 RF 0.12430 0.02135

QRF 0.11560 0.01850

所以,在数据量较大时,本文给出的拟自适应分类随机森林算法比随机森林算法更具竞争力。另外,Breiman[4]的分析表明:训练集较大时,分类随机森林模型和以分类树为基学习算法的Adaboost算法模型的预测效果不相上下,训练集较小时,分类随机森林模型的预测效果要略差。这和本文的结论隐隐相合。

1.3拟自适应分类随机森林算法的收敛性

本节探讨拟自适应分类随机森林算法的收敛性。

从中等概率选择的自助抽样权重向量w的样本空间有限,从w为自助抽样权重,从中得到的自助训练集L的样本空间也有限。以L为训练集,随机划分分类树算法得到预测模型的过程中,每个节点处,随机选择的p个划分变量的样本空间有限,节点个数也有限,所以,随机划分分类树算法得到的基学习器模型h(x;π)和它对应的投票权重φ的样本空间有限,我们把它们表示为

这个估计就是推广误差的Out-of-Bag估计,其效果和大小N的测试集得到的推广误差估计一致。

2结论

本文给出了集成学习模型可以收敛的拟自适应分类随机森林算法,拟自适应分类随机森林算法把拟自适应自助抽样权重和拟自适应投票权重加权运用到分类随机森林算法中。经验表明,训练集较大时,拟自适应随机森林算法的效果会好于随机森林算法。拟自适应分类随机森林算法的收敛性确保它的推广误差可以通过训练集估计。这样,对于实际数据,拟自适应分类随机森林算法不需要把数据划分为训练集和测试集,从而,可以有效地利用数据信息,尤其是对于样本获取成本较高的应用。

参考文献:

[1]Breiman L, Friedman J, Olshen R, and Stone C. Classification and Regression Trees[M]. Monterey, CA: Wadsworth and

Brooks, 1984.

[2]Quinlan J R. Bagging, boosting, and C4.5[A]. In: Proceedings of the Thirteenth National Conference on Artificial Intelligence, 725-730[C]. Cambridge, MA: AAAI Press/MIT Press, Portland, Oregon 1996.

[3]Ripley B D. Pattern Recognition and Neural Networks[M]. New York: Cambridge University Press, 1996.

[4]Breiman L. Random forests[J]. Machine Learning, 2001,45(1):5-32.

[5]Freund Y and Schapire R E. Experiments with a new boosting algorithm[A]. In: Proc. 13th International Conference on Machine Learning, 148-146[C]. San Francisco: Morgan Kaufmann, 1996.

[6]Breiman L. Aring classifiers[J]. The Annals of Statistics, 1998,26(3):801-849.

[7]Schapire R E. Freund Y, Bartlett P, Lee W S. Boosting the margin: A new explanation for the effectiveness of voting

methods[J]. The Annals of Statistics, 1998,26(5):1651-1686.

[8]Breiman L. Some infinity theory for predictor ensembles[R]. Technical Report 579, University of California. Department of Statistics, 2000.

[9]Breiman L. Out-of-bag estimation[R]. Technical report, Dept. of Statistics, Univ. of Calif., Berkeley. ftp://ftp.stat.berkeley.edu/pub/users/breiman/OOBestimation.ps.Z,1996.

[10]Ho T K. Random Decision Forest[A]. In: Proceedings of the Third International Conference on Document Analysis and Recognition, 278-282[C], Montreal, Canada, 1995.

[11]Ho T K. The random subspace method for constructing decision forests[J]. IEEE Trans. on Pattern Analysis and Machine Intelligence, 1998,20(8):832-844.

[12]Ho T K. A data complexity analysis of comparative advantages of decision forest constructors[J]. Pattern Analysis

and Applications, 2002,5:102-112.

[13]Blake C, and Merz C. UCI repository of machine learning databases[EB/OL]. http://www.ics.uci.edu/mlearn/MLRepository.html,1998.^


相关内容

  • 回归.分类与聚类:三大方向剖解机器学习算法的优缺点(附Python和R实现)
  • 选自EliteDataScience 机器之心编译 参与:蒋思源.晏奇 在本教程中,作者对现代机器学习算法进行一次简要的实战梳理.虽然类似的总结有很多,但是它们都没有真正解释清楚每个算法在实践中的好坏,而这正是本篇梳理希望完成的.因此本文力图基于实践中的经验,讨论每个算法的优缺点.而机器之心也在文末 ...

  • 人工神经网络控制论文
  • 姓名;周喜龙 学号:137 浅谈人工神经网络控制 关键词:发展.人工神经网络.神经元.定义.原理.数学模型.应用.认知 人工神经网络的发展过程 神经网络控制是20世纪80年代末期发展起来的自动控制领域的前沿学科之一.它是智能控制的一个新的分支,为解决复杂的非线性.不确定.不确知系统的控制问题开辟了新 ...

  • 计算机考研知识点
  • 计算机学科专业基础综合 Ⅰ考查目标 计算机学科专业基础综合考试涵盖数据机构.计算机组成原理.操作系统和计算机网络等学科专业基础课程.要求考生比较系统地掌握上述专业基础课程的概念.基本原理和方法,能够运用所学的基本原理和基本方法分析.判断和解决有关理论问题和实际问题. Ⅱ考试形式和试卷结构 一.试卷满 ...

  • 高空间分辨率遥感森林参数提取探讨
  • 2009年4月第2期林业资源管理 April 2009高空间分辨率遥感森林参数提取探讨 刘晓双, 黄建文, 鞠洪波 (中国林业科学研究院资源信息研究所, 北京100091) 摘要:介绍了高空间分辨率遥感在森林参数提取方面的研究和应用情况, 并结合国内外学者在此方面所做出的研究成果, 对不同森林参数的 ...

  • 融合粒子群优化和遗传算法的基因调控网络构建
  • 摘 要:MicroRNA(miRNA)是一类大小为21-25nt的内源性非编码小核糖核酸(RNA), 通过与mRNA的3'UTR互补结合, 导致mRNA降解或翻译抑制来调控编码基因的表达.为了提高构建基因调控网络的准确度, 提出一种基于粗糙集.融合粒子群(PSO)和遗传算法(GA)的基因调控网络构建 ...

  • 基于加权量子粒子群的分类器设计
  • 1 概述 传统的说话人识别主要用支持向量机(Support Vector Machine, SVM)实现分类,SVM 是基于统计理论的分类规 则,针对小样本情况进行,在大样本情况下会出现训练速度慢的缺点,SVM 在训练过程中不考虑数据之间可能存在的相关性,需要求解二次规划(Quadratic Pro ...

  • 自适应混沌粒子群优化算法
  • 计 算 机 工 程 第 37 卷 第15期 Computer Engineering V ol.37 No.15 文章编号:文章编号:1000-3428(2011)15-0128-03 ·人工智能及识别技术·人工智能及识别技术· 2011年8月 August 2011 文献标识码:文献标识码:A 中 ...

  • 混合数据聚类分析
  • 种混合属性数据的聚类算法 摘 要: 提出一种基于属性分解的随机分组的改进方法,以提高聚类算法的稳定性和适用性.实验仿真结果表明,改进算法具有很好的稳定性和应用性. 关键词: 聚类:混合数据:分类属性 所谓聚类,就是将物理或抽象对象的集合构成为由类似的对象组成多个类或簇的过程.由聚类所生成的簇是一组数 ...

  • 一种DCT中频水印嵌入与提取方法
  • 一种DCT 中频水印嵌入与提取方法 闫德勤 韩亚丹 高 艳 (辽宁师范大学计算机与信息技术学院,大连116029) E-maiI :[email protected] 摘 要 数字水印在保护图像的所有权和软件的版权等方面得到了广泛的应用.一个实用的数字水印算法应该既能保 证图像具有良好的可视性的同时, ...