Computer Engineering and Applications 计算机工程与应用2009,45(36)165
高维少样本数据的特征压缩
2
游文杰1,,吉国力1,袁明顺2
2,YOU Wen-jie 1,JI Guo-li 1,YUAN Ming-shun 2
福建厦门3610051. 厦门大学自动化系,
福建福清3503002. 福建师范大学福清分校,
1.Department of Automation ,Xiamen University ,Xiamen ,Fujian 361005,China
2.Fuqing Branch ,Fujian Normal University ,Fuqing ,Fujian 350300,China E-mail :[email protected]
YOU Wen-jie ,JI Guo-li ,YUAN Ming-shun.Feature reduction on high-dimensional small-sample data.Computer Engineering
(36):and Applications ,2009,45165-169. (GSS )is defined. Abstract :In view of the characteristics of small sample and high dimensional data ,Generalized Small Samples
(dimensionality extraction )and feature selection (dimensionality selection )It reduces information feature of GSS :feature extraction . (PCA )and supervised feature extraction based on Firstly ,unsupervised feature extraction based on Principal Component Analysis
(PLS )are introduced.Secondly ,analyzing the structure of first PC ,it presents new global PCA-based and PLS-Partial Least Squares
(PLS-RFE )is realized.Finally ,based feature selection approaches ,in addition recursive feature elimination on PLS the approaches are applied to the classification of MIT AML/ALL,it performs feature extraction on PCA and PLS ,and feature selection compared
with PLS-RFE.The information compression of GSS is realized.
(PCA );(PLS );Key words :generalized small sample ;Principal Component Analysis Partial Least Squares feature extraction ;feature
selection
摘要:针对一类高维少样本数据的特点,给出了广义小样本概念,对广义小样本进行信息特征压缩:特征提取(降维)和特征选择(选维)。首先介绍基于主成分分析(PCA )的无监督与基于偏最小二乘(PLS )的有监督的特征提取方法;其次通过分析第一成分结构,提出基于PCA 与PLS 的新的全局特征选择方法,并进一步提出基于PLS 的递归特征排除法(PLS-RFE );最后针对MIT AML/
实现基于PCA 与PLS 的特征选择和特征提取,以及PLS-RFE 特征选择与比较,达到广义小样本信息特征压缩ALL 的分类问题,
的目的。关键词:广义小样本;主成分分析(PCA );偏最小二乘(PLS );特征提取;特征选择
文章编号:(2009)文献标识码:中图分类号:DOI :10.3778/j.issn.1002-8331.2009.36.0491002-833136-0165-05A TP391
1前言
在许多复杂问题中,样本量的绝对数并不算小,但其相对
于数据的维数或参数个数而言,样本量就相当小。如20世纪
该技术使得研究人员可以同时90年代DNA 微阵列基因芯片,
测定成千上万个基因的表达水平,得到大量微阵列数据,该数据的特点是样本容量较小,而变量数(基因)非常多。再如,互联网的快速发展,网上出现大量文档数据,自动文本分类也成为处理海量数据的不可或缺的关键技术,其中对使用向量空间模型的分类器的最主要困难是高维的特征空间。这种高维小样本数据对随后的统计分析工作带来了前所未有的困难。
面对这种样本容量小而特征变量数非常多的高维数据,如何建立有效数学模型是一件非常困难的挑战。相对特征变量数而言,这种样本容量数显得非常小的数据,将其定义为广义小
样本。所谓广义小样本,是指一类样本容量n 远小于其变量维
数p ,表现为高维数据少样本容量情形。广义小样本是一相对概念,其实质是信息冗余与高噪声,其建模方法的有效性体现在小样本数据潜在信息的充分挖掘,在最大化数据有用信息量的情况下去除冗余与噪声。目前,在数据挖掘中还没有某种方法能普遍适用于各种特点的数据,许多挖掘算法在广义小样本时效率下降甚至失效。构造有效的信息特征压缩方法是广义小样本的一个研究方向。针对广义小样本数据,有两种方法进行信息特征压缩:特征抽取(降维)和特征选择(选维)。针对高维少样本数据的信息特征压缩问题,为加快特征选择过程,常根据单变量检验统计量的值进行排序(Ranking ),如
这种操作可能存在一种风险:忽t -检验或信噪比及其p 值[1-4],
略了特征间相关性及其非线性性。更为精确的方法是要考虑特
基金项目:高校博士点专项科研基金(No.[1**********]);福建省教育厅科技项目(No.JB08244)。
作者简介:游文杰(1974-),男,讲师,主要研究方向:统计计算;吉国力(1960-),男,教授,博士生导师,主要研究方向:系统工程理论方法与应用、
生物信息学等;袁明顺(1979-),男,硕士,主要研究方向:最优化理论与算法设计。
收稿日期:2009-08-24
修回日期:2009-10-09
1662009,45(36)Computer Engineering and Applications 计算机工程与应用
以及Y 被t 1解释后的残余信息进行第二次的潜变量t 2的提取。如此反复,直至达到满足精度要求。设n 个样本p 维指标X =[X 1,…,其X 2,X p ]与预测变量Y ,优化模型为:
≤≤≤≤≤≤Σ≤≤≤≤≤≤
征间的联合分布,即同时考虑所有的特征,允许检测那些具有较小主效应,但存在有较强交互效应的特征。该文给出了广义小样本概念,介绍了基于主成分分析(PCA )的无监督特征提取)的有监督特征提取两方法;通过分析与基于偏最小二乘(PLS
第一成分结构提出基于PCA 与PLS 的新的全局特征选择法,
[5-6])思想,并进一步提出基于PLS 的递借鉴递归特征排除(RFE
归特征排除法(PLS-RFE );最后,在数据集上实现基于PCA 与
(Xw i ,max cov Yc )i
s.t. w i ′w i =1;c i ′c i =1w i ′ΣX w j =0
实现广义小样本信息特征压缩。PLS 的特征抽取和特征选择,
2原理方法
(PCA )2.1主成分分析
它以较少的潜变PCA 是一种重要的无监督特征提取方法。
量(综合变量)去解释原有数据X 中大部分变异,将相关性较强的原变量X 转化为互相正交的潜变量T ,并从中选取较原变量个数少且能解释大量变异信息的几个新变量(降维),即所谓
使得在误差的主成分。其目标是在低维子空间表示高维数据,
主成分分平方和的意义下低维表示能够最好地描述原始数据。
析是构造原随机变量的一系列线性组合,使各线性组合不相关,且最大可能地包含原变量的信息,即方差最大。
设有n 个样本,每一样本观测p 个指标:…,X =[X 1,X 2,X p ],使X 的线性组合T =XW ,
≤
(X w )max var ≤i
≤≤≤s.t. w i ′w i =1≤≤≤
w i ′ΣX w j =0≤
1≤i
称线性组合T =XW 为主成分,其中ΣX =X ′X 。可以证明[7-8]以上优化问题的解w i 满足:
(λi I p -Σ)w i =0
(t )ΣX =X ′X λi =var λ1≥λ2≥…≥λp i 即优化问题的解w i 为:ΣX =X ′X 的特征值λi 所对应的特征向量也即权重向量W (weighing )可通过计算协方差阵ΣX 的特征w i 。
向量得到,λi 表示第i 个主成分的方差,w i 表示第i 个主轴(weighing )。主成分分析的目的之一是简化数据结构,在实际应用中一般选取m (m
定义1(解释贡献率、累计解释贡献率)称λk /Σλi 为主成分t k 的解释贡献率;
i =1p
≤
≤≤≤
c i ′ΣY c j =0
其中线性组合t i =Xw i 为第i 潜变量,ΣX =X ′X ,ΣY =Y ′Y 。
可以证明[9-10]以上优化问题的解(w i ,c )i 为:
ΣΣ最大特征值对应特征向量,i =1Σ(I -P )Σ(I -P )Σ最大特征值对应特征向量,i >1Σw ,i =1c =Σ(I -P )Σw ,i >1w i =
i
XY YX
X
XY
Y
YX
YX
i Y
YX
i
其中,
T T
(ΣX W )()()(ΣX W )P X =[ΣX W ΣX W ]-1
T T
(ΣY C )()()(ΣY C )P Y =[ΣY C ΣY C ]-1
(w ij ),(c ij )W =C =
在PLS 计算中所提取成分t h ,一面尽可能多地代表X 的变异信息;另一面又尽可能与Y 相关联,解释Y 中的信息。为测量t h 对X 和Y 的解释能力,定义t h 的各种解释能力如下。其中(r x i ,x )j 表示两变量间相关系数。
定义2(变异解释量、累计变异解释量)定义t h 对X 的变异解释能力:
2
称Rd (x j ;))为成分t h 对自变量x j 的变异解释量;t h =r (x j ,t h
1称Rd (X ;)t h =
p
(x ;为成分t t )ΣRd
j
h
j =1
m
p
h
对X 的变异解释量;
(X ;…,)(X ;)为成分t 1,…,称Rd t 1,t 2,t m =ΣRd t h t 2,t m 对X
h =1
的累计变异解释量;
称Rd (x j ;…,)(x j ;)为成分t 1,…,t 1,t 2,t m =ΣRd t h t 2,t m 对x j
h =1m
的累计变异解释量。
同理有,定义t h 对Y 的变异解释能力:
2
称Rd (y k ;))为成分t h 对自变量y k 的变异解释量;t h =r (y k ,t h
1称Rd (Y ;)t h =
q
(y ;为成分t t )ΣRd
k
h
k =1
m
q
h
对Y 的变异解释量;
称Σλk /Σλi 为主成分t 1,…,)的累计解释贡献率。t 2,t (m m
k =1
i =1
m p
称Rd (Y ;…,)(Y ;)为成分t 1,…,t 1,t 2,t m =ΣRd t h t 2,t m 对Y
h =1
累计解释贡献率刻画出m 个主成分提取X 1,…,X 2,X p 的解
释信息量。
的累计变异解释量;
称Rd (y k ;…,)(y k ;)为成分t 1,…,t 1,t 2,t m =ΣRd t h t 2,t m 对y k
h =1m
(PLS )2.2偏最小二乘
它通过主成分分析和综PLS 是一种有监督特征提取方法。
合变量的提取,利用对系统中的数据信息进行分解和筛选,提取对预测变量Y 解释性最强的综合变量,辨识系统中的信息与噪声,建立适当的模型。基于PLS 的信息特征压缩,在对解释变量数据集X 进行压缩的同时,顾及了与预测变量Y 的相关程度,其压缩结果将更具有实际意义。
PLS 在自变量集X 中提取第一潜变量t 1,t 1尽可能多提取
同时在Y 中提取第一潜变量u 1使t 1与u 1的相X 的变异信息;
若回归方程满关度最大;建立Y 与t 1的回归及X 与t 1的回归,
足精度要求,则算法结束。否则利用X 被t 1解释后的残余信息
的累计变异解释量。
3特征压缩
广义小样本数据的降维压缩方法:特征抽取(降维)和特征
选择(选维)。特征提取是将原始的特征空间投影到低维特征空间,投影后的潜在特征是原始特征的线性或者非线性组合,也即特征提取是要对原始的坐标系进行旋转,然后再选取若干重要的潜在特征,显然特征提取是一全局降维方法,当数据集是全局相关时效果较好。特征选择是通过一些标准的统计方法选择出对分类贡献最大的若干特征,它保持原数据主要特征基础
游文杰,吉国力,袁明顺:高维少样本数据的特征压缩
上将数据从高维转成低维,即从原始数据表中选择若干与任务
有关的显著特征而构成新的低维数据表,其优点是经特征选择后的数据表没有旋转,其结果易于解释。
2009,45(36)167
大。也即若只选取一个综合变量代替原始变量X ,则t 1是X 的最优选择。第一成分t 1对应于数据变异最大的方向,即t 1是使数据信息损失最小、精度最高的一维综合变量。所以从w 1系数符号上分析:系数绝对值较大,则表明该主成分主要综的大小、
合了绝对值大的特征变量,正号表示变量与主成分作用同向,则从负号表示原变量与主成分作用反向。若只选取第一成分,w 1系数中选择分量绝对值大的特征变量,实现基于PCA 的特
征选择。
3.2.2PLS 特征选择
同理,由2.2节的分析知,(1)PLS 建模中要求:t 1和u 1各自提取X 与Y 中尽可能多的变异信息;(2)t 1和u 1的相关性达到最大。也即若只选取一个潜变量代替原始变量X ,则t 1是X 的最优选择。第一成分t 1对应于数据集X 变异尽可能大的方向,即t 1是使数据集X 信息损失尽可能小、精度尽可能高的一维系数绝对值较大,则综合潜变量。所以从w 1系数的大小分析:
表明该成分主要综合了绝对值大的特征变量。若只选取第一成分,则从w 1系数中选择分量绝对值大的特征变量,实现基于PLS 的特征选择。
3.2.3PLS-RFE 特征选择
实际问题中,通常只有少量的特征是真正的与目标信息(如类别)相关,而大部分特征是与目标信息无关的“噪音”。在对目标信息进行分析时,过多的“噪音”特征将干扰有用信息,使计算出来的特征权值失真,影响特征排序的准确性。这里借鉴递归特征排除(RFE )思想,提出基于PLS 的递归特征排除法(Recursive Feature Elimination ),其步骤:(1)对特征PLS-RFE
集中的所有特征由3.2.2节中的PLS 方法进行特征重要性排序(Feature Ranking ),删除排列最后的特征;(2)余下特征重新由
再删除排列最后的特征;如此反复,直至保留特PLS 方法计算,
征集中的k 个特征,实现基于PLS-RFE 的特征选择。
(降维)3.1特征提取
常用的特征提取方法有:
(1)主成分分析(PCA ),它是一种重要的无监督统计分析
利用少数几个变量族的线性方法。它能将原始数据空间降维,
组合来解释高维变量的协方差结构,挑选最佳潜在特征子集,达到简化数据的目的。
(2)偏最小二乘法(PLS ),它是一种有监督的统计分析方法。它通过主成分分析和综合变量的提取,利用对系统中的数据信息进行分解和筛选,提取对预测变量解释性最强的综合变量,辨识系统中的信息与噪声,建立适当的模型。基于PLS 的信息特征压缩,在对解释变量数据集进行压缩的同时,顾及了与预测变量的相关程度,其压缩结果将更具有实际意义。3.1.1PCA 无监督特征提取
PCA 的特征提取步骤:
以n ×p (p >>n )矩阵X 表示;步骤1标准化数据集,
步骤2计算数据阵X 的前m 个主轴w (…,),其2,m i i =1,中m 的选取满足Σλk /Σλi ≥1-α,通常α取值满足1-α≥
k =1
i =1
m
p
0.85;
步骤3计算数据阵X 在前m 个主轴w (…,)上2,m i i =1,的得分T =(t ij )=,t ij 表示X i 在第j 个主轴上的投影;
步骤4得分阵T 代替原始阵X 进行相应操作(如判别分类等),性能评价。
3.1.2PLS 有监督特征提取
PLS 的特征提取步骤:步骤1数据阵X 以n ×p (p >>n )表示,编码类别阵Y 为n ×
[3]
(k 类别数);k
步骤2计算各成分贡献率及使用“舍一交叉”验证方法,计算预测残差平方和均方(PMPRESS )的最小值对应成分数,及PMPRESS 对应Prob >0.1的最小成分数。同时结合所提取成分对各个变量(自变量与因变量)的解释能力以及累积解释能力,以确定成分数nfac ;
(t ij )=步骤3计算前nfac 个成分对应的得分矩阵T =
,t ij 表示X i 在第j 个主轴上的投影;
步骤4得分阵T 代替原始阵X 进行相应操作(如判别分类等),性能评价。
4实验分析
4.1数据
急性白血病是儿童肿瘤中发病率占第一位的疾病,在临床上,根据白血病细胞的形态及组织化学染色表现,可将此病分)为急性淋巴细胞性白血病(Acute Lymphoblastic Leukemia ,ALL 以及急性髓细胞性白血病(Acute Myeloid Leukemia ,两AML )大类。急性白血病不论何种细胞类型,其主要临床表现大致相似,且白血病的初期症状可能不明显,与一般常见儿童疾病症状类似。所以对急性淋巴细胞性白血病与急性髓细胞性白血病的准确识别,对急性白血病的早期诊断和针对性治疗以及提高生存率和生存质量都有很大的帮助。美国麻省理工学院的Golub [1]等人使用高密度寡核苷酸阵列检测了7129个基因表达水平,原始训练数据包含38个样本(27个ALL ,);11个AML 测试数据包含34个样本(20个ALL ,)。Golub 等人14个AML 筛出50个基因,并根据38个训练样本构造了一个分类器,应用于34个新收集到的测试样本上,结果有29个样本被正确识别。
(选维)3.2特征选择
广义小样本问题的一个实际任务是:用最少的特征变量实
现最优的目标(如最大识别率)。也即选择数量少而携带信息量大的特征变量,一方面能最大地去除冗余与噪音,另一方面能大量减少实际操作成本。特征选择通常分为两个阶段,首先基于Filter 方法从成千上万的特征中筛选出一定量的特征,以降低搜索空间,其次基于Wrapper 方法进一步选出满足条件的显著特征子集。如何从众多特征中寻找一组最有效特征是问题的关键,以下提出基于PCA 与PLS 的新的全局特征选择方法,及基于PLS 的递归特征排除法(PLS-RFE )。3.2.1PCA 特征选择
由2.1节的分析,可得以下结论:设t 1是X 的第一主成分,
2
则t 1与原始数据阵X 的综合相关度最大,即Σρ(t 1,X )j =λ1最
j =1p
4.2实验
这里选择支持向量机(SVMs )作为分类器,基于Matlab 平
台的SVMs 工具箱OSU_SVM3.00,下载地址:http ://www.kernel-相应参数取默认值。methods.net/。选择线性核函数LinearSVC ,
首先,对数据集的所有特征分别采用基于PCA/PLS特征提取
1682009,45(36)Computer Engineering and Applications 计算机工程与应用
15
15
)X 解释量(/%
1050
1
2
3
4
5
6
7
8
9
10
贡献率()/%
10
5
)Y 解释量(/%
10
20
30
50
0100累计解释()/%
[1**********]
累计贡献率()/%
100
5050
X 解释Y 解释
5
(前10个)PLS 成分数序号
10
1020
(前30个)PCA 成分数序号
30
图1基于PCA/PLS的(累计) 贡献/解释与成分数之间的关系(训练集
)
(特征选择)选择前k (k =2,…,)个综合特征(信息特征);3,10
其次,将所选取的综合特征(信息特征)进行支持向量机(SVMs )分类训练;最后,分别在训练样本与测试样本上进行测试,计算识别率,并进行校验分析。4.2.1降维
并对所提取分别使用PCA 与PLS 方法来进行特征提取,
“潜变量”进行比较分析。步骤为:
(1)使用PCA (PLS )对数据集进行降维,以7129个基因表达水平为原始数据空间;
)结合各成分贡献率(图1)及SVMs 正确识别率,选择恰(2当的“综合特征”数。
表1为全部(7129个)特征经特征提取后的前10个“潜变量”的SVMs 识别结果:
表1
基于PCA/PLS的特征提取所选前10个“潜变量”的识别率
基于PCA 的识别率训练集1.00001.00001.00001.00001.00001.00001.00001.00001.0000
测试集0.88240.85290.85290.82350.85290.85290.70590.76470.7647
支持向量(1,)2(2,)2(2,)3(4,)2(2,)4(3,)5(4,)3(3,)4(4,)4
基于PLS 的识别率训练集0.86841.00001.00001.00001.00001.00001.00001.00001.0000
测试集
支持向量
)0.9706(12,11)0.9118(12,11)0.8824(13,11)0.9118(13,11)0.9118(13,11)0.9118(13,11)0.8824(16,11)0.8824(17,11)0.8824(14,11
别率明显优于PCA 的识别率。
从图1中知,成分数为2时所对应PCA 的变量变异解释
对应于PLS 对原变量变异的解释:解释自原始信息达到30%;
变量变异23%,同时解释因变量91%的信息。结合表1结论可知,在众多特征(7129个)中只有少量的特征是真正的与样本
“噪音”。在图1类别相关,而大部分特征是与样本类别无关的
中明显看出基于PCA/PLS第一成分所携带的信息量最大,故可以第一成分所刻画的权值进行特征选择。4.2.2选维
所由2.2节的分析,第一成分携带原数据变异信息最大,
以从第一成分权值(载荷)进行特征选择,系数绝对值较大,则表明该特征在解释第一成分时更重要,也即在解释原数据时贡献大,如图2。
0.05载荷
0-0.05
2000
特征数
4000
6000
成分数2345678910
(a )基于PCA 的第一成分在7129
个特征上的载荷
5载荷
0-5-10
2000
特征数
4000
6000
×10-7
分类器:(OSU_SVM3.00),线注数据集:MIT AML/ALL,SVMs
性核,参数默认
。
经PCA 与PLS 特征提取后的前k 个“综合特征”在SVMs
分类器的识别率如表1,在成分数为2时识别率最高:经PCA 特征提取后的训练集与测试集识别率分别为100%与88.24%,而经PLS 特征提取后的训练集与测试集识别率分别为86.84%与97.06%。这结论符合Nguyen [2-4]等提出的直接选取前3个综合特征的做法。并且当成分数增加时,基于PLS 的测试样本识
(b )基于PLS 的第一成分在7129个特征上的载荷图2第一成分上的载荷与特征变量之间的关系
以下就以基于PCA/PLS的第一成分权值进行特征选择。
具体步骤为:
(1)特征选择:基于PCA/PLS/PLS-RFE的特征选择方法进
游文杰,吉国力,袁明顺:高维少样本数据的特征压缩
表2基于PCA/PLS的特征选择所选前k 个特征的识别率
基于PCA 的特征选择
特征数[***********]157129
训练集()测试集()支持向量/%/%
71.186.886.886.881.692.192.[***********]0100100
58.873.588.285.347.161.879.485.388.285.373.591.279.479.497.1
(11,)10(5,)3)(4,4(4,)3(8,)2(7,)3(7,)4(4,)3(5,)3(4,)3)(4,4)(4,5(5,)5(5,)5(15,)7
基于PLS 的特征选择
)测试集()支持向量训练集(/%/%
84.289.[***********][***********]0100
85.376.594.179.494.191.291.210085.385.382.488.291.288.297.1
(4,)5(4,)5)(2,3(3,)3(3,)3(4,)3(5,)2(5,)3(7,)2(6,)3)(7,2)(8,2(7,)2(6,)3(15,)7
2009,45(36)169
基于PLS-RFE 的特征选择)测试集()支持向量训练集(/%/%
84.289.[***********][***********]0100
85.376.594.179.494.191.291.210085.385.382.488.291.288.297.1
(4,)5(4,)5)(2,3(3,)3(3,)3(4,)3(5,)2(5,)3(7,)2(6,)3)(7,2)(8,2(7,)2(6,)3(15,)7
注数据集:分类器:(OSU_SVM3.00),线性核,参数默认。MIT AML/ALL,SVMs
行特征筛选。选择前k (k =2,…,)个特征。3,15
(2)分类器:以支持向量机为分类器进行分类,选择线性核函数LinearSVC ,相应参数取默认值。
(3)计算识别率:分别在训练样本与测试样本上进行测试,计算识别率。结果如表2。
相比较于表1,显然在特征选择后PLS 与PLS-RFE 的识
也即在去除冗余与噪声后,分类器SVMs 表别率已达到100%,
现更优。同时,从表2知基于PCA 在选择13个特征时训练集
而基于PLS 与PLS-RFE 在全部识别,测试集识别达到91.2%;
选择9个与9个特征时训练集与测试集均全部正确识别。PLS 与PLS-RFE 方法的结果明显好于Golub 等人的结果。
些不足,其在对解释变量X 进行压缩时,顾及与预测变量Y 的相关程度。
文章对主成分降维和偏最小二乘降维进行讨论,并尝试利用主成分和偏最小二乘进行选维操作,提出基于PCA 与PLS 的特征选择及PLS-RFE 特征选择方法。并针对目前常用的基于单变量检验统计量的特征选择存在的不足,提出基于PCA 与PLS 的新的全局特征选择法,并借鉴递归特征排除(RFE )思想,提出基于PLS 的递归特征排除法(PLS-RFE );最后在数据集上实现基于PCA 与PLS 的特征抽取和特征选择,实现广义小样本信息特征压缩。
4.3评价
由SVMs 基于数据集MIT AML/ALL进行特征选择与分类,分别采用留一校验(LOOCV )算法、(k -fold CV )k -折叉校验算法和保留法(holdout )来评价文中的方法。结果如表3,其中
(4-fold )进行PLS-RFE 特征选择,平均选择6.41在k 折叉法
个特征时训练与测试均100%识别,结果好于PLS 的结果。在留一校验(LOOCV )法中,不论是PLS 还是PLS-RFE 均出现一个错分#66,这在Golub [1]等人的工作中同样错分了此样本,甚至有人[3]认为这些样本可能存在错误标记。
表3
特征选择算法
校验方法)留一法(72个样本
PLS
(4-fold )k 折叉法
保留法(训练38个测试34个)
留一法(72个样本)
PLS-RFE
(4-fold )k 折叉法
保留法(训练38个测试34个)
参考文献:
[1]Golub T R ,Slonim D K ,Tamayo P ,et al.Molecular classification of
cancer :Class discovery and class prediction by gene expression (5439):1999,286531-537. monitoring[J].Science,[2]Nguyen D V ,Rocke D M.Tumor classification by partial least
squares using microarray gene expression data [J].Bioinformatics,(1):2002,1839-50.
Rocke D M.Multi-class cancer classification via par -[3]Nguyen D V ,
tial least squares with gene expression profiles [J].Bioinformatics,(9):2002,181216-1226.
[4]Nguyen D V ,Rocke D M.On partial least squares dimension re -
duction for microarray-based classification :A simulation study[J].(9):Computational Statistics &Data Analysis ,2004,46407-425.
Weston J ,Barnhill S ,et al.Gene selection for cancer clas -[5]Guyon I ,
sification using support vector machines[J].MachineLearning ,2000,46(13):389-422.
李颖新,李建更,等. 基于基因表达谱的肿瘤特异基因表达[6]阮晓钢,
模式研究[J].中国科学:(1):C 辑,2006,3686-96.
北京大学出版社,[7]高惠璇. 应用多元统计分析[M].北京:2005:265-277. [8]Massey W F.Principal components regression in exploratory statisti -
cal research[J].Journalof American Statistical Association ,1965,60:234-246. [9]Wold S ,Ruhe A ,Wold H ,et al.The collinearity problem in linear
)approach to generalized the partial least squares (PLS regression ,inverses[J].Journalof Statistics Computation ,1984,5:735-743.
[10]Lorber A ,Wangen L ,Kowalski B.A theoretical foundation for the
PLS algorithm[J].Journalof Chemometrics ,1987,1:19-31.
实验评价结果
(平均)选择特征数5.016.9595.016.419
误判数100100
备注误判样本#66随机50次表2误判样本#66随机50次表2
注训练与测试集100%识别时,平均选择最少的特征数。
5总结
在高维少样本数据的压缩中,PCA 能有效概括原数据的结
构特征,其优点是数据压缩充分,生成综合特征数少。但其不足在于所选取主成分与预测变量Y 无关,只针对解释变量X 去寻找对其解释重要的成分,与预测变量Y 相关性大却在解释变量X 中所占比例小的成分有可能被删除。而PLS 克服了这
Computer Engineering and Applications 计算机工程与应用2009,45(36)165
高维少样本数据的特征压缩
2
游文杰1,,吉国力1,袁明顺2
2,YOU Wen-jie 1,JI Guo-li 1,YUAN Ming-shun 2
福建厦门3610051. 厦门大学自动化系,
福建福清3503002. 福建师范大学福清分校,
1.Department of Automation ,Xiamen University ,Xiamen ,Fujian 361005,China
2.Fuqing Branch ,Fujian Normal University ,Fuqing ,Fujian 350300,China E-mail :[email protected]
YOU Wen-jie ,JI Guo-li ,YUAN Ming-shun.Feature reduction on high-dimensional small-sample data.Computer Engineering
(36):and Applications ,2009,45165-169. (GSS )is defined. Abstract :In view of the characteristics of small sample and high dimensional data ,Generalized Small Samples
(dimensionality extraction )and feature selection (dimensionality selection )It reduces information feature of GSS :feature extraction . (PCA )and supervised feature extraction based on Firstly ,unsupervised feature extraction based on Principal Component Analysis
(PLS )are introduced.Secondly ,analyzing the structure of first PC ,it presents new global PCA-based and PLS-Partial Least Squares
(PLS-RFE )is realized.Finally ,based feature selection approaches ,in addition recursive feature elimination on PLS the approaches are applied to the classification of MIT AML/ALL,it performs feature extraction on PCA and PLS ,and feature selection compared
with PLS-RFE.The information compression of GSS is realized.
(PCA );(PLS );Key words :generalized small sample ;Principal Component Analysis Partial Least Squares feature extraction ;feature
selection
摘要:针对一类高维少样本数据的特点,给出了广义小样本概念,对广义小样本进行信息特征压缩:特征提取(降维)和特征选择(选维)。首先介绍基于主成分分析(PCA )的无监督与基于偏最小二乘(PLS )的有监督的特征提取方法;其次通过分析第一成分结构,提出基于PCA 与PLS 的新的全局特征选择方法,并进一步提出基于PLS 的递归特征排除法(PLS-RFE );最后针对MIT AML/
实现基于PCA 与PLS 的特征选择和特征提取,以及PLS-RFE 特征选择与比较,达到广义小样本信息特征压缩ALL 的分类问题,
的目的。关键词:广义小样本;主成分分析(PCA );偏最小二乘(PLS );特征提取;特征选择
文章编号:(2009)文献标识码:中图分类号:DOI :10.3778/j.issn.1002-8331.2009.36.0491002-833136-0165-05A TP391
1前言
在许多复杂问题中,样本量的绝对数并不算小,但其相对
于数据的维数或参数个数而言,样本量就相当小。如20世纪
该技术使得研究人员可以同时90年代DNA 微阵列基因芯片,
测定成千上万个基因的表达水平,得到大量微阵列数据,该数据的特点是样本容量较小,而变量数(基因)非常多。再如,互联网的快速发展,网上出现大量文档数据,自动文本分类也成为处理海量数据的不可或缺的关键技术,其中对使用向量空间模型的分类器的最主要困难是高维的特征空间。这种高维小样本数据对随后的统计分析工作带来了前所未有的困难。
面对这种样本容量小而特征变量数非常多的高维数据,如何建立有效数学模型是一件非常困难的挑战。相对特征变量数而言,这种样本容量数显得非常小的数据,将其定义为广义小
样本。所谓广义小样本,是指一类样本容量n 远小于其变量维
数p ,表现为高维数据少样本容量情形。广义小样本是一相对概念,其实质是信息冗余与高噪声,其建模方法的有效性体现在小样本数据潜在信息的充分挖掘,在最大化数据有用信息量的情况下去除冗余与噪声。目前,在数据挖掘中还没有某种方法能普遍适用于各种特点的数据,许多挖掘算法在广义小样本时效率下降甚至失效。构造有效的信息特征压缩方法是广义小样本的一个研究方向。针对广义小样本数据,有两种方法进行信息特征压缩:特征抽取(降维)和特征选择(选维)。针对高维少样本数据的信息特征压缩问题,为加快特征选择过程,常根据单变量检验统计量的值进行排序(Ranking ),如
这种操作可能存在一种风险:忽t -检验或信噪比及其p 值[1-4],
略了特征间相关性及其非线性性。更为精确的方法是要考虑特
基金项目:高校博士点专项科研基金(No.[1**********]);福建省教育厅科技项目(No.JB08244)。
作者简介:游文杰(1974-),男,讲师,主要研究方向:统计计算;吉国力(1960-),男,教授,博士生导师,主要研究方向:系统工程理论方法与应用、
生物信息学等;袁明顺(1979-),男,硕士,主要研究方向:最优化理论与算法设计。
收稿日期:2009-08-24
修回日期:2009-10-09
1662009,45(36)Computer Engineering and Applications 计算机工程与应用
以及Y 被t 1解释后的残余信息进行第二次的潜变量t 2的提取。如此反复,直至达到满足精度要求。设n 个样本p 维指标X =[X 1,…,其X 2,X p ]与预测变量Y ,优化模型为:
≤≤≤≤≤≤Σ≤≤≤≤≤≤
征间的联合分布,即同时考虑所有的特征,允许检测那些具有较小主效应,但存在有较强交互效应的特征。该文给出了广义小样本概念,介绍了基于主成分分析(PCA )的无监督特征提取)的有监督特征提取两方法;通过分析与基于偏最小二乘(PLS
第一成分结构提出基于PCA 与PLS 的新的全局特征选择法,
[5-6])思想,并进一步提出基于PLS 的递借鉴递归特征排除(RFE
归特征排除法(PLS-RFE );最后,在数据集上实现基于PCA 与
(Xw i ,max cov Yc )i
s.t. w i ′w i =1;c i ′c i =1w i ′ΣX w j =0
实现广义小样本信息特征压缩。PLS 的特征抽取和特征选择,
2原理方法
(PCA )2.1主成分分析
它以较少的潜变PCA 是一种重要的无监督特征提取方法。
量(综合变量)去解释原有数据X 中大部分变异,将相关性较强的原变量X 转化为互相正交的潜变量T ,并从中选取较原变量个数少且能解释大量变异信息的几个新变量(降维),即所谓
使得在误差的主成分。其目标是在低维子空间表示高维数据,
主成分分平方和的意义下低维表示能够最好地描述原始数据。
析是构造原随机变量的一系列线性组合,使各线性组合不相关,且最大可能地包含原变量的信息,即方差最大。
设有n 个样本,每一样本观测p 个指标:…,X =[X 1,X 2,X p ],使X 的线性组合T =XW ,
≤
(X w )max var ≤i
≤≤≤s.t. w i ′w i =1≤≤≤
w i ′ΣX w j =0≤
1≤i
称线性组合T =XW 为主成分,其中ΣX =X ′X 。可以证明[7-8]以上优化问题的解w i 满足:
(λi I p -Σ)w i =0
(t )ΣX =X ′X λi =var λ1≥λ2≥…≥λp i 即优化问题的解w i 为:ΣX =X ′X 的特征值λi 所对应的特征向量也即权重向量W (weighing )可通过计算协方差阵ΣX 的特征w i 。
向量得到,λi 表示第i 个主成分的方差,w i 表示第i 个主轴(weighing )。主成分分析的目的之一是简化数据结构,在实际应用中一般选取m (m
定义1(解释贡献率、累计解释贡献率)称λk /Σλi 为主成分t k 的解释贡献率;
i =1p
≤
≤≤≤
c i ′ΣY c j =0
其中线性组合t i =Xw i 为第i 潜变量,ΣX =X ′X ,ΣY =Y ′Y 。
可以证明[9-10]以上优化问题的解(w i ,c )i 为:
ΣΣ最大特征值对应特征向量,i =1Σ(I -P )Σ(I -P )Σ最大特征值对应特征向量,i >1Σw ,i =1c =Σ(I -P )Σw ,i >1w i =
i
XY YX
X
XY
Y
YX
YX
i Y
YX
i
其中,
T T
(ΣX W )()()(ΣX W )P X =[ΣX W ΣX W ]-1
T T
(ΣY C )()()(ΣY C )P Y =[ΣY C ΣY C ]-1
(w ij ),(c ij )W =C =
在PLS 计算中所提取成分t h ,一面尽可能多地代表X 的变异信息;另一面又尽可能与Y 相关联,解释Y 中的信息。为测量t h 对X 和Y 的解释能力,定义t h 的各种解释能力如下。其中(r x i ,x )j 表示两变量间相关系数。
定义2(变异解释量、累计变异解释量)定义t h 对X 的变异解释能力:
2
称Rd (x j ;))为成分t h 对自变量x j 的变异解释量;t h =r (x j ,t h
1称Rd (X ;)t h =
p
(x ;为成分t t )ΣRd
j
h
j =1
m
p
h
对X 的变异解释量;
(X ;…,)(X ;)为成分t 1,…,称Rd t 1,t 2,t m =ΣRd t h t 2,t m 对X
h =1
的累计变异解释量;
称Rd (x j ;…,)(x j ;)为成分t 1,…,t 1,t 2,t m =ΣRd t h t 2,t m 对x j
h =1m
的累计变异解释量。
同理有,定义t h 对Y 的变异解释能力:
2
称Rd (y k ;))为成分t h 对自变量y k 的变异解释量;t h =r (y k ,t h
1称Rd (Y ;)t h =
q
(y ;为成分t t )ΣRd
k
h
k =1
m
q
h
对Y 的变异解释量;
称Σλk /Σλi 为主成分t 1,…,)的累计解释贡献率。t 2,t (m m
k =1
i =1
m p
称Rd (Y ;…,)(Y ;)为成分t 1,…,t 1,t 2,t m =ΣRd t h t 2,t m 对Y
h =1
累计解释贡献率刻画出m 个主成分提取X 1,…,X 2,X p 的解
释信息量。
的累计变异解释量;
称Rd (y k ;…,)(y k ;)为成分t 1,…,t 1,t 2,t m =ΣRd t h t 2,t m 对y k
h =1m
(PLS )2.2偏最小二乘
它通过主成分分析和综PLS 是一种有监督特征提取方法。
合变量的提取,利用对系统中的数据信息进行分解和筛选,提取对预测变量Y 解释性最强的综合变量,辨识系统中的信息与噪声,建立适当的模型。基于PLS 的信息特征压缩,在对解释变量数据集X 进行压缩的同时,顾及了与预测变量Y 的相关程度,其压缩结果将更具有实际意义。
PLS 在自变量集X 中提取第一潜变量t 1,t 1尽可能多提取
同时在Y 中提取第一潜变量u 1使t 1与u 1的相X 的变异信息;
若回归方程满关度最大;建立Y 与t 1的回归及X 与t 1的回归,
足精度要求,则算法结束。否则利用X 被t 1解释后的残余信息
的累计变异解释量。
3特征压缩
广义小样本数据的降维压缩方法:特征抽取(降维)和特征
选择(选维)。特征提取是将原始的特征空间投影到低维特征空间,投影后的潜在特征是原始特征的线性或者非线性组合,也即特征提取是要对原始的坐标系进行旋转,然后再选取若干重要的潜在特征,显然特征提取是一全局降维方法,当数据集是全局相关时效果较好。特征选择是通过一些标准的统计方法选择出对分类贡献最大的若干特征,它保持原数据主要特征基础
游文杰,吉国力,袁明顺:高维少样本数据的特征压缩
上将数据从高维转成低维,即从原始数据表中选择若干与任务
有关的显著特征而构成新的低维数据表,其优点是经特征选择后的数据表没有旋转,其结果易于解释。
2009,45(36)167
大。也即若只选取一个综合变量代替原始变量X ,则t 1是X 的最优选择。第一成分t 1对应于数据变异最大的方向,即t 1是使数据信息损失最小、精度最高的一维综合变量。所以从w 1系数符号上分析:系数绝对值较大,则表明该主成分主要综的大小、
合了绝对值大的特征变量,正号表示变量与主成分作用同向,则从负号表示原变量与主成分作用反向。若只选取第一成分,w 1系数中选择分量绝对值大的特征变量,实现基于PCA 的特
征选择。
3.2.2PLS 特征选择
同理,由2.2节的分析知,(1)PLS 建模中要求:t 1和u 1各自提取X 与Y 中尽可能多的变异信息;(2)t 1和u 1的相关性达到最大。也即若只选取一个潜变量代替原始变量X ,则t 1是X 的最优选择。第一成分t 1对应于数据集X 变异尽可能大的方向,即t 1是使数据集X 信息损失尽可能小、精度尽可能高的一维系数绝对值较大,则综合潜变量。所以从w 1系数的大小分析:
表明该成分主要综合了绝对值大的特征变量。若只选取第一成分,则从w 1系数中选择分量绝对值大的特征变量,实现基于PLS 的特征选择。
3.2.3PLS-RFE 特征选择
实际问题中,通常只有少量的特征是真正的与目标信息(如类别)相关,而大部分特征是与目标信息无关的“噪音”。在对目标信息进行分析时,过多的“噪音”特征将干扰有用信息,使计算出来的特征权值失真,影响特征排序的准确性。这里借鉴递归特征排除(RFE )思想,提出基于PLS 的递归特征排除法(Recursive Feature Elimination ),其步骤:(1)对特征PLS-RFE
集中的所有特征由3.2.2节中的PLS 方法进行特征重要性排序(Feature Ranking ),删除排列最后的特征;(2)余下特征重新由
再删除排列最后的特征;如此反复,直至保留特PLS 方法计算,
征集中的k 个特征,实现基于PLS-RFE 的特征选择。
(降维)3.1特征提取
常用的特征提取方法有:
(1)主成分分析(PCA ),它是一种重要的无监督统计分析
利用少数几个变量族的线性方法。它能将原始数据空间降维,
组合来解释高维变量的协方差结构,挑选最佳潜在特征子集,达到简化数据的目的。
(2)偏最小二乘法(PLS ),它是一种有监督的统计分析方法。它通过主成分分析和综合变量的提取,利用对系统中的数据信息进行分解和筛选,提取对预测变量解释性最强的综合变量,辨识系统中的信息与噪声,建立适当的模型。基于PLS 的信息特征压缩,在对解释变量数据集进行压缩的同时,顾及了与预测变量的相关程度,其压缩结果将更具有实际意义。3.1.1PCA 无监督特征提取
PCA 的特征提取步骤:
以n ×p (p >>n )矩阵X 表示;步骤1标准化数据集,
步骤2计算数据阵X 的前m 个主轴w (…,),其2,m i i =1,中m 的选取满足Σλk /Σλi ≥1-α,通常α取值满足1-α≥
k =1
i =1
m
p
0.85;
步骤3计算数据阵X 在前m 个主轴w (…,)上2,m i i =1,的得分T =(t ij )=,t ij 表示X i 在第j 个主轴上的投影;
步骤4得分阵T 代替原始阵X 进行相应操作(如判别分类等),性能评价。
3.1.2PLS 有监督特征提取
PLS 的特征提取步骤:步骤1数据阵X 以n ×p (p >>n )表示,编码类别阵Y 为n ×
[3]
(k 类别数);k
步骤2计算各成分贡献率及使用“舍一交叉”验证方法,计算预测残差平方和均方(PMPRESS )的最小值对应成分数,及PMPRESS 对应Prob >0.1的最小成分数。同时结合所提取成分对各个变量(自变量与因变量)的解释能力以及累积解释能力,以确定成分数nfac ;
(t ij )=步骤3计算前nfac 个成分对应的得分矩阵T =
,t ij 表示X i 在第j 个主轴上的投影;
步骤4得分阵T 代替原始阵X 进行相应操作(如判别分类等),性能评价。
4实验分析
4.1数据
急性白血病是儿童肿瘤中发病率占第一位的疾病,在临床上,根据白血病细胞的形态及组织化学染色表现,可将此病分)为急性淋巴细胞性白血病(Acute Lymphoblastic Leukemia ,ALL 以及急性髓细胞性白血病(Acute Myeloid Leukemia ,两AML )大类。急性白血病不论何种细胞类型,其主要临床表现大致相似,且白血病的初期症状可能不明显,与一般常见儿童疾病症状类似。所以对急性淋巴细胞性白血病与急性髓细胞性白血病的准确识别,对急性白血病的早期诊断和针对性治疗以及提高生存率和生存质量都有很大的帮助。美国麻省理工学院的Golub [1]等人使用高密度寡核苷酸阵列检测了7129个基因表达水平,原始训练数据包含38个样本(27个ALL ,);11个AML 测试数据包含34个样本(20个ALL ,)。Golub 等人14个AML 筛出50个基因,并根据38个训练样本构造了一个分类器,应用于34个新收集到的测试样本上,结果有29个样本被正确识别。
(选维)3.2特征选择
广义小样本问题的一个实际任务是:用最少的特征变量实
现最优的目标(如最大识别率)。也即选择数量少而携带信息量大的特征变量,一方面能最大地去除冗余与噪音,另一方面能大量减少实际操作成本。特征选择通常分为两个阶段,首先基于Filter 方法从成千上万的特征中筛选出一定量的特征,以降低搜索空间,其次基于Wrapper 方法进一步选出满足条件的显著特征子集。如何从众多特征中寻找一组最有效特征是问题的关键,以下提出基于PCA 与PLS 的新的全局特征选择方法,及基于PLS 的递归特征排除法(PLS-RFE )。3.2.1PCA 特征选择
由2.1节的分析,可得以下结论:设t 1是X 的第一主成分,
2
则t 1与原始数据阵X 的综合相关度最大,即Σρ(t 1,X )j =λ1最
j =1p
4.2实验
这里选择支持向量机(SVMs )作为分类器,基于Matlab 平
台的SVMs 工具箱OSU_SVM3.00,下载地址:http ://www.kernel-相应参数取默认值。methods.net/。选择线性核函数LinearSVC ,
首先,对数据集的所有特征分别采用基于PCA/PLS特征提取
1682009,45(36)Computer Engineering and Applications 计算机工程与应用
15
15
)X 解释量(/%
1050
1
2
3
4
5
6
7
8
9
10
贡献率()/%
10
5
)Y 解释量(/%
10
20
30
50
0100累计解释()/%
[1**********]
累计贡献率()/%
100
5050
X 解释Y 解释
5
(前10个)PLS 成分数序号
10
1020
(前30个)PCA 成分数序号
30
图1基于PCA/PLS的(累计) 贡献/解释与成分数之间的关系(训练集
)
(特征选择)选择前k (k =2,…,)个综合特征(信息特征);3,10
其次,将所选取的综合特征(信息特征)进行支持向量机(SVMs )分类训练;最后,分别在训练样本与测试样本上进行测试,计算识别率,并进行校验分析。4.2.1降维
并对所提取分别使用PCA 与PLS 方法来进行特征提取,
“潜变量”进行比较分析。步骤为:
(1)使用PCA (PLS )对数据集进行降维,以7129个基因表达水平为原始数据空间;
)结合各成分贡献率(图1)及SVMs 正确识别率,选择恰(2当的“综合特征”数。
表1为全部(7129个)特征经特征提取后的前10个“潜变量”的SVMs 识别结果:
表1
基于PCA/PLS的特征提取所选前10个“潜变量”的识别率
基于PCA 的识别率训练集1.00001.00001.00001.00001.00001.00001.00001.00001.0000
测试集0.88240.85290.85290.82350.85290.85290.70590.76470.7647
支持向量(1,)2(2,)2(2,)3(4,)2(2,)4(3,)5(4,)3(3,)4(4,)4
基于PLS 的识别率训练集0.86841.00001.00001.00001.00001.00001.00001.00001.0000
测试集
支持向量
)0.9706(12,11)0.9118(12,11)0.8824(13,11)0.9118(13,11)0.9118(13,11)0.9118(13,11)0.8824(16,11)0.8824(17,11)0.8824(14,11
别率明显优于PCA 的识别率。
从图1中知,成分数为2时所对应PCA 的变量变异解释
对应于PLS 对原变量变异的解释:解释自原始信息达到30%;
变量变异23%,同时解释因变量91%的信息。结合表1结论可知,在众多特征(7129个)中只有少量的特征是真正的与样本
“噪音”。在图1类别相关,而大部分特征是与样本类别无关的
中明显看出基于PCA/PLS第一成分所携带的信息量最大,故可以第一成分所刻画的权值进行特征选择。4.2.2选维
所由2.2节的分析,第一成分携带原数据变异信息最大,
以从第一成分权值(载荷)进行特征选择,系数绝对值较大,则表明该特征在解释第一成分时更重要,也即在解释原数据时贡献大,如图2。
0.05载荷
0-0.05
2000
特征数
4000
6000
成分数2345678910
(a )基于PCA 的第一成分在7129
个特征上的载荷
5载荷
0-5-10
2000
特征数
4000
6000
×10-7
分类器:(OSU_SVM3.00),线注数据集:MIT AML/ALL,SVMs
性核,参数默认
。
经PCA 与PLS 特征提取后的前k 个“综合特征”在SVMs
分类器的识别率如表1,在成分数为2时识别率最高:经PCA 特征提取后的训练集与测试集识别率分别为100%与88.24%,而经PLS 特征提取后的训练集与测试集识别率分别为86.84%与97.06%。这结论符合Nguyen [2-4]等提出的直接选取前3个综合特征的做法。并且当成分数增加时,基于PLS 的测试样本识
(b )基于PLS 的第一成分在7129个特征上的载荷图2第一成分上的载荷与特征变量之间的关系
以下就以基于PCA/PLS的第一成分权值进行特征选择。
具体步骤为:
(1)特征选择:基于PCA/PLS/PLS-RFE的特征选择方法进
游文杰,吉国力,袁明顺:高维少样本数据的特征压缩
表2基于PCA/PLS的特征选择所选前k 个特征的识别率
基于PCA 的特征选择
特征数[***********]157129
训练集()测试集()支持向量/%/%
71.186.886.886.881.692.192.[***********]0100100
58.873.588.285.347.161.879.485.388.285.373.591.279.479.497.1
(11,)10(5,)3)(4,4(4,)3(8,)2(7,)3(7,)4(4,)3(5,)3(4,)3)(4,4)(4,5(5,)5(5,)5(15,)7
基于PLS 的特征选择
)测试集()支持向量训练集(/%/%
84.289.[***********][***********]0100
85.376.594.179.494.191.291.210085.385.382.488.291.288.297.1
(4,)5(4,)5)(2,3(3,)3(3,)3(4,)3(5,)2(5,)3(7,)2(6,)3)(7,2)(8,2(7,)2(6,)3(15,)7
2009,45(36)169
基于PLS-RFE 的特征选择)测试集()支持向量训练集(/%/%
84.289.[***********][***********]0100
85.376.594.179.494.191.291.210085.385.382.488.291.288.297.1
(4,)5(4,)5)(2,3(3,)3(3,)3(4,)3(5,)2(5,)3(7,)2(6,)3)(7,2)(8,2(7,)2(6,)3(15,)7
注数据集:分类器:(OSU_SVM3.00),线性核,参数默认。MIT AML/ALL,SVMs
行特征筛选。选择前k (k =2,…,)个特征。3,15
(2)分类器:以支持向量机为分类器进行分类,选择线性核函数LinearSVC ,相应参数取默认值。
(3)计算识别率:分别在训练样本与测试样本上进行测试,计算识别率。结果如表2。
相比较于表1,显然在特征选择后PLS 与PLS-RFE 的识
也即在去除冗余与噪声后,分类器SVMs 表别率已达到100%,
现更优。同时,从表2知基于PCA 在选择13个特征时训练集
而基于PLS 与PLS-RFE 在全部识别,测试集识别达到91.2%;
选择9个与9个特征时训练集与测试集均全部正确识别。PLS 与PLS-RFE 方法的结果明显好于Golub 等人的结果。
些不足,其在对解释变量X 进行压缩时,顾及与预测变量Y 的相关程度。
文章对主成分降维和偏最小二乘降维进行讨论,并尝试利用主成分和偏最小二乘进行选维操作,提出基于PCA 与PLS 的特征选择及PLS-RFE 特征选择方法。并针对目前常用的基于单变量检验统计量的特征选择存在的不足,提出基于PCA 与PLS 的新的全局特征选择法,并借鉴递归特征排除(RFE )思想,提出基于PLS 的递归特征排除法(PLS-RFE );最后在数据集上实现基于PCA 与PLS 的特征抽取和特征选择,实现广义小样本信息特征压缩。
4.3评价
由SVMs 基于数据集MIT AML/ALL进行特征选择与分类,分别采用留一校验(LOOCV )算法、(k -fold CV )k -折叉校验算法和保留法(holdout )来评价文中的方法。结果如表3,其中
(4-fold )进行PLS-RFE 特征选择,平均选择6.41在k 折叉法
个特征时训练与测试均100%识别,结果好于PLS 的结果。在留一校验(LOOCV )法中,不论是PLS 还是PLS-RFE 均出现一个错分#66,这在Golub [1]等人的工作中同样错分了此样本,甚至有人[3]认为这些样本可能存在错误标记。
表3
特征选择算法
校验方法)留一法(72个样本
PLS
(4-fold )k 折叉法
保留法(训练38个测试34个)
留一法(72个样本)
PLS-RFE
(4-fold )k 折叉法
保留法(训练38个测试34个)
参考文献:
[1]Golub T R ,Slonim D K ,Tamayo P ,et al.Molecular classification of
cancer :Class discovery and class prediction by gene expression (5439):1999,286531-537. monitoring[J].Science,[2]Nguyen D V ,Rocke D M.Tumor classification by partial least
squares using microarray gene expression data [J].Bioinformatics,(1):2002,1839-50.
Rocke D M.Multi-class cancer classification via par -[3]Nguyen D V ,
tial least squares with gene expression profiles [J].Bioinformatics,(9):2002,181216-1226.
[4]Nguyen D V ,Rocke D M.On partial least squares dimension re -
duction for microarray-based classification :A simulation study[J].(9):Computational Statistics &Data Analysis ,2004,46407-425.
Weston J ,Barnhill S ,et al.Gene selection for cancer clas -[5]Guyon I ,
sification using support vector machines[J].MachineLearning ,2000,46(13):389-422.
李颖新,李建更,等. 基于基因表达谱的肿瘤特异基因表达[6]阮晓钢,
模式研究[J].中国科学:(1):C 辑,2006,3686-96.
北京大学出版社,[7]高惠璇. 应用多元统计分析[M].北京:2005:265-277. [8]Massey W F.Principal components regression in exploratory statisti -
cal research[J].Journalof American Statistical Association ,1965,60:234-246. [9]Wold S ,Ruhe A ,Wold H ,et al.The collinearity problem in linear
)approach to generalized the partial least squares (PLS regression ,inverses[J].Journalof Statistics Computation ,1984,5:735-743.
[10]Lorber A ,Wangen L ,Kowalski B.A theoretical foundation for the
PLS algorithm[J].Journalof Chemometrics ,1987,1:19-31.
实验评价结果
(平均)选择特征数5.016.9595.016.419
误判数100100
备注误判样本#66随机50次表2误判样本#66随机50次表2
注训练与测试集100%识别时,平均选择最少的特征数。
5总结
在高维少样本数据的压缩中,PCA 能有效概括原数据的结
构特征,其优点是数据压缩充分,生成综合特征数少。但其不足在于所选取主成分与预测变量Y 无关,只针对解释变量X 去寻找对其解释重要的成分,与预测变量Y 相关性大却在解释变量X 中所占比例小的成分有可能被删除。而PLS 克服了这