基于马氏距离和H―K聚类的空值估计研究

  摘 要:传统的基于欧氏距离和K-means聚类算法的空值估计算法容易因为欧氏距离对量纲的敏感性和初始聚类中心对K-means聚类效果的影响产生估值误差。将层次聚类算法和K-means聚类算法有机结合起来的H-K聚类算法克服了K-means算法对初始聚类中心的敏感性,从而改善了聚类效果。与欧氏距离不同,马氏距离可以避免量纲的影响。为此提出一种改进的空值估计算法,将H-K聚类应用到空值估计算法中进行聚类,在聚类时采用马氏距离代替欧氏距离,在聚类后使用多元线性回归法计算样本中的空值。实验结果表明改进后的空值估计算法使得估计值的绝对误差率(MAER)得到降低。   关键词:K-means算法;层次聚类;H-K聚类算法;马氏距离;空值估计   中图分类号:TP391.41   随着大数据时代的到来,发展日新月异的数据库技术和各类信息系统应用使得生活中数据的采集和存储日益便利,这为数据的海量化和复杂化奠定了基础。然而,爆炸式增长的数据中存在不完全数据的现象非常普遍,这使得一个具有表示和处理不完全数据能力的数据库系统不仅具有现实意义,更具有应用价值。   国外对不完全数据的研究起步较早,最早出现在全美的社会保险错误纠正[ ],此后又出现了许多重要研究成果。1975年,ANSI(American National Standards Institute)在内部报告中提出用一种特殊的空值[ ](null value)来表示这些不完全信息,奠定了处理不完全信息的基础。国内的相关研究起步较晚,尽管在部分学术期刊上也能见到这方面的文章,但直接针对缺失数据的原创性研究较少。台湾学者Chen、Huang等人提出了各种基于神经网络、统计学习和遗传算法等估计空值的方法[ ],但是其计算过程比较复杂,得到的结论也不太容易让人理解,并且这些方法在确定相关联属性时,主观性色彩都太浓。早期具有代表性的成果有:金勇进在1998年探讨处理缺失数据时对辅助信息的利用问题[ ]和庞新生在2004年对多重填补算法的深入探讨和对多重插补法处理的基本思想[ ]。2006年乔珠峰使用朴素贝叶斯分类模型进行缺失值处理[ ],2009年梁怡详细描述了均值填补法,并引入时间序列插补法进行了改进[ ]。   数据分类是空值估计算法中最重要的步骤,它直接影响含空值样本的分类和空值的估计。数据分类的算法有很多,其中比较经典的有K-means(K-均值)聚类算法和层次聚类算法。其中,K-means聚类算法有着广泛的应用,但是传统的K-means聚类算法只能保证收敛到局部最优,故而聚类结果对初始聚类中心的选择非常敏感;凝聚层次聚类虽无需选择初始的聚类中心,但是其计算复杂度较高并且凝聚过程不可逆。Chen Tung-Shou等人提出的结合了两种算法各自特点的H-K聚类算法[ ](Hierarchical K-means),即通过层次聚类算法获得初始聚类中心而用K-means完善聚类过程,收到了更好的聚类效果。   无论是聚类还是估值,其精确度受到计算出的元组和聚类簇之间的距离的影响。传统的估值算法采用的是欧氏距离。欧氏距离对数据的量纲敏感,而马氏距离则可以克服量纲影响。   根据上述介绍,本文在已有的基于K-means聚类的空值估计算法的基础上,在聚类方面改用结合了层次聚类和K-means聚类的H-K聚类算法,并且在聚类和估值中采用马氏距离代替欧氏距离;在估值方面则采用多元线性回归法估计空值。本文提出的算法通过改善聚类效果降低估值误差率,达到优化目标。   1 基本算法   1.1 K-means聚类算法。K-means聚类算法是基于划分的聚类算法,在目前的聚类分析中应用最为广泛。K-means聚类的基本思想是首先从n个对象元素中任意选取K个作为初始聚类中心并计算剩余对象与这K个聚类中心的相似度(距离),将他们分配给与其最为相似(距离最短)的聚类,然后重新计算对应聚类的聚类中心。如此重复进行,直到标准测度函数(一般选取均方差作为标准测度函数)收敛为止。   K-means聚类算法的流程如下:   1.2 层次聚类。本论文提出的算法中采用了层次聚类方法中的AGNES(Agglomerative Nesting)算法。在聚类开始时先将每个对象作为一个簇,然后采用单连接(single-linkage)的方法计算簇间距离,即簇间距离等于两簇对象之间的最小距离,最后将距离最近的两个簇合并。聚类的合并过程反复进行直到所有的对象最终合并得到指定的簇数目。   层次聚类算法的流程如下:   输入:包含n个对象的数据集,算法终止时的簇数K。   输出:K个簇。   步骤1。将每个对象当成一个初始簇。   步骤2。根据两个簇中最近的对象找到最近的两个簇。   步骤3。合并最近的两个簇生成新的簇。   步骤4。若达到条件终止的簇数目则聚类完成;否则转到步骤2继续执行。   层次聚类算法的聚类质量较好,但是运算的时间复杂度和空间复杂度均较高。   1.3 H-K聚类算法。H-K聚类算法结合K-means聚类和层次聚类的优点,对K-means算法进行部分改进,得到了更高的运算效率和更好的聚类效果。H-K聚类算法首先采用层次聚类算法计算出初始聚类中心,再使用K-means聚类算法完善聚类结果,得到指定数目的簇。   H-K聚类算法的流程如下:   输入:包含n个对象的数据集,算法终止时的簇数K。   输出:K个簇。   步骤1。用1.2中所述的层次聚类算法求出初始聚类中心。   步骤2。用步骤1求出的聚类中心代替随机生成的聚类中心作为1.1中所述的K-means聚类算法的初始聚类中心,通过K-means的进一步聚类,求出K个簇。   1.4 多元线性回归算法。   步骤1。用一个解释变量表示所有可能的回归,检查其中一个拥有最大t值的变量,如果此时它对独立数据集合Y的贡献值低于实验设定值,则结束这个算法。   步骤2。如果存在一个t值高于实验指定t值的变量,并且它对当前的独立数据集Y的贡献最大,则将它作为下一个输入变量。   步骤3。如果存在一个t值低于实验指定t值的变量,并且它对当前的独立数据集Y的贡献最小,则将它作为下一个输出变量。   步骤4。重复上述步骤2、3,直到所有的对独立数据集合Y的贡献符合实验要求,二代变量被计算执行。   2 改进的空值估计算法   传统的空值估计算法是基于K-means聚类算法和欧氏距离的,本文给出一种基于引入马氏距离的H-K聚类算法的改进算法。   2.1 马氏距离替代欧式距离。马氏距离是由印度统计学家马哈拉诺比斯于1936年引入的,故称为马氏距离。这一距离在多元统计分析中起着十分重要的作用,下面给出定义。   2.2 基于马氏距离和H-K聚类算法的空值估计算法。由于欧氏距离对量纲的敏感性和传统K-means聚类对初始聚类中心的依赖性,本文将马氏距离引入H-K(Hierarchical K-means)聚类算法进行聚类,并采用多元线性回归法估计样本中的空值。具体的空值估计算法流程表示如下:   输入:数据集D,聚类簇个数K。   输出:样本中出现的空值的估值结果。   步骤1。对数据集进行预处理,使其便于在聚类时进行计算。   步骤2。用层次聚类算法进行聚类(采用马氏距离),求出所有的聚类中心Ci,i=1,…,N。   步骤3。将得到的这些聚类中心作为K-means聚类的初始聚类中心进行K-means聚类(采用马氏距离),得到K个聚类簇。   步骤4。计算含空值样本与各簇之间的马氏距离,求出距离最近的簇Ci。   步骤5。计算回归系数(即关联属性与待估计属性之间的影响力系数)和待估计样本与簇Ci之间的偏移量。   步骤6。根据回归系数和偏移量计算出待估计样本中空值的估计值。   3 实验与分析   实验环境:Windows 7操作系统,内存:2G;编程语言:Visual C++。   实验选用的数据集描述如下:   3.1 实验说明。(1)数据预处理过程中将对象“性别”,“身高”,“体重”,“肺活量”作为独立变量(Independent Variables,IV),将“耐力项目测试”作为相关变量(Dependent Variables,DV)。其中对象“耐力项目测试”中含有部分空值 。将“性别”转换为数值型数据以便于分析,其中“男”用1表示,“女”用“2”表示。将“耐力项目测试”的字符串型数据也转换为相应的数值型数据;(2)使用2所述的H-K聚类算法根据属性建立聚类簇,计算出空值元组所在聚类Ci和相应的回归系数(IV各属性和聚类Ci所对应的DV值之间的影响度βCi,IV);(3)假设聚类Ci中第j个元组的贡献向量是(Gij,Hij,Wij,Vij,Eij)(1 j m,m是Ci中的元组数),其中G,H,W,V,E分别代表“性别”,“身高”,“体重”,“肺活量”,“耐力项目测试”。ΔIVDVi代表DV每发生一个单位的改变时,聚类 中各项的改变量。由此可得计算估计值Eestimated的公式:Eestimated=Ecenter-i+∑ΔIVDVi×(IVi-IVcenter-i),1≤i≤K;其中center-i是聚类Ci的聚类中心;(4)计算MAER值衡量空值估计数值Eestimated的准确性,以下是MAER的计算公式: 其中Eoriginal表示该空值对应的真实值,n表示测试数据的元组个数。   3.2 实验结果与分析。由表2可得结合马氏距离和H-K聚类的空值估计算法的MAER值为1.41%,略小于结合欧氏距离和H-K聚类的空值估计算法的MAER值1.63%,同样小于采用欧氏距离和传统K-means聚类的空值估计算法的MAER值1.97%,所以结合马氏距离和H-K聚类的空值估计算法在本例中估值效果最好。   4 结束语   传统的基于欧氏距离和K-means聚类的空值估计算法在聚类时容易受到数据的量纲和随机的初始聚类中心影响。本文提出的改进的空值估计算法采用马氏距离代替了欧氏距离,并使用结合了层次聚类的H-K聚类算法代替了传统的K-means聚类算法,在实验中得到了更好的聚类效果和误差率MAER值更低的空值估计值。除了以上优点,H-K聚类算法在计算复杂性上存在不足,其计算复杂性高于传统K-means算法,需要在今后做进一步的优化。   参考文献:   [1]BATISTA G E,MENARDS M C.A study of K-nearest neighbor as a model-based method to treat missing data[J].Proceedings of the Argentine Symposium on Artificial Intelligence,2003(30):1-9.   [2]C.ZANIOLO.Database relations with null values[J].Proceedings of the 1st ACM SIGACT-SIGMOD Symposium on Principles of Database Systems,Los Angeles,California,U.S.A.,ACM Press,1982:27-33.   [3]S.M.CHEN,C.M.HUANG.Generating weighted fuzzy rules from relational database systems for estimating null values using genetic algorithms[J].IEEE Transactions on Fuzzy Systems,2003(04):495-506.   [4]金勇进.处理缺失数据中辅助信息的利用[J].统计研究,1998(01):43-45.   [5]庞新生.缺失数据处理中相关问题的探讨[J].统计与信息论坛,2004(19):30-33.   [6]乔珠峰,田凤占,黄厚宽.缺失数据处理方法的比较研究[J].计算机研究与发展,2006(43):171-175.   [7]梁怡.缺失数据的插补调整方法[J].西安文理学院学报,2009(12):74-76.   [8]CHEN TUNG-SHOU,TSAR TZU-HSIN,CHEN YI-TZU.A combined K-means and hierarchical clustering efficiency of microarray[A].Proceedings of 2005 International Symposium on Intelligent Signal Processing and Communication System[C],2005.   [9]ANUPAMA CHADHA,SURESH KUMAR.An improved K-means clustering algorithm:a step forward for removal of dependency on K[A].2014 International Conference on Reliability,Optimization and Information Technology[C],2014.   [10]PRITHA MAHATA.Exploratory consensus of hierarchical clusterings for melanoma and breast cancer[J].IEEE/ACM Transactions on Computational Biology and Bioinformatics,2010(07):138-152.   [11]JASVINDER KAUR,GAURAV GUPTA.Optimized clustering algorithm with hybrid K-Means and hierarchical algorithms[J].International Journal for Multi-Disciplinary Engineering and Business Management,2014(02).   [12]WANG LING,FU DONGMEI,LI QING,MU ZHICHUN.Modeling method with missing values based on clustering and support vector regression[J].Journal of Systems Engineering and Electronics,2010(21):142-147.   [13]M.EMRE CELEBI,HASSAN A.KINGRAVI,PATRICIO A.VELA.Acomparative study of efficient initialization methods for the K-means clustering algorithm[J].Expert Systems with Applications,2013(40):200-210.   [14]Ton J.CLEOPHAS,AEILKO H.ZWINDERMAN.Hierarchical clustering and K-means clustering to identify subgroups in surveys(50 patients)[J].Machine Learning in Medicine-Cookbook,2014.   作者简介:陈睿进(1994-),女,安徽合肥人,本科,研究方向:数据挖掘。   作者单位:南京航空航天大学 计算机科学与技术学院,南京 211106;计算机软件新技术国家重点实验室(南京大学),南京 210093

  摘 要:传统的基于欧氏距离和K-means聚类算法的空值估计算法容易因为欧氏距离对量纲的敏感性和初始聚类中心对K-means聚类效果的影响产生估值误差。将层次聚类算法和K-means聚类算法有机结合起来的H-K聚类算法克服了K-means算法对初始聚类中心的敏感性,从而改善了聚类效果。与欧氏距离不同,马氏距离可以避免量纲的影响。为此提出一种改进的空值估计算法,将H-K聚类应用到空值估计算法中进行聚类,在聚类时采用马氏距离代替欧氏距离,在聚类后使用多元线性回归法计算样本中的空值。实验结果表明改进后的空值估计算法使得估计值的绝对误差率(MAER)得到降低。   关键词:K-means算法;层次聚类;H-K聚类算法;马氏距离;空值估计   中图分类号:TP391.41   随着大数据时代的到来,发展日新月异的数据库技术和各类信息系统应用使得生活中数据的采集和存储日益便利,这为数据的海量化和复杂化奠定了基础。然而,爆炸式增长的数据中存在不完全数据的现象非常普遍,这使得一个具有表示和处理不完全数据能力的数据库系统不仅具有现实意义,更具有应用价值。   国外对不完全数据的研究起步较早,最早出现在全美的社会保险错误纠正[ ],此后又出现了许多重要研究成果。1975年,ANSI(American National Standards Institute)在内部报告中提出用一种特殊的空值[ ](null value)来表示这些不完全信息,奠定了处理不完全信息的基础。国内的相关研究起步较晚,尽管在部分学术期刊上也能见到这方面的文章,但直接针对缺失数据的原创性研究较少。台湾学者Chen、Huang等人提出了各种基于神经网络、统计学习和遗传算法等估计空值的方法[ ],但是其计算过程比较复杂,得到的结论也不太容易让人理解,并且这些方法在确定相关联属性时,主观性色彩都太浓。早期具有代表性的成果有:金勇进在1998年探讨处理缺失数据时对辅助信息的利用问题[ ]和庞新生在2004年对多重填补算法的深入探讨和对多重插补法处理的基本思想[ ]。2006年乔珠峰使用朴素贝叶斯分类模型进行缺失值处理[ ],2009年梁怡详细描述了均值填补法,并引入时间序列插补法进行了改进[ ]。   数据分类是空值估计算法中最重要的步骤,它直接影响含空值样本的分类和空值的估计。数据分类的算法有很多,其中比较经典的有K-means(K-均值)聚类算法和层次聚类算法。其中,K-means聚类算法有着广泛的应用,但是传统的K-means聚类算法只能保证收敛到局部最优,故而聚类结果对初始聚类中心的选择非常敏感;凝聚层次聚类虽无需选择初始的聚类中心,但是其计算复杂度较高并且凝聚过程不可逆。Chen Tung-Shou等人提出的结合了两种算法各自特点的H-K聚类算法[ ](Hierarchical K-means),即通过层次聚类算法获得初始聚类中心而用K-means完善聚类过程,收到了更好的聚类效果。   无论是聚类还是估值,其精确度受到计算出的元组和聚类簇之间的距离的影响。传统的估值算法采用的是欧氏距离。欧氏距离对数据的量纲敏感,而马氏距离则可以克服量纲影响。   根据上述介绍,本文在已有的基于K-means聚类的空值估计算法的基础上,在聚类方面改用结合了层次聚类和K-means聚类的H-K聚类算法,并且在聚类和估值中采用马氏距离代替欧氏距离;在估值方面则采用多元线性回归法估计空值。本文提出的算法通过改善聚类效果降低估值误差率,达到优化目标。   1 基本算法   1.1 K-means聚类算法。K-means聚类算法是基于划分的聚类算法,在目前的聚类分析中应用最为广泛。K-means聚类的基本思想是首先从n个对象元素中任意选取K个作为初始聚类中心并计算剩余对象与这K个聚类中心的相似度(距离),将他们分配给与其最为相似(距离最短)的聚类,然后重新计算对应聚类的聚类中心。如此重复进行,直到标准测度函数(一般选取均方差作为标准测度函数)收敛为止。   K-means聚类算法的流程如下:   1.2 层次聚类。本论文提出的算法中采用了层次聚类方法中的AGNES(Agglomerative Nesting)算法。在聚类开始时先将每个对象作为一个簇,然后采用单连接(single-linkage)的方法计算簇间距离,即簇间距离等于两簇对象之间的最小距离,最后将距离最近的两个簇合并。聚类的合并过程反复进行直到所有的对象最终合并得到指定的簇数目。   层次聚类算法的流程如下:   输入:包含n个对象的数据集,算法终止时的簇数K。   输出:K个簇。   步骤1。将每个对象当成一个初始簇。   步骤2。根据两个簇中最近的对象找到最近的两个簇。   步骤3。合并最近的两个簇生成新的簇。   步骤4。若达到条件终止的簇数目则聚类完成;否则转到步骤2继续执行。   层次聚类算法的聚类质量较好,但是运算的时间复杂度和空间复杂度均较高。   1.3 H-K聚类算法。H-K聚类算法结合K-means聚类和层次聚类的优点,对K-means算法进行部分改进,得到了更高的运算效率和更好的聚类效果。H-K聚类算法首先采用层次聚类算法计算出初始聚类中心,再使用K-means聚类算法完善聚类结果,得到指定数目的簇。   H-K聚类算法的流程如下:   输入:包含n个对象的数据集,算法终止时的簇数K。   输出:K个簇。   步骤1。用1.2中所述的层次聚类算法求出初始聚类中心。   步骤2。用步骤1求出的聚类中心代替随机生成的聚类中心作为1.1中所述的K-means聚类算法的初始聚类中心,通过K-means的进一步聚类,求出K个簇。   1.4 多元线性回归算法。   步骤1。用一个解释变量表示所有可能的回归,检查其中一个拥有最大t值的变量,如果此时它对独立数据集合Y的贡献值低于实验设定值,则结束这个算法。   步骤2。如果存在一个t值高于实验指定t值的变量,并且它对当前的独立数据集Y的贡献最大,则将它作为下一个输入变量。   步骤3。如果存在一个t值低于实验指定t值的变量,并且它对当前的独立数据集Y的贡献最小,则将它作为下一个输出变量。   步骤4。重复上述步骤2、3,直到所有的对独立数据集合Y的贡献符合实验要求,二代变量被计算执行。   2 改进的空值估计算法   传统的空值估计算法是基于K-means聚类算法和欧氏距离的,本文给出一种基于引入马氏距离的H-K聚类算法的改进算法。   2.1 马氏距离替代欧式距离。马氏距离是由印度统计学家马哈拉诺比斯于1936年引入的,故称为马氏距离。这一距离在多元统计分析中起着十分重要的作用,下面给出定义。   2.2 基于马氏距离和H-K聚类算法的空值估计算法。由于欧氏距离对量纲的敏感性和传统K-means聚类对初始聚类中心的依赖性,本文将马氏距离引入H-K(Hierarchical K-means)聚类算法进行聚类,并采用多元线性回归法估计样本中的空值。具体的空值估计算法流程表示如下:   输入:数据集D,聚类簇个数K。   输出:样本中出现的空值的估值结果。   步骤1。对数据集进行预处理,使其便于在聚类时进行计算。   步骤2。用层次聚类算法进行聚类(采用马氏距离),求出所有的聚类中心Ci,i=1,…,N。   步骤3。将得到的这些聚类中心作为K-means聚类的初始聚类中心进行K-means聚类(采用马氏距离),得到K个聚类簇。   步骤4。计算含空值样本与各簇之间的马氏距离,求出距离最近的簇Ci。   步骤5。计算回归系数(即关联属性与待估计属性之间的影响力系数)和待估计样本与簇Ci之间的偏移量。   步骤6。根据回归系数和偏移量计算出待估计样本中空值的估计值。   3 实验与分析   实验环境:Windows 7操作系统,内存:2G;编程语言:Visual C++。   实验选用的数据集描述如下:   3.1 实验说明。(1)数据预处理过程中将对象“性别”,“身高”,“体重”,“肺活量”作为独立变量(Independent Variables,IV),将“耐力项目测试”作为相关变量(Dependent Variables,DV)。其中对象“耐力项目测试”中含有部分空值 。将“性别”转换为数值型数据以便于分析,其中“男”用1表示,“女”用“2”表示。将“耐力项目测试”的字符串型数据也转换为相应的数值型数据;(2)使用2所述的H-K聚类算法根据属性建立聚类簇,计算出空值元组所在聚类Ci和相应的回归系数(IV各属性和聚类Ci所对应的DV值之间的影响度βCi,IV);(3)假设聚类Ci中第j个元组的贡献向量是(Gij,Hij,Wij,Vij,Eij)(1 j m,m是Ci中的元组数),其中G,H,W,V,E分别代表“性别”,“身高”,“体重”,“肺活量”,“耐力项目测试”。ΔIVDVi代表DV每发生一个单位的改变时,聚类 中各项的改变量。由此可得计算估计值Eestimated的公式:Eestimated=Ecenter-i+∑ΔIVDVi×(IVi-IVcenter-i),1≤i≤K;其中center-i是聚类Ci的聚类中心;(4)计算MAER值衡量空值估计数值Eestimated的准确性,以下是MAER的计算公式: 其中Eoriginal表示该空值对应的真实值,n表示测试数据的元组个数。   3.2 实验结果与分析。由表2可得结合马氏距离和H-K聚类的空值估计算法的MAER值为1.41%,略小于结合欧氏距离和H-K聚类的空值估计算法的MAER值1.63%,同样小于采用欧氏距离和传统K-means聚类的空值估计算法的MAER值1.97%,所以结合马氏距离和H-K聚类的空值估计算法在本例中估值效果最好。   4 结束语   传统的基于欧氏距离和K-means聚类的空值估计算法在聚类时容易受到数据的量纲和随机的初始聚类中心影响。本文提出的改进的空值估计算法采用马氏距离代替了欧氏距离,并使用结合了层次聚类的H-K聚类算法代替了传统的K-means聚类算法,在实验中得到了更好的聚类效果和误差率MAER值更低的空值估计值。除了以上优点,H-K聚类算法在计算复杂性上存在不足,其计算复杂性高于传统K-means算法,需要在今后做进一步的优化。   参考文献:   [1]BATISTA G E,MENARDS M C.A study of K-nearest neighbor as a model-based method to treat missing data[J].Proceedings of the Argentine Symposium on Artificial Intelligence,2003(30):1-9.   [2]C.ZANIOLO.Database relations with null values[J].Proceedings of the 1st ACM SIGACT-SIGMOD Symposium on Principles of Database Systems,Los Angeles,California,U.S.A.,ACM Press,1982:27-33.   [3]S.M.CHEN,C.M.HUANG.Generating weighted fuzzy rules from relational database systems for estimating null values using genetic algorithms[J].IEEE Transactions on Fuzzy Systems,2003(04):495-506.   [4]金勇进.处理缺失数据中辅助信息的利用[J].统计研究,1998(01):43-45.   [5]庞新生.缺失数据处理中相关问题的探讨[J].统计与信息论坛,2004(19):30-33.   [6]乔珠峰,田凤占,黄厚宽.缺失数据处理方法的比较研究[J].计算机研究与发展,2006(43):171-175.   [7]梁怡.缺失数据的插补调整方法[J].西安文理学院学报,2009(12):74-76.   [8]CHEN TUNG-SHOU,TSAR TZU-HSIN,CHEN YI-TZU.A combined K-means and hierarchical clustering efficiency of microarray[A].Proceedings of 2005 International Symposium on Intelligent Signal Processing and Communication System[C],2005.   [9]ANUPAMA CHADHA,SURESH KUMAR.An improved K-means clustering algorithm:a step forward for removal of dependency on K[A].2014 International Conference on Reliability,Optimization and Information Technology[C],2014.   [10]PRITHA MAHATA.Exploratory consensus of hierarchical clusterings for melanoma and breast cancer[J].IEEE/ACM Transactions on Computational Biology and Bioinformatics,2010(07):138-152.   [11]JASVINDER KAUR,GAURAV GUPTA.Optimized clustering algorithm with hybrid K-Means and hierarchical algorithms[J].International Journal for Multi-Disciplinary Engineering and Business Management,2014(02).   [12]WANG LING,FU DONGMEI,LI QING,MU ZHICHUN.Modeling method with missing values based on clustering and support vector regression[J].Journal of Systems Engineering and Electronics,2010(21):142-147.   [13]M.EMRE CELEBI,HASSAN A.KINGRAVI,PATRICIO A.VELA.Acomparative study of efficient initialization methods for the K-means clustering algorithm[J].Expert Systems with Applications,2013(40):200-210.   [14]Ton J.CLEOPHAS,AEILKO H.ZWINDERMAN.Hierarchical clustering and K-means clustering to identify subgroups in surveys(50 patients)[J].Machine Learning in Medicine-Cookbook,2014.   作者简介:陈睿进(1994-),女,安徽合肥人,本科,研究方向:数据挖掘。   作者单位:南京航空航天大学 计算机科学与技术学院,南京 211106;计算机软件新技术国家重点实验室(南京大学),南京 210093


相关内容

  • 基于马氏距离判别法的脑电图数据分析的研究
  • 摘要:目的:本文通过对客观记录的受试者脑电图数据进行马氏距离判别分析,判断其能否应用于脑电数据特征提取和分类决策.为脑电图研究的其它分析做基础分析.方法:根据α波的强弱不同将21导电极分为四类,分别对63例正常状态下受试者21导联电极的脑电图数据进行马氏距离判别分析,并利用误判率回代估计法检验判别准 ...

  • 距离判别分析及其评价
  • 2012年4月第29卷第2期长治学院学报 JournalofChangzhiUniversityApr.,2012Vol.29,No.2 距离判别分析及其评价 翟明娟 (长治学院数学系,山西长治046011) 摘 要:距离判别分析是多元统计分析中常用的判别法之一,其广泛应用于各个领域,文章在判别 准 ...

  • 遥感图像分类
  • 1 引言 随着卫星遥感图像和航空遥感图片分辨率的不断提高, 人们可以从遥感图像中获得更多的有用的数据和信息. 伴随着"数字地球"概念的提出, 越来越多的民用场合需要用到遥感图像, 包括资源调查, 自然灾害观测.大气气象预报等.由于不同场合遥感图像的应用对遥感图像处理提出了不同的要 ...

  • 神经元的形态分类和识别热身训练
  • 神经元的形态分类和识别 摘要 本文通过主成分分析法对神经元几何形态特征进行分析,得到判断的几何特征主成分,之后计算样本的马氏距离对未知类型的神经元进行了归类,得到了一种对神经细胞根据几何形态特征进行分类的步骤方法. 首先,我们对swc 数据进行了处理,以数据中的七个样本点为基础得到了衡量神经元几何特 ...

  • 基于MCMC方法的贝叶斯统计推断
  • 基础及前沿研究 Fundamentalandfrontierresearch 中国科技信息2012年第10期 CHINASCIENCE AND TEC帆OGY INFORMATIONM_y.2012 DOI:10.3969/j.issn.1001-8972.2012.10.024 基于MCMC方法的 ...

  • 应用马氏漏斗测定钻井液流变参数
  • 第31卷 第5期 2014年 9月 钻 井 液 与 完 井 液 DRILLING FLUID & COMPLETION FLUID V ol. 31 No.5Sept. 2014 doi: 10.3969/j.issn.1001-5620.2014.05.017 应用马氏漏斗测定钻井液流变参 ...

  • GCr15轴承钢的球化退火组织鉴别
  • GCr15轴承钢的球化退火组织鉴别 时间:2009-07-04 点击: 摘 要:探讨了原始组织正常的热轧GCr15钢经球化退火后的组织特征及其评 级问题.针对生产实际及检验中出现的问题,制定球化退火工艺,找出工艺与球化组织形态特征的对应关系,以便较正确地评定GCr15钢的球化退火组织级别. 主题词: ...

  • 距离判别法xin
  • 距离判别法 距离判别的思想是由训练样本得出每个分类的重心(中心)坐标, 然后对新样品求出它们离各个类别重心的距离远近,从而归入离的最近的分类,,最常用的距离是马氏距离. 距离判别的特点是直观.简单,适合于对自变量均为连续变量的情况进行分类,且它对变量的分布类型无严格要求,特别是并不严格要求总体协方差 ...

  • Bootstrap在商业银行资产负债评价中的运用
  • 摘 要:Bootstrap方法是一种利用样本信息来估计总体的非参方法,聚类分析方法是将样本或变量进行归类评价的一种多元统计方法.基于bootstrap抽样法和系统聚类技术对我国部分商业银行的资产负债况进行分析,聚类结果将各个商业银行的资产负债情况分为3类. 关键词:bootstrap:聚类分析:商业 ...