2004年5月安庆师范学院学报(自然科学版)
JournalofAnqingTeachersCollege(NaturalScience)May.2004第10卷第2期
ΞΞ.10NO.2Vol
数据挖掘中的模糊聚类分析及其应用
梁伍七, 江克勤
(1安徽广播电视大学, 安徽合肥230022;2安庆师范学院计算机系, 安徽安庆246011)
摘 要:数据挖掘是一种新兴的信息处理技术,模糊聚类是数据挖掘领域中的一个重要研究课题。论文从数
据挖掘的概念出发,研究分析了模糊聚类的主要算法,并从多个方面对这些算法性能进行比较,同时还对模糊聚
类分析在数据挖掘中的应用进行了阐述,最后对模糊聚类的研究领域进行了总结和展望。
关键词:数据挖掘;模糊聚类;聚类算法
中图分类号: TP18 文献标识码:A 文章编号:1007-4260(2004)02-0065-03
数据挖掘(datamining)是指从存放在数据库、数据仓库或其他信息库的大量数据中提取隐含的、未知的、潜在有用的,以及最终可理解的信息或模式的过程。所谓聚类就是按照事物的某些属性将事物聚成类,使类间的相似性尽量小,类内的相似性尽量大。聚类是一个无监督的学习过程,分类是有监督的学习过程,两者的根本区别在于:分类时需要事先知道分类所依据的属性值,而聚类是要找到这个分类属性值。传统的聚类分析是一种硬划分,它把每个待辨识的对象严格地划分到某个类中,这种分类的界限是分明的。但客观世界中大量存在着界限并不分明的聚类问题,它们的类属和性态存在着中介性,适合软划分,Zadeh[1]提出的模糊集理论为这种软划分提供了有力的分析工具,人们开始用模糊的方法来处理聚类问题,并称之为模糊聚类分析。常用的模糊聚类方法有传递闭包法、动态直接聚类法、最大树法、基于摄动的模糊聚类方法FCMBP、系统聚类法、模糊C-均值法和模糊ISODATA算法。以下就上述算法的实现途径、有效性度量方式以及在实际中的应用等方面综述模糊聚类方法的研究进展。
1、传递闭包算法
基于模糊相似关系的模糊聚类,首先要建立模糊相似矩阵,建立模糊相似矩阵的关键是标定相似系数。相似系数反映了样本之间相对于某些属性的相似程度。设O={x1,x2,...,xn}为被分类对象的全体,以(xi1,xi2...xim)表示每一个对象xi的特征数据,可用数量积法、夹角余弦法和统计相关系数法等方法确定相似系数,建立模糊相似矩阵。数量积法用式(1)计算相似系数。
1
rij=Mi=jikm∑x
k=1xjk M=maxi≠ji≠j∑xk=1mikxjk(1)
模糊相似矩阵R的传递闭包R3是包含R的最小模糊等价矩阵,传递闭包法是根据R的传递闭包进行聚类的。传递闭包法的计算量是n3~n3log2n。动态直接聚类法根据模糊相似矩阵求其基元,再画出动态聚类图或以集合方式写出各水平下的聚类结果,其计算量是n2+nk,k是连接元的数目。最大树法根据模糊相似矩阵画出最大树再进行聚类,最大树的画法有Prim法和Kruskal法,用Prim法至多进行3~n3log2n次运算。传递闭包法、动态直接聚类法和最大树法的聚n次运算,用Kruskal法至多进行n3
2
类结果是相同的,但动态直接聚类法的计算量比较小。
2、基于摄动的模糊聚类方法FCMBP
基于模糊相似矩阵R的传递闭包R3得到的聚类能否真实地反映原始问题在理论上缺乏保障,这Ξ
ΞΞ收稿日期:2003-11-11作者简介:梁伍七(1969-),男,安徽怀宁人,安徽广播电视大学讲师,主要研究方向为人工智能、算法设计和面向对象程序设计。
就是所谓的模糊聚类的“失真”问题。为解决这一问题,李洪兴、汪培庄[2]提出了模糊相似矩阵方程X2=
[3]“失真”最小的模糊等价矩X,并给出了它的解法。何清等对这种方程解的结构作进一步的研究,证明
阵R#的存在性。用R3和R#进行模糊聚类其聚类图是不同的,FCMBP聚类法具有数据失真小和分类精细可靠的特点,FCMBP聚类法比传递闭包法计算量大,故在分类精度要求较高,但对实时性要求不高的情形下,FCMBP聚类具有显著的优越性。
3、系统聚类法
系统聚类法先将n个样本各自看成一类,然后规定样本之间的距离和类与类之间的距离。开始时各个样本自成一类,类与类之间的距离和样本与样本之间的距离是相等的,选择距离最近的一对合并为一个新类。计算新类和其他类的距离,再将距离最近的两类合并,这样每次减少一类,直到所有的样品都归为一类为止。类与类之间的距离常用的有最短距离、最长距离和中间距离等,虽然距离定义方式不同,但每种系统聚类法的并类原则和步骤是完全相同的,以下给出最短距离法的系统聚类算法[4]。
用dij表示样本i和样本j的距离,C1,C2,...表示类,定义类与类之间的距离为两类最近样本的距离,用Dpq表示Cp和Cq之间的距离,Dpq=mindij,最短距离系统聚类算法表述如下。i∈Cp,j∈Cq
(1)计算样本两两距离的对称阵D(0),开始每个样本自成一类,因此Dpq=dpq。
(2)选择D(0)的最小元素,设为Dpq,将Cp和Cq合并为类Cr,Cr={CpCq}。
(3)按式(2)计算新类与其他类之间的距离。将D(0)中p,q行p,q列合并为一个新行新列,新行新列对应Cr,所得到的矩阵记为D(1)。
Drk=i∈Cr,j∈Ckmindij=min{mindij,mindij}=min{Dpk,Dqk}i∈Cp,j∈Cki∈Cq,j∈Ck(2)
(4)对D(1)重复上面对D(0)的两步,得到D(2),如此下去直到所有的元素聚为一类。如果某一步中最小的元素不止一个,则对应这些最小元素的类同时合并。
4、模糊C均值聚类算法(FuzzyC-means,FCM)
该算法是由BezdekJC[5]和DunnJC[6]提出的,用隶属度确定每个样本属于某个聚类程度的聚类算法。FCM算法如下:将特征空间X={x1,x2,...,xn}划分为c个模糊组,可用模糊隶属矩阵U=(uij)∈Rcn表示,U中的数据uij表示第j(j=1,2,...,n)个样本属于第i(i=1,2,...,c)个类的隶属度,uij应满足式(3):
cc∑u=i=1ij1,Πj=1,2,...,n;uij∈[0,1]Πi,j;
cn∑u>j=1ij0,Πi=1,2,...,c(3) Bezdek[7]将Dunn[6]定义的目标函数J(U,C1,...Cc)算法推广到更一般的情况:
Jm(U,c1,...ci)=∑∑ui=1j=1mijdij2;(4) 式(4)中ci∈Rn为模糊组i的聚类中心,dij=‖xj-ci‖为第i个聚类中心与第j个样本的欧几里德距离,dij2(xj,ci)=(xj-ci)TA(xj-ci),目标函数Jm(U,c1,...ci)为某个样本到相应的聚类中心的加权距离平均和;m∈[1,∞]是一个模糊加权指数,用来控制隶属矩阵的模糊程度。目前m的选择大多来自实验或经验,一般取1.1≤m≤5。FCM算法是一个使目标函数Jm(U,c1,...ci)最小化的迭代收敛过程。
5、模糊聚类的应用研究
5.1 模糊聚类在市场营销业中的应用: 市场营销业利用数据挖掘技术进行市场定位和消费分析,辅助制定市场策略。通过对客户数据库中的数据进行聚类分析,可以开展包括对客户类型、各类客户的需求倾向、客户流失的分析,对商品市场占有率预测、市场拓展计划仿真,成本和收入、风险控制和经营策略研究的分析;可以找出现有客户的特征分布和消费习惯,以争取潜在客户并制定策略调整不利的市场营销方案。目前企业已从“以产品为中心”转变为“以客户为中心”,在这种经营理念的影响下,对现有客户和潜在客户的培养和挖掘正成为企业成功的关键。
5.2 模糊聚类在金融业中的应用: 数据挖掘在金融领域应用广泛,包括金融市场分析和预测、客户分类、银行担保和信用评估等。这些金融业务都需要收集和处理大量数据,很难通过人工或使用一两个小型软件就能进行分析预测,而数据挖掘则可以通过对已有数据的处理,找到数据对象的特征及彼此之间的关系,利用模糊聚类分析法对客户进行分类,阻止产生坏账,防范金融欺诈,挖掘优质客户,让金融业更了解客户,为各种客户量身定做,设计更好的金融品种来满足客户需要,运用估计和预测的方法进行市场动向分析,可以从历史数据中分析市场走向,并预测观察到金融市场的变化趋势。
5.3 模糊聚类在医药学中的应用 在医药研究中,应用较多的是用模糊聚类法将中药进行分类
和鉴别。例如,在鉴定药材的品质时,需要区分人工种植品和野生品种以及异地栽培品种和地道药材,有时需要从成药中鉴别药材的品种及品质,从而保证药品的质量。应用模糊聚类的方法还可以对引种品种的生物学特性、原产地的环境因素、气候条件、土壤结构等各种信息进行处理,预测出异地栽培的产量和适应性,结合品种选育和种植过程的模糊控制,可缩短异地栽培适应性研究的过程和时间。中药指纹图谱强调的是同一药材群体的相似性,而不是药材个体的唯一性,强调的是准确辨认某类药材,而不是辨认每种药材是否相同,模糊聚类恰好符合以上特征要求,因此用模糊聚类的方法处理药材指纹图谱的信息,有助于指纹图谱的快速建立并实现指纹图谱的自动化识别。
5.4 模糊聚类在模式识别中的应用 特征提取是模式识别中的一个重要问题,模糊聚类能从原始数据中直接提取特征,还能对已经得到的特征进行优选和降维操作;提取完特征后就需要分类器设计,模糊聚类算法既可以提供最近邻原型分类器,还可以用来进行特征空间划分和模糊规则提取,以构造基于模糊IF-THEN规则的分类器;在线条检测或物体识别中,模糊聚类既可以直接用于原始数据上,也可以用于变换域中,比如Hough变换中峰值检测问题一直困绕着其推广应用,基于模糊聚类的峰值检测方法解决了这一问题,使得Hough变换可以自动执行。在一些模式识别的具体应用中,模糊聚类取得了较好的效果,比如语音识别中的分类和匹配;雷达目标识别中目标库的建立和新到目标的归类;汉字字符识别中的字符预分类等。
5.5 模糊聚类在图像处理中的应用 图像处理是计算机视觉的重要组成部分,由于人眼视觉的主观性使图像比较适合用模糊手段处理,同时训练样本图像的匮乏又需要无监督分析,而模糊聚类正好满足这两方面的要求,因此模糊聚类成为图像处理中一个重要的研究分析工具。图像分割是模糊聚类在图像处理中最为广泛的应用,图像分割本质上就是象素的无监督分类问题,Coleman和Andrews在1979年就提出用聚类算法进行图像分割,此后基于二维直方图、塔型结构和小波分析等一系列新技术,人们相继提出了多种基于模糊聚类的灰度图像分割新方法,该方法在纹理图像分割、彩色图像分割、序列图像分割、遥感图像分割等方面获得了很大的进展。基于模糊聚类的方法在图像压缩、曲线拟合、边缘检测、图像增强等方面的研究同样取得了丰硕的成果。
[参考文献]
[1] ZadehLA.Fuzzysets[J].InformationandControl,1965,8:338-353.
[2] 李洪兴,汪培庄.基于摄动的Fuzzy聚类方法[J].数学季刊,1988,3(1):9-19.
[3] 何清.模糊聚类分析理论与应用研究进展[J].模糊系统与数学,1998,12(2):89-94.
[4] 史忠植.知识发现[M].北京:清华大学出版社,2002.
[5] BezdekJC.FuzzyMathematicsinPatternClassification.PHDthesis[J].AppliedMath.Center,CornellUniversity,Ithaca,1973.
[6] DunnJC.AfuzzyrelativeoftheISODATAprocessanditsuseindetectingcompactwell-separatedclusters[J].Journalof
Cybernetics,1973,3(1):32-57.
[7] BezdekJC.PatternRecognitionwithFuzzyObjectiveFunctionAlgorithms[M].NewYork,PlenumPress,1981,43-93.
[8] 行小帅,焦李成.数据挖掘的聚类方法[J].电路与系统学报,2003,8(1).
ResearchonFuzzyClusterAnalysisandApplicationinDataMining
LIANGWu2qi,JIANGKe2qin12
(1AnhuiTVUniversity,Hefei230022,China;2AnqingTeachersCollege,Anqing246011,China)
Abstract:Dataminingisapromisingnewtechnologytotransactinformation,andclusteranalysisis
animportantresearchtopicindatamining.Thispaperfirstlydescribestheconceptionofdata
mining,analysestheprimealgorithmoffuzzycluster,comparesthealgorithmcapability,and
expatiatesontheapplicationofthefuzzyclusteranalysisindatamining.Finallyitputsforward
.summarizationandprospectintherealmoffuzzyclusteranalysis
Keywords:datamining;fuzzycluster;clusteralgorithm
2004年5月安庆师范学院学报(自然科学版)
JournalofAnqingTeachersCollege(NaturalScience)May.2004第10卷第2期
ΞΞ.10NO.2Vol
数据挖掘中的模糊聚类分析及其应用
梁伍七, 江克勤
(1安徽广播电视大学, 安徽合肥230022;2安庆师范学院计算机系, 安徽安庆246011)
摘 要:数据挖掘是一种新兴的信息处理技术,模糊聚类是数据挖掘领域中的一个重要研究课题。论文从数
据挖掘的概念出发,研究分析了模糊聚类的主要算法,并从多个方面对这些算法性能进行比较,同时还对模糊聚
类分析在数据挖掘中的应用进行了阐述,最后对模糊聚类的研究领域进行了总结和展望。
关键词:数据挖掘;模糊聚类;聚类算法
中图分类号: TP18 文献标识码:A 文章编号:1007-4260(2004)02-0065-03
数据挖掘(datamining)是指从存放在数据库、数据仓库或其他信息库的大量数据中提取隐含的、未知的、潜在有用的,以及最终可理解的信息或模式的过程。所谓聚类就是按照事物的某些属性将事物聚成类,使类间的相似性尽量小,类内的相似性尽量大。聚类是一个无监督的学习过程,分类是有监督的学习过程,两者的根本区别在于:分类时需要事先知道分类所依据的属性值,而聚类是要找到这个分类属性值。传统的聚类分析是一种硬划分,它把每个待辨识的对象严格地划分到某个类中,这种分类的界限是分明的。但客观世界中大量存在着界限并不分明的聚类问题,它们的类属和性态存在着中介性,适合软划分,Zadeh[1]提出的模糊集理论为这种软划分提供了有力的分析工具,人们开始用模糊的方法来处理聚类问题,并称之为模糊聚类分析。常用的模糊聚类方法有传递闭包法、动态直接聚类法、最大树法、基于摄动的模糊聚类方法FCMBP、系统聚类法、模糊C-均值法和模糊ISODATA算法。以下就上述算法的实现途径、有效性度量方式以及在实际中的应用等方面综述模糊聚类方法的研究进展。
1、传递闭包算法
基于模糊相似关系的模糊聚类,首先要建立模糊相似矩阵,建立模糊相似矩阵的关键是标定相似系数。相似系数反映了样本之间相对于某些属性的相似程度。设O={x1,x2,...,xn}为被分类对象的全体,以(xi1,xi2...xim)表示每一个对象xi的特征数据,可用数量积法、夹角余弦法和统计相关系数法等方法确定相似系数,建立模糊相似矩阵。数量积法用式(1)计算相似系数。
1
rij=Mi=jikm∑x
k=1xjk M=maxi≠ji≠j∑xk=1mikxjk(1)
模糊相似矩阵R的传递闭包R3是包含R的最小模糊等价矩阵,传递闭包法是根据R的传递闭包进行聚类的。传递闭包法的计算量是n3~n3log2n。动态直接聚类法根据模糊相似矩阵求其基元,再画出动态聚类图或以集合方式写出各水平下的聚类结果,其计算量是n2+nk,k是连接元的数目。最大树法根据模糊相似矩阵画出最大树再进行聚类,最大树的画法有Prim法和Kruskal法,用Prim法至多进行3~n3log2n次运算。传递闭包法、动态直接聚类法和最大树法的聚n次运算,用Kruskal法至多进行n3
2
类结果是相同的,但动态直接聚类法的计算量比较小。
2、基于摄动的模糊聚类方法FCMBP
基于模糊相似矩阵R的传递闭包R3得到的聚类能否真实地反映原始问题在理论上缺乏保障,这Ξ
ΞΞ收稿日期:2003-11-11作者简介:梁伍七(1969-),男,安徽怀宁人,安徽广播电视大学讲师,主要研究方向为人工智能、算法设计和面向对象程序设计。
就是所谓的模糊聚类的“失真”问题。为解决这一问题,李洪兴、汪培庄[2]提出了模糊相似矩阵方程X2=
[3]“失真”最小的模糊等价矩X,并给出了它的解法。何清等对这种方程解的结构作进一步的研究,证明
阵R#的存在性。用R3和R#进行模糊聚类其聚类图是不同的,FCMBP聚类法具有数据失真小和分类精细可靠的特点,FCMBP聚类法比传递闭包法计算量大,故在分类精度要求较高,但对实时性要求不高的情形下,FCMBP聚类具有显著的优越性。
3、系统聚类法
系统聚类法先将n个样本各自看成一类,然后规定样本之间的距离和类与类之间的距离。开始时各个样本自成一类,类与类之间的距离和样本与样本之间的距离是相等的,选择距离最近的一对合并为一个新类。计算新类和其他类的距离,再将距离最近的两类合并,这样每次减少一类,直到所有的样品都归为一类为止。类与类之间的距离常用的有最短距离、最长距离和中间距离等,虽然距离定义方式不同,但每种系统聚类法的并类原则和步骤是完全相同的,以下给出最短距离法的系统聚类算法[4]。
用dij表示样本i和样本j的距离,C1,C2,...表示类,定义类与类之间的距离为两类最近样本的距离,用Dpq表示Cp和Cq之间的距离,Dpq=mindij,最短距离系统聚类算法表述如下。i∈Cp,j∈Cq
(1)计算样本两两距离的对称阵D(0),开始每个样本自成一类,因此Dpq=dpq。
(2)选择D(0)的最小元素,设为Dpq,将Cp和Cq合并为类Cr,Cr={CpCq}。
(3)按式(2)计算新类与其他类之间的距离。将D(0)中p,q行p,q列合并为一个新行新列,新行新列对应Cr,所得到的矩阵记为D(1)。
Drk=i∈Cr,j∈Ckmindij=min{mindij,mindij}=min{Dpk,Dqk}i∈Cp,j∈Cki∈Cq,j∈Ck(2)
(4)对D(1)重复上面对D(0)的两步,得到D(2),如此下去直到所有的元素聚为一类。如果某一步中最小的元素不止一个,则对应这些最小元素的类同时合并。
4、模糊C均值聚类算法(FuzzyC-means,FCM)
该算法是由BezdekJC[5]和DunnJC[6]提出的,用隶属度确定每个样本属于某个聚类程度的聚类算法。FCM算法如下:将特征空间X={x1,x2,...,xn}划分为c个模糊组,可用模糊隶属矩阵U=(uij)∈Rcn表示,U中的数据uij表示第j(j=1,2,...,n)个样本属于第i(i=1,2,...,c)个类的隶属度,uij应满足式(3):
cc∑u=i=1ij1,Πj=1,2,...,n;uij∈[0,1]Πi,j;
cn∑u>j=1ij0,Πi=1,2,...,c(3) Bezdek[7]将Dunn[6]定义的目标函数J(U,C1,...Cc)算法推广到更一般的情况:
Jm(U,c1,...ci)=∑∑ui=1j=1mijdij2;(4) 式(4)中ci∈Rn为模糊组i的聚类中心,dij=‖xj-ci‖为第i个聚类中心与第j个样本的欧几里德距离,dij2(xj,ci)=(xj-ci)TA(xj-ci),目标函数Jm(U,c1,...ci)为某个样本到相应的聚类中心的加权距离平均和;m∈[1,∞]是一个模糊加权指数,用来控制隶属矩阵的模糊程度。目前m的选择大多来自实验或经验,一般取1.1≤m≤5。FCM算法是一个使目标函数Jm(U,c1,...ci)最小化的迭代收敛过程。
5、模糊聚类的应用研究
5.1 模糊聚类在市场营销业中的应用: 市场营销业利用数据挖掘技术进行市场定位和消费分析,辅助制定市场策略。通过对客户数据库中的数据进行聚类分析,可以开展包括对客户类型、各类客户的需求倾向、客户流失的分析,对商品市场占有率预测、市场拓展计划仿真,成本和收入、风险控制和经营策略研究的分析;可以找出现有客户的特征分布和消费习惯,以争取潜在客户并制定策略调整不利的市场营销方案。目前企业已从“以产品为中心”转变为“以客户为中心”,在这种经营理念的影响下,对现有客户和潜在客户的培养和挖掘正成为企业成功的关键。
5.2 模糊聚类在金融业中的应用: 数据挖掘在金融领域应用广泛,包括金融市场分析和预测、客户分类、银行担保和信用评估等。这些金融业务都需要收集和处理大量数据,很难通过人工或使用一两个小型软件就能进行分析预测,而数据挖掘则可以通过对已有数据的处理,找到数据对象的特征及彼此之间的关系,利用模糊聚类分析法对客户进行分类,阻止产生坏账,防范金融欺诈,挖掘优质客户,让金融业更了解客户,为各种客户量身定做,设计更好的金融品种来满足客户需要,运用估计和预测的方法进行市场动向分析,可以从历史数据中分析市场走向,并预测观察到金融市场的变化趋势。
5.3 模糊聚类在医药学中的应用 在医药研究中,应用较多的是用模糊聚类法将中药进行分类
和鉴别。例如,在鉴定药材的品质时,需要区分人工种植品和野生品种以及异地栽培品种和地道药材,有时需要从成药中鉴别药材的品种及品质,从而保证药品的质量。应用模糊聚类的方法还可以对引种品种的生物学特性、原产地的环境因素、气候条件、土壤结构等各种信息进行处理,预测出异地栽培的产量和适应性,结合品种选育和种植过程的模糊控制,可缩短异地栽培适应性研究的过程和时间。中药指纹图谱强调的是同一药材群体的相似性,而不是药材个体的唯一性,强调的是准确辨认某类药材,而不是辨认每种药材是否相同,模糊聚类恰好符合以上特征要求,因此用模糊聚类的方法处理药材指纹图谱的信息,有助于指纹图谱的快速建立并实现指纹图谱的自动化识别。
5.4 模糊聚类在模式识别中的应用 特征提取是模式识别中的一个重要问题,模糊聚类能从原始数据中直接提取特征,还能对已经得到的特征进行优选和降维操作;提取完特征后就需要分类器设计,模糊聚类算法既可以提供最近邻原型分类器,还可以用来进行特征空间划分和模糊规则提取,以构造基于模糊IF-THEN规则的分类器;在线条检测或物体识别中,模糊聚类既可以直接用于原始数据上,也可以用于变换域中,比如Hough变换中峰值检测问题一直困绕着其推广应用,基于模糊聚类的峰值检测方法解决了这一问题,使得Hough变换可以自动执行。在一些模式识别的具体应用中,模糊聚类取得了较好的效果,比如语音识别中的分类和匹配;雷达目标识别中目标库的建立和新到目标的归类;汉字字符识别中的字符预分类等。
5.5 模糊聚类在图像处理中的应用 图像处理是计算机视觉的重要组成部分,由于人眼视觉的主观性使图像比较适合用模糊手段处理,同时训练样本图像的匮乏又需要无监督分析,而模糊聚类正好满足这两方面的要求,因此模糊聚类成为图像处理中一个重要的研究分析工具。图像分割是模糊聚类在图像处理中最为广泛的应用,图像分割本质上就是象素的无监督分类问题,Coleman和Andrews在1979年就提出用聚类算法进行图像分割,此后基于二维直方图、塔型结构和小波分析等一系列新技术,人们相继提出了多种基于模糊聚类的灰度图像分割新方法,该方法在纹理图像分割、彩色图像分割、序列图像分割、遥感图像分割等方面获得了很大的进展。基于模糊聚类的方法在图像压缩、曲线拟合、边缘检测、图像增强等方面的研究同样取得了丰硕的成果。
[参考文献]
[1] ZadehLA.Fuzzysets[J].InformationandControl,1965,8:338-353.
[2] 李洪兴,汪培庄.基于摄动的Fuzzy聚类方法[J].数学季刊,1988,3(1):9-19.
[3] 何清.模糊聚类分析理论与应用研究进展[J].模糊系统与数学,1998,12(2):89-94.
[4] 史忠植.知识发现[M].北京:清华大学出版社,2002.
[5] BezdekJC.FuzzyMathematicsinPatternClassification.PHDthesis[J].AppliedMath.Center,CornellUniversity,Ithaca,1973.
[6] DunnJC.AfuzzyrelativeoftheISODATAprocessanditsuseindetectingcompactwell-separatedclusters[J].Journalof
Cybernetics,1973,3(1):32-57.
[7] BezdekJC.PatternRecognitionwithFuzzyObjectiveFunctionAlgorithms[M].NewYork,PlenumPress,1981,43-93.
[8] 行小帅,焦李成.数据挖掘的聚类方法[J].电路与系统学报,2003,8(1).
ResearchonFuzzyClusterAnalysisandApplicationinDataMining
LIANGWu2qi,JIANGKe2qin12
(1AnhuiTVUniversity,Hefei230022,China;2AnqingTeachersCollege,Anqing246011,China)
Abstract:Dataminingisapromisingnewtechnologytotransactinformation,andclusteranalysisis
animportantresearchtopicindatamining.Thispaperfirstlydescribestheconceptionofdata
mining,analysestheprimealgorithmoffuzzycluster,comparesthealgorithmcapability,and
expatiatesontheapplicationofthefuzzyclusteranalysisindatamining.Finallyitputsforward
.summarizationandprospectintherealmoffuzzyclusteranalysis
Keywords:datamining;fuzzycluster;clusteralgorithm