龙源期刊网 http://www.qikan.com.cn
决策树方法的研究进展
作者:曹宁 高莹 徐根祺
来源:《科技视界》2014年第20期
【摘 要】随着计算机硬件和软件的飞速发展,尤其是数据库技术与应用的日益普及,人们面临着快速扩张的数据海洋,如何有效利用这一丰富数据海洋的宝藏为人类服务,业已成为广大信息科技工作者所重点关注的焦点之一。为有效解决这一问题,自20世纪80年代开始,数据挖掘技术逐步发展起来。而分类作为数据挖掘中的一个重要的方法,目前的研究在商业上应用最多。决策树算法是分类的一种重要方法,同时也是一种典型的数据挖掘技术。本文分析了决策树方法的优缺点,同时也阐述了决策树方法在各个领域的研究进展。
【关键词】数据挖掘;决策树;进展研究
1 数据挖掘的应用背景
随着数据库技术的不断发展及数据库管理系统的推广应用,存储在数据库中的数据量急剧增大,大量数据背后必定蕴藏着许多信息,如何从数据库中抽取出有用信息逐渐成为商业界普遍关心的问题。数据挖掘的概念为解决这一问题而提出并在近年来引起学术界的广泛关注,成为学术研究的热点。
数据挖掘,又称数据库中的知识发现,是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的知识或模式,它是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。
数据挖掘的任务是从大量的数据中发现模式或知识。模式按其作用可分为两类:一类称为描述型模式,它是对数据中存在的规律做出描述。如泛化模式、聚类模式、关联模式及时间序列模式。另一类是预测型模式,它依据从己有数据获得的知识对未知数据的某些性质进行预测。包括分类模式和回归模式。其中,分类模式是一种重要的预测型模式。
用于挖掘分类模式的方法有很多,如决策树方法,贝叶斯网络,遗传算法,基于关联的分类方法,粗糙集,k-最临近方法,等等。其中决策树方法以其易被人理解、需要信息觅少、效率及准确率较高等优点占据着重要地位。决策树方法自产生至今,先后涌现出多种算法,包括ID3 、C4.5 、 CART, SLIQ、 SPRINTPUBLIC,基于人机交互的方法等。他们的共同特点是对训练样本集进行挖掘后都会生成一棵形如二叉树或多叉树的决策树。树的叶子节点代表某一类别,非叶节点,包括根节点及内节点代表某个一般属性(非类别属性)的一个测试,测试的一个结果形成非叶节点的一个分枝。从根节点到叶子节点的一条路径形成一条分类规则。一棵决策树能够很方便的转化为若干条分类规则。人们可以依据分类规则直观地对未知类别的样本进行预测。
龙源期刊网 http://www.qikan.com.cn
决策树方法的研究进展
作者:曹宁 高莹 徐根祺
来源:《科技视界》2014年第20期
【摘 要】随着计算机硬件和软件的飞速发展,尤其是数据库技术与应用的日益普及,人们面临着快速扩张的数据海洋,如何有效利用这一丰富数据海洋的宝藏为人类服务,业已成为广大信息科技工作者所重点关注的焦点之一。为有效解决这一问题,自20世纪80年代开始,数据挖掘技术逐步发展起来。而分类作为数据挖掘中的一个重要的方法,目前的研究在商业上应用最多。决策树算法是分类的一种重要方法,同时也是一种典型的数据挖掘技术。本文分析了决策树方法的优缺点,同时也阐述了决策树方法在各个领域的研究进展。
【关键词】数据挖掘;决策树;进展研究
1 数据挖掘的应用背景
随着数据库技术的不断发展及数据库管理系统的推广应用,存储在数据库中的数据量急剧增大,大量数据背后必定蕴藏着许多信息,如何从数据库中抽取出有用信息逐渐成为商业界普遍关心的问题。数据挖掘的概念为解决这一问题而提出并在近年来引起学术界的广泛关注,成为学术研究的热点。
数据挖掘,又称数据库中的知识发现,是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的知识或模式,它是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。
数据挖掘的任务是从大量的数据中发现模式或知识。模式按其作用可分为两类:一类称为描述型模式,它是对数据中存在的规律做出描述。如泛化模式、聚类模式、关联模式及时间序列模式。另一类是预测型模式,它依据从己有数据获得的知识对未知数据的某些性质进行预测。包括分类模式和回归模式。其中,分类模式是一种重要的预测型模式。
用于挖掘分类模式的方法有很多,如决策树方法,贝叶斯网络,遗传算法,基于关联的分类方法,粗糙集,k-最临近方法,等等。其中决策树方法以其易被人理解、需要信息觅少、效率及准确率较高等优点占据着重要地位。决策树方法自产生至今,先后涌现出多种算法,包括ID3 、C4.5 、 CART, SLIQ、 SPRINTPUBLIC,基于人机交互的方法等。他们的共同特点是对训练样本集进行挖掘后都会生成一棵形如二叉树或多叉树的决策树。树的叶子节点代表某一类别,非叶节点,包括根节点及内节点代表某个一般属性(非类别属性)的一个测试,测试的一个结果形成非叶节点的一个分枝。从根节点到叶子节点的一条路径形成一条分类规则。一棵决策树能够很方便的转化为若干条分类规则。人们可以依据分类规则直观地对未知类别的样本进行预测。