决策树方法的研究进展

龙源期刊网 http://www.qikan.com.cn

决策树方法的研究进展

作者:曹宁 高莹 徐根祺

来源:《科技视界》2014年第20期

【摘 要】随着计算机硬件和软件的飞速发展,尤其是数据库技术与应用的日益普及,人们面临着快速扩张的数据海洋,如何有效利用这一丰富数据海洋的宝藏为人类服务,业已成为广大信息科技工作者所重点关注的焦点之一。为有效解决这一问题,自20世纪80年代开始,数据挖掘技术逐步发展起来。而分类作为数据挖掘中的一个重要的方法,目前的研究在商业上应用最多。决策树算法是分类的一种重要方法,同时也是一种典型的数据挖掘技术。本文分析了决策树方法的优缺点,同时也阐述了决策树方法在各个领域的研究进展。

【关键词】数据挖掘;决策树;进展研究

1 数据挖掘的应用背景

随着数据库技术的不断发展及数据库管理系统的推广应用,存储在数据库中的数据量急剧增大,大量数据背后必定蕴藏着许多信息,如何从数据库中抽取出有用信息逐渐成为商业界普遍关心的问题。数据挖掘的概念为解决这一问题而提出并在近年来引起学术界的广泛关注,成为学术研究的热点。

数据挖掘,又称数据库中的知识发现,是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的知识或模式,它是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。

数据挖掘的任务是从大量的数据中发现模式或知识。模式按其作用可分为两类:一类称为描述型模式,它是对数据中存在的规律做出描述。如泛化模式、聚类模式、关联模式及时间序列模式。另一类是预测型模式,它依据从己有数据获得的知识对未知数据的某些性质进行预测。包括分类模式和回归模式。其中,分类模式是一种重要的预测型模式。

用于挖掘分类模式的方法有很多,如决策树方法,贝叶斯网络,遗传算法,基于关联的分类方法,粗糙集,k-最临近方法,等等。其中决策树方法以其易被人理解、需要信息觅少、效率及准确率较高等优点占据着重要地位。决策树方法自产生至今,先后涌现出多种算法,包括ID3 、C4.5 、 CART, SLIQ、 SPRINTPUBLIC,基于人机交互的方法等。他们的共同特点是对训练样本集进行挖掘后都会生成一棵形如二叉树或多叉树的决策树。树的叶子节点代表某一类别,非叶节点,包括根节点及内节点代表某个一般属性(非类别属性)的一个测试,测试的一个结果形成非叶节点的一个分枝。从根节点到叶子节点的一条路径形成一条分类规则。一棵决策树能够很方便的转化为若干条分类规则。人们可以依据分类规则直观地对未知类别的样本进行预测。

龙源期刊网 http://www.qikan.com.cn

决策树方法的研究进展

作者:曹宁 高莹 徐根祺

来源:《科技视界》2014年第20期

【摘 要】随着计算机硬件和软件的飞速发展,尤其是数据库技术与应用的日益普及,人们面临着快速扩张的数据海洋,如何有效利用这一丰富数据海洋的宝藏为人类服务,业已成为广大信息科技工作者所重点关注的焦点之一。为有效解决这一问题,自20世纪80年代开始,数据挖掘技术逐步发展起来。而分类作为数据挖掘中的一个重要的方法,目前的研究在商业上应用最多。决策树算法是分类的一种重要方法,同时也是一种典型的数据挖掘技术。本文分析了决策树方法的优缺点,同时也阐述了决策树方法在各个领域的研究进展。

【关键词】数据挖掘;决策树;进展研究

1 数据挖掘的应用背景

随着数据库技术的不断发展及数据库管理系统的推广应用,存储在数据库中的数据量急剧增大,大量数据背后必定蕴藏着许多信息,如何从数据库中抽取出有用信息逐渐成为商业界普遍关心的问题。数据挖掘的概念为解决这一问题而提出并在近年来引起学术界的广泛关注,成为学术研究的热点。

数据挖掘,又称数据库中的知识发现,是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的知识或模式,它是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。

数据挖掘的任务是从大量的数据中发现模式或知识。模式按其作用可分为两类:一类称为描述型模式,它是对数据中存在的规律做出描述。如泛化模式、聚类模式、关联模式及时间序列模式。另一类是预测型模式,它依据从己有数据获得的知识对未知数据的某些性质进行预测。包括分类模式和回归模式。其中,分类模式是一种重要的预测型模式。

用于挖掘分类模式的方法有很多,如决策树方法,贝叶斯网络,遗传算法,基于关联的分类方法,粗糙集,k-最临近方法,等等。其中决策树方法以其易被人理解、需要信息觅少、效率及准确率较高等优点占据着重要地位。决策树方法自产生至今,先后涌现出多种算法,包括ID3 、C4.5 、 CART, SLIQ、 SPRINTPUBLIC,基于人机交互的方法等。他们的共同特点是对训练样本集进行挖掘后都会生成一棵形如二叉树或多叉树的决策树。树的叶子节点代表某一类别,非叶节点,包括根节点及内节点代表某个一般属性(非类别属性)的一个测试,测试的一个结果形成非叶节点的一个分枝。从根节点到叶子节点的一条路径形成一条分类规则。一棵决策树能够很方便的转化为若干条分类规则。人们可以依据分类规则直观地对未知类别的样本进行预测。


相关内容

  • 群体决策研究综述
  • 2013年第5期第29卷(总317期) 吉林省教育学院学报 JOURNALOFEDUCATIONALINSTITUTEOFJILINPROVINCE No.5,2013 Vol.29TotalNo.317 群体决策研究综述 耿亚勤 (郑州大学,河南郑州450001) 摘要:本文对群体决策研究的历史和 ...

  • 行为决策理论综述_吴鸽
  • 第12卷第3期2013年9月南京工业大学学报(社会科学版) 行为决策理论综述 吴 鸽 1,2 * ,周 11 晶,雷丽彩 (1.南京大学2.南京工业大学 摘 工程管理学院,江苏南京210093:南京211816) 经济与管理学院,江苏 要:随着社会的不断发展,行为决策理论越来越被人们所重视.行为决策 ...

  • 北航行政管理考研[公共政策分析导论]重点笔记资料
  • 北航行政管理考研<公共政策分析导论>重点笔记资料 1. <政策科学--公共政策分析导论>陈振明 第一章 绪论:政策科学的"研究纲领" 重点:1.政策科学运动 2.政策科学的概念和政策科学的研究范围 3.政策科学的研究途径 考点:1.拉斯韦尔和德洛尔的主要思 ...

  • 自考公共政策资料
  • 第一章 公共政策学的学科要素 1. 政策研究的内涵是什么 a 研究的主体是学术取向的职业学问家 b 研究活动关注的重点和研究范围是政策内容.政策过程和政策产出,发现和验证政策与其主体和客体之间.与有关社会和自然环境诸因素之间的因果联系,政策研究是一门科学. c 研究的目的或目标是构建政策理论,创设研 ...

  • 技术路线图和技术预见融合集成研究
  • 专利地图.技术路线图和技术预见融合集成研究 叶继涛 (上海市科学学研究所, 上海200235) . 摘要:当今世界科技发展迅速,科技发展的外部环境瞬息万交,决策体系复杂庞大,涉及到宏观. 疆}观.微观.现在与将来等方方面面的因素.科技决策与管理的难度日益加大,需要建立科学的.反应 耗遮的辅助科技决策 ...

  • 如何看待与评价西蒙的行政决策理论
  • 如何看待与评价西蒙的行政决策理论 四川省委党校研究生--杨海燕 西蒙是一位杰出的行政学家,他开辟了行政学研究的一个新时代,他的研究方法和对行政决策的研究对西方公共行政学的发展具有深远的影响,他甚至被视为‚决策‛的同义词.西蒙对西方行政学的主要理论贡献在于他基于对行政学所谓‚正统‛研究方法的批判而提出 ...

  • 企业投资决策分析方法研究
  • 龙源期刊网 http://www.qikan.com.cn 企业投资决策分析方法研究 作者:邵琳琳 来源:<经济研究导刊>2014年第31期 摘 要:企业的投资活动,通常是企业的战略决策的体现,对于企业的长期的发展至关重要.投资决策在企业内部是一项工程量大.程序复杂的工作,其中一项至关重 ...

  • 决策树方法在药物选择模型中的应用
  • 总第15卷172期 大 众 科 技 Vol.15 No.12 决策树方法在药物选择模型中的应用 张 燕 汪卫霞 (安徽财经大学管理科学与工程学院,安徽 蚌埠 233030) [摘 要]近年来,数据挖掘在IT行业备受关注.数据挖掘技术解决了目前数据贫乏的问题,它通过分析,从大量的.杂乱无章的数据中提取 ...

  • 公安决策定义
  • 1.公安决策系统,是指由拥有公安决策权的领导者和领导机构所构成的有机整体,具有对公安决策方案的最后抉择权,是现代公安决策体制的核心,在公安决策活动中处于支配地位. 2,集体决策,是指通常是指具有公安决策权的领导班子,以集体多数通过的形式作也选择方案的抉择方式. 3,全体一致规则,是指公安决策系统中所 ...