数据挖掘技术实验报告

数据挖掘技术实验报告

理学院

姓名:

学号:

联系电话:

专业班级:

评分:优□|良□|中□|及格□|不及格□

24

| income > 43228.2: YES (5.0)

Number of Leaves : 14

Size of the tree : 27

Time taken to build model: 0.08 seconds

=== Stratified cross-validation === === Summary ===

Correctly Classified Instances 275 91.6667 % Incorrectly Classified Instances 25

8.3333 % Kappa statistic 0.8304 Mean absolute error 0.1402 Root mean squared error 0.284 Relative absolute error 28.3132 % Root relative squ

ared error 57.0716 % Total Number of Instances 300

=== Detailed Accuracy By Class ===

TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.867 0.042 0.944 0.867 0.903 0.901 YES 0.958 0.133 0.898 0.958 0.927 0.901 NO

=== Confusion Matrix ===

a b

25

该模型应用在测试数据集上的结果:

=== Re-evaluation on test set ===

User supplied test set

Relation: bank-data-test-weka.filters.unsupervised.attribute.Remove-R1 Instances: unknown (yet). Reading incrementally Attributes: 11

=== Summary ===

Correctly Classified Instances 43 86 % Incorrectly Classified Instances 7 14 % Kappa statistic 0.6998 Mean absolute error 0.1851 Root mean squared error 0.3507 Total Number of Instances 50

=== Detailed Accuracy By Class ===

TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.875 0.167 0.903 0.875 0.889 0.895 NO 0.833 0.125 0.789 0.833 0.811 0.895 YES

=== Confusion Matrix ===

a b

26

3 15 | b = YES

预测误差的散点图:

模型对每个实例的预测值:

3.3.5 结果讨论

1、在数据预处理中,通过转换与否的实验比较, 判断是否一定要把“Children ”属性转换成分类型的两个值“YES ” “NO ”。 答:不是

27

2、 在算法选择时, 点击可以看到哪些决策树分类的算法? 在本试验中选用何种算法。 答:图中没有变红的都是可用的。本试验中选用J48。

3、请介绍你建立好的模型以及对该模型的误差分析等结果, 在实验报告中进行详解。

答:使用分类中的决策树算法建立模型,为了保证生成的模型的准确性而不至于出现过拟合的现象,采用10折交叉验证来选择和评估模型。

观察混淆矩阵可知:原本“pep ”是“NO ”的实例,有28个被正确的预测为“NO ”,有4个错误的预测成了“YES ”;原本“pep ”是 “YES ”的实例,有3个被错误的预测为“NO ”,有15个正确的预测成了“YES ”。28+4+3+15 = 50是实例总数,而(28+15)/50 = 0.86正好是正确分类的实例所占比例。这个矩阵对角线上的数字越大,说明预测得越好。所以本试验中误差比较小,选用的模型较准确。

4、详细分析与Naïve Bayes分类模型结果的比较。 答: 分类算法

决策树

Naïve Bayes

训练集校验准确率 91.6667 % 63.3333 %

测试集校验准确率 86%

64%

28

训练混淆矩阵

a b

a b

校验混淆矩阵

a b

a b

初步结果分析:

根据上述数据,针对相同数据,Naïve Bayes算法的错误率比较大。决策树模型的准确率高于Naïve Bayes分类模型的准确率,因此决策树分类算法较好。

4 小 结

通过这次实验,我第一次熟悉了WEKA 这个数据挖掘实验平台,了解了关联规则的概念和对信息分类的方法,掌握了对数据处理的流程。对Weka 中进行关联规则分析的Apriori 算法以及分类中的朴素贝叶斯算法和决策树算法都有了进一步的理解。深刻的体会到了“纸上得来终觉浅”的道理,只有通过动手操作才能真正学会数据挖掘的原理。当然,实验过程中也碰到了一些问题,比如:在第一次用NaiveBayes 算法预测测试集时出现错误。后来才知道要保证训练集和测试集的.arff 文件的头信息完全匹配才能进行预测,所以必须把属性声明中的数据类型改成一样。

我想这次新的体验一定会给我以后的学习和工作带来意想不到的收获。

数据挖掘技术实验报告

理学院

姓名:

学号:

联系电话:

专业班级:

评分:优□|良□|中□|及格□|不及格□

24

| income > 43228.2: YES (5.0)

Number of Leaves : 14

Size of the tree : 27

Time taken to build model: 0.08 seconds

=== Stratified cross-validation === === Summary ===

Correctly Classified Instances 275 91.6667 % Incorrectly Classified Instances 25

8.3333 % Kappa statistic 0.8304 Mean absolute error 0.1402 Root mean squared error 0.284 Relative absolute error 28.3132 % Root relative squ

ared error 57.0716 % Total Number of Instances 300

=== Detailed Accuracy By Class ===

TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.867 0.042 0.944 0.867 0.903 0.901 YES 0.958 0.133 0.898 0.958 0.927 0.901 NO

=== Confusion Matrix ===

a b

25

该模型应用在测试数据集上的结果:

=== Re-evaluation on test set ===

User supplied test set

Relation: bank-data-test-weka.filters.unsupervised.attribute.Remove-R1 Instances: unknown (yet). Reading incrementally Attributes: 11

=== Summary ===

Correctly Classified Instances 43 86 % Incorrectly Classified Instances 7 14 % Kappa statistic 0.6998 Mean absolute error 0.1851 Root mean squared error 0.3507 Total Number of Instances 50

=== Detailed Accuracy By Class ===

TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.875 0.167 0.903 0.875 0.889 0.895 NO 0.833 0.125 0.789 0.833 0.811 0.895 YES

=== Confusion Matrix ===

a b

26

3 15 | b = YES

预测误差的散点图:

模型对每个实例的预测值:

3.3.5 结果讨论

1、在数据预处理中,通过转换与否的实验比较, 判断是否一定要把“Children ”属性转换成分类型的两个值“YES ” “NO ”。 答:不是

27

2、 在算法选择时, 点击可以看到哪些决策树分类的算法? 在本试验中选用何种算法。 答:图中没有变红的都是可用的。本试验中选用J48。

3、请介绍你建立好的模型以及对该模型的误差分析等结果, 在实验报告中进行详解。

答:使用分类中的决策树算法建立模型,为了保证生成的模型的准确性而不至于出现过拟合的现象,采用10折交叉验证来选择和评估模型。

观察混淆矩阵可知:原本“pep ”是“NO ”的实例,有28个被正确的预测为“NO ”,有4个错误的预测成了“YES ”;原本“pep ”是 “YES ”的实例,有3个被错误的预测为“NO ”,有15个正确的预测成了“YES ”。28+4+3+15 = 50是实例总数,而(28+15)/50 = 0.86正好是正确分类的实例所占比例。这个矩阵对角线上的数字越大,说明预测得越好。所以本试验中误差比较小,选用的模型较准确。

4、详细分析与Naïve Bayes分类模型结果的比较。 答: 分类算法

决策树

Naïve Bayes

训练集校验准确率 91.6667 % 63.3333 %

测试集校验准确率 86%

64%

28

训练混淆矩阵

a b

a b

校验混淆矩阵

a b

a b

初步结果分析:

根据上述数据,针对相同数据,Naïve Bayes算法的错误率比较大。决策树模型的准确率高于Naïve Bayes分类模型的准确率,因此决策树分类算法较好。

4 小 结

通过这次实验,我第一次熟悉了WEKA 这个数据挖掘实验平台,了解了关联规则的概念和对信息分类的方法,掌握了对数据处理的流程。对Weka 中进行关联规则分析的Apriori 算法以及分类中的朴素贝叶斯算法和决策树算法都有了进一步的理解。深刻的体会到了“纸上得来终觉浅”的道理,只有通过动手操作才能真正学会数据挖掘的原理。当然,实验过程中也碰到了一些问题,比如:在第一次用NaiveBayes 算法预测测试集时出现错误。后来才知道要保证训练集和测试集的.arff 文件的头信息完全匹配才能进行预测,所以必须把属性声明中的数据类型改成一样。

我想这次新的体验一定会给我以后的学习和工作带来意想不到的收获。


相关内容

  • 中心实验室程序文件
  • 河北中原金属材料及制品检测中心实验室标准 测试工作日常管理程序 ZYJZ102-2000 1 范围 本程序规定了中心实验室日常工作内容方面的管理. 本程序适用于中心实验室日常管理. 本程序的目的:通过科学.严谨.务实的内务管理,创造一个良好的检测环境,为检测工作顺利有效进行服务. 2 定义 本程序引 ...

  • 资质认定管理办法及评审准则
  • 实验室和检查机构资质认定管理办法 (2006-02-21) <实验室和检查机构资质认定管理办法>已经2005年12月31日国家质量监督检验检疫总局局务会议审议通过,现予公布,自2006年4月1日起施行.1987年7月10日原国家计量局发布的<产品质量检验机构计量认证管理办法> ...

  • 实验室手册
  • ******有限公司质量管理体系文件 实验室手册 依据:ISO/TS16949:2002(7.6.3) 及ISO/IEC17025:1999编制 目 录 发 布 实 施 令 公司为满足ISO/TS16949:2002标准中7.6.3条款"实验室要求",依据ISO /IEC1702 ...

  • 浅谈授权签字人对检测报告的质量审核
  • 现代测量与实验室管理 文章编号:1005-3387(2010)03-0042-43 2010年第3期 浅谈授权签字人对检测报告的质量审核 金士卡 (平阳县质量检验检测所,温州 325401) 摘 要:授权签字人签发批准报告是报告三级审核中的最后一关,.有效性和合法性具有至关重要的作用.因此,授权签字 ...

  • 实验室检测方法管理标准
  • QB 实验室检测方法管理标准 攀枝花钢铁有限责任公司 发布 QG/YX0137-2004 前 言 为规范冶金产品理化检测实验室取样.样品制备/加工.校准及检测方法的选择和确定.试验和确认.审批和应用,特制订本标准. 本标准由攀枝花钢铁有限责任公司提出. 本标准由攀枝花钢铁有限责任公司委托质量计量管理 ...

  • 授权签字人评价
  • 授权签字人考核 1.授权签字人是如何产生的? 上级任命,通过评审组考核 吉林省技术监督局确认 2.授权签子人的岗位职责和权利? 职责:对检测报告有最终技术审查职责 ,对检测结果的完整性和准确性负责: 权利:对于不符合认可要求(若所用的方法.设备.不合适)的结果和报告具有否决权 3.批准报告应注意什么 ...

  • 电力电子技术实验大纲
  • 电力电子技术实验大纲 电气信息学院专业中心实验室 2015版 我们需要什么样的专业课实验报告书? 进入大三以后,我们会面对很多专业课程实验项目,如何让这些实验的报告体现出它应该有的"专业"性? 撇开具体的实验内容不谈,实验报告应该具有以下共同的特质: 1. 报告具有尽可能丰富的实 ...

  • 实验室资质认定评审准则(要素要点)详细
  • 实验室资质认定评审准则 <实验室资质认定评审准则>是根据<中华人民共和国计量法>.<中华人民共和国标准化法>.<中华人民共和国产品质量法>.<中华人民共和国认证认可条例>等有关法律.法规的规定,结合我国实验室的实际状况.国内外实验室管理经验 ...

  • 数据库设计大作业
  • <数据库原理>课程大作业 数据库设计与应用开发 课题名称: 实验教学管理数据库设计 学 号: 101530518 姓 名: 庞 彪 专业年级: 10 级 软 工 四 班 成 绩: 内容与要求 1. 请结合软件类专业课程实验教学环节设计数据库,实现实验教学的有效管理,具体功能应包括但不限于 ...

  • 无线网络技术课程设计报告(论文)
  • 计算机科学与技术学院 无线网络技术课程设计报告(论文) 题目:点对点射频通信实验 专业班级: 姓 名: 时 间: 指导教师: 完成日期:2015年06月 22日 目录 摘要 ----------......--------------------1 关键词 ----................. ...