数据挖掘技术实验报告
理学院
姓名:
学号:
联系电话:
专业班级:
评分:优□|良□|中□|及格□|不及格□
24
| income > 43228.2: YES (5.0)
Number of Leaves : 14
Size of the tree : 27
Time taken to build model: 0.08 seconds
=== Stratified cross-validation === === Summary ===
Correctly Classified Instances 275 91.6667 % Incorrectly Classified Instances 25
8.3333 % Kappa statistic 0.8304 Mean absolute error 0.1402 Root mean squared error 0.284 Relative absolute error 28.3132 % Root relative squ
ared error 57.0716 % Total Number of Instances 300
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.867 0.042 0.944 0.867 0.903 0.901 YES 0.958 0.133 0.898 0.958 0.927 0.901 NO
=== Confusion Matrix ===
a b
25
该模型应用在测试数据集上的结果:
=== Re-evaluation on test set ===
User supplied test set
Relation: bank-data-test-weka.filters.unsupervised.attribute.Remove-R1 Instances: unknown (yet). Reading incrementally Attributes: 11
=== Summary ===
Correctly Classified Instances 43 86 % Incorrectly Classified Instances 7 14 % Kappa statistic 0.6998 Mean absolute error 0.1851 Root mean squared error 0.3507 Total Number of Instances 50
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.875 0.167 0.903 0.875 0.889 0.895 NO 0.833 0.125 0.789 0.833 0.811 0.895 YES
=== Confusion Matrix ===
a b
26
3 15 | b = YES
预测误差的散点图:
模型对每个实例的预测值:
3.3.5 结果讨论
1、在数据预处理中,通过转换与否的实验比较, 判断是否一定要把“Children ”属性转换成分类型的两个值“YES ” “NO ”。 答:不是
27
2、 在算法选择时, 点击可以看到哪些决策树分类的算法? 在本试验中选用何种算法。 答:图中没有变红的都是可用的。本试验中选用J48。
3、请介绍你建立好的模型以及对该模型的误差分析等结果, 在实验报告中进行详解。
答:使用分类中的决策树算法建立模型,为了保证生成的模型的准确性而不至于出现过拟合的现象,采用10折交叉验证来选择和评估模型。
观察混淆矩阵可知:原本“pep ”是“NO ”的实例,有28个被正确的预测为“NO ”,有4个错误的预测成了“YES ”;原本“pep ”是 “YES ”的实例,有3个被错误的预测为“NO ”,有15个正确的预测成了“YES ”。28+4+3+15 = 50是实例总数,而(28+15)/50 = 0.86正好是正确分类的实例所占比例。这个矩阵对角线上的数字越大,说明预测得越好。所以本试验中误差比较小,选用的模型较准确。
4、详细分析与Naïve Bayes分类模型结果的比较。 答: 分类算法
决策树
Naïve Bayes
训练集校验准确率 91.6667 % 63.3333 %
测试集校验准确率 86%
64%
28
训练混淆矩阵
a b
a b
校验混淆矩阵
a b
a b
初步结果分析:
根据上述数据,针对相同数据,Naïve Bayes算法的错误率比较大。决策树模型的准确率高于Naïve Bayes分类模型的准确率,因此决策树分类算法较好。
4 小 结
通过这次实验,我第一次熟悉了WEKA 这个数据挖掘实验平台,了解了关联规则的概念和对信息分类的方法,掌握了对数据处理的流程。对Weka 中进行关联规则分析的Apriori 算法以及分类中的朴素贝叶斯算法和决策树算法都有了进一步的理解。深刻的体会到了“纸上得来终觉浅”的道理,只有通过动手操作才能真正学会数据挖掘的原理。当然,实验过程中也碰到了一些问题,比如:在第一次用NaiveBayes 算法预测测试集时出现错误。后来才知道要保证训练集和测试集的.arff 文件的头信息完全匹配才能进行预测,所以必须把属性声明中的数据类型改成一样。
我想这次新的体验一定会给我以后的学习和工作带来意想不到的收获。
数据挖掘技术实验报告
理学院
姓名:
学号:
联系电话:
专业班级:
评分:优□|良□|中□|及格□|不及格□
24
| income > 43228.2: YES (5.0)
Number of Leaves : 14
Size of the tree : 27
Time taken to build model: 0.08 seconds
=== Stratified cross-validation === === Summary ===
Correctly Classified Instances 275 91.6667 % Incorrectly Classified Instances 25
8.3333 % Kappa statistic 0.8304 Mean absolute error 0.1402 Root mean squared error 0.284 Relative absolute error 28.3132 % Root relative squ
ared error 57.0716 % Total Number of Instances 300
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.867 0.042 0.944 0.867 0.903 0.901 YES 0.958 0.133 0.898 0.958 0.927 0.901 NO
=== Confusion Matrix ===
a b
25
该模型应用在测试数据集上的结果:
=== Re-evaluation on test set ===
User supplied test set
Relation: bank-data-test-weka.filters.unsupervised.attribute.Remove-R1 Instances: unknown (yet). Reading incrementally Attributes: 11
=== Summary ===
Correctly Classified Instances 43 86 % Incorrectly Classified Instances 7 14 % Kappa statistic 0.6998 Mean absolute error 0.1851 Root mean squared error 0.3507 Total Number of Instances 50
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.875 0.167 0.903 0.875 0.889 0.895 NO 0.833 0.125 0.789 0.833 0.811 0.895 YES
=== Confusion Matrix ===
a b
26
3 15 | b = YES
预测误差的散点图:
模型对每个实例的预测值:
3.3.5 结果讨论
1、在数据预处理中,通过转换与否的实验比较, 判断是否一定要把“Children ”属性转换成分类型的两个值“YES ” “NO ”。 答:不是
27
2、 在算法选择时, 点击可以看到哪些决策树分类的算法? 在本试验中选用何种算法。 答:图中没有变红的都是可用的。本试验中选用J48。
3、请介绍你建立好的模型以及对该模型的误差分析等结果, 在实验报告中进行详解。
答:使用分类中的决策树算法建立模型,为了保证生成的模型的准确性而不至于出现过拟合的现象,采用10折交叉验证来选择和评估模型。
观察混淆矩阵可知:原本“pep ”是“NO ”的实例,有28个被正确的预测为“NO ”,有4个错误的预测成了“YES ”;原本“pep ”是 “YES ”的实例,有3个被错误的预测为“NO ”,有15个正确的预测成了“YES ”。28+4+3+15 = 50是实例总数,而(28+15)/50 = 0.86正好是正确分类的实例所占比例。这个矩阵对角线上的数字越大,说明预测得越好。所以本试验中误差比较小,选用的模型较准确。
4、详细分析与Naïve Bayes分类模型结果的比较。 答: 分类算法
决策树
Naïve Bayes
训练集校验准确率 91.6667 % 63.3333 %
测试集校验准确率 86%
64%
28
训练混淆矩阵
a b
a b
校验混淆矩阵
a b
a b
初步结果分析:
根据上述数据,针对相同数据,Naïve Bayes算法的错误率比较大。决策树模型的准确率高于Naïve Bayes分类模型的准确率,因此决策树分类算法较好。
4 小 结
通过这次实验,我第一次熟悉了WEKA 这个数据挖掘实验平台,了解了关联规则的概念和对信息分类的方法,掌握了对数据处理的流程。对Weka 中进行关联规则分析的Apriori 算法以及分类中的朴素贝叶斯算法和决策树算法都有了进一步的理解。深刻的体会到了“纸上得来终觉浅”的道理,只有通过动手操作才能真正学会数据挖掘的原理。当然,实验过程中也碰到了一些问题,比如:在第一次用NaiveBayes 算法预测测试集时出现错误。后来才知道要保证训练集和测试集的.arff 文件的头信息完全匹配才能进行预测,所以必须把属性声明中的数据类型改成一样。
我想这次新的体验一定会给我以后的学习和工作带来意想不到的收获。