《数据挖掘与知识发现》
综合实验报告
姓 名
年 级 专 业 软件工程 指导教师 学 号
序 号 实验类型 综合型
成绩评定 评语: 教师签名: 年 月 日
2016 年 12 月 10 日
年级 组号 实验 名称 14级 专 业 实验室 软件工程 班级 日期 2班 分项内容 实验级别 实 验 内 容 1.Weka环境熟悉;决策树(1) 2.决策树(2) 3.关联规则,聚类分析 4.KDD案例 5.属性相关性,神经网络(1) 6.神经网络(2) 小 组 成 员 姓名
学号 组内分工 自我评分 教师评分 实验分项 1、Weka环境熟悉;决策树(1) (1)熟悉 Weka 软件的环境和基本用法; (2)掌握 ARFF 数据文件的编制方法; (3)学习应用 Weka 软件建立决策树的方法,并理解决策树的剪枝和未剪枝的分类效果。 实 验 目 的 一、具体题目: 1、 参照教材 19-22 页内容,熟悉 Weka 软件的安装及使用环境; 2、 在记事本程序中编制 ColdType-training.arff, ColdType-test.arff 3、 打开Weka 软件,并参照教材 1.9.2,1.9.3 小节,完成相关操作, 并理解相应处理结果。 实 验 要 求 4、 根据教材表 2.1 所提供的数据集 T,基于 Weka 软件,应用 C4.5 法建立决策树, 预测某个学生是否决定去打篮球。 要求:(1)采用 arff 文件来完成; (2)分别完成决策树剪枝和未剪枝的情况。 二、系统平台:Weka3.6 一、使用Weka建立决策树模型 1、准备数据:在记事本程序中编制 ColdType-training.arff,ColdType-test.arff。 2、加载和预处理数据。 3、建立分类模型。(选择C4.5决策树算法) 4、分类未知实例 二、使用Weka进行聚类 1、准备数据:使用ColdType.csv文件作为数据集。 2、加载和预处理数据。 3、聚类(用简单 K - 均值算法) 4、解释和评估聚类结果 实 验 原 理 步 骤 ( 算 法 流 程 ) 三、完成感冒类型的相关操作及相应处理结果 1.加载了ColdType-training.arff文件后的Weka Explorer界面: 2.感冒类型诊断分类模型输出结果: Sore-throat = Yes | Cooling-effect = Good: Viral (2.0) | Cooling-effect = Notgood: Bacterial (4.0/1.0) | Cooling-effect = Unknown: Bacterial (1.0) Sore-throat = No: Viral (3.0) Number of Leaves : 4 Size of the tree : Time taken to build model: 0.02 seconds === Evaluation on training set === === Summary === Correctly Classified Instances 9 90 % Incorrectly Classified Instances 1 10 % Kappa statistic 0.8 Mean absolute error 0.15 Root mean squared error 0.2739 Relative absolute error 31.0345 % Root relative squared error 55.8694 % Total Number of Instances 10 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.833 0 1 0.833 0.909 0.938 Viral 1 0.167 0.8 1 0.8 0.938 Bacterial Weighted Avg. 0.9 0.067 0.92 0.9 0.901 0.938 === Confusion Matrix === a b <-- classified as 5 1 | a = Viral 0 4 | b = Bacterial 分析:①该输出结果给出了决策树的结构,该决策树共有六个节点,其中四个节点为叶子。该决策树的检验数据为训练数据,检验的结果为分类的正确实例数占90%,分类错误的实例数占10%。由最后的混淆矩阵可看出,有5个实际为Viral的实例,正确的分到了Viral类中;有4个实际为Bacterial的实例也被正确的分类到了Bacterial类中;但是有一个实际为Viral的实例却被错误的分到了Bacterial类中。②通过分类正确率可对分类模型的质量进行初步评估,因本例中该值为90%,可以认为模型的性能较好。但是本例中使用的数据为训练数据,所以模型在未来的未知数据中所表现的性能还不能通过现在的分类正确率进行评估。 6 3.感冒类型诊断决策树: 4.感冒类型诊断聚类结果: Cluster centroids: Cluster# Attribute Full Data 0 1 (10) (5) (5) ================================================= Increased-lym Yes Yes No Leukocytosis Yes No Yes Fever Yes Yes Yes Acute-onset Yes Yes No Sore-throat Yes No Yes Cooling-effect Good Good Notgood Group Yes Yes No Time taken to build model (full training data) : 0 seconds === Model and evaluation on training set === Clustered Instances 0 5 ( 50%) 1 5 ( 50%) Class attribute: Cold-type Classes to Clusters: 0 1 <-- assigned to cluster 5 1 | Viral 0 4 | Bacterial Cluster 0 <-- Viral Cluster 1 <-- Bacterial Incorrectly clustered instances : 1.0 10 % 分析:由诊断聚类结果图可知,聚类中有两个簇Cluster0和Cluster1,分别对应Viral类和Bacterial类,但有一个实例被聚类到错误的簇,聚类错误率为10%。 5.感冒类型诊断聚类可视化界面: 6.聚类错误的实例信息: 分析:由上图可知,这个被错误分到簇Cluster1中的是实例7。 四.应用 C4.5 算法建立决策树, 预测某个学生是否决定去打篮球。 未剪枝的决策树: 剪枝后的决策树: 分析:由上图可知,未剪枝和剪枝的决策树是一样的,理论上应该是有差别的,可能因为此例中数据量过少,所以它们的差别没有显现出来。 实 验 收 获 通过本次实验,我掌握 ARFF 数据文件的编制方法,并且学会了应用 Weka 软件建立决策树的方法,并理解决策树的剪枝和未剪枝的分类效果。 实验分项 2、决策树(2) (1)进一步熟悉 Weka 软件的环境和基本用法; (2)学习应用 Weka 软件建立决策树的方法,并理解决策树的剪枝和未剪枝的分类效果。 实 验 目 的 一、具体题目: 1、对例 2.3 进行验证。使用来自 UCI 的 Credit screening database 数据集,应用weka 的 J48 算法建立 2 棵决策树,分别为剪枝和未剪枝的情形。 2、对以上问题,分别采用 use training set 和 cross-validation 方式进行验证。 3、理解决策树算法的不稳定性:将表 2.1 中的第 3 条实例的 Play 属性值由 Yes改为 No,再进行相同的决策数训练,比较生成的分类模型。 实 验 要 求 二、系统平台:Weka3.6 实 验 原 理 步 骤 ( 算 法 流 程 ) 一、使用来自 UCI 的 Credit screening database 数据集,应用weka 的 J48 算法建立的决策树。 1.用use training set验证 未剪枝的决策树: 输出结果: === Classifier model (full training set) === J48 unpruned tree === Evaluation on training set === === Summary === Correctly Classified Instances 655 94.9275 % Incorrectly Classified Instances 35 5.0725 % Kappa statistic 0.69 Mean absolute error 0.0866 Root mean squared error 0.206 Relative absolute error 17.5277 % Root relative squared error 41.4557 % Total Number of Instances 690 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.925 0.031 0.959 0.925 0.942 0.977 + 0.969 0.075 0.942 0.969 0.955 0.977 - Weighted Avg. 0.949 0.056 0.95 0.949 0.949 0.977 === Confusion Matrix === a b <-- classified as 284 23 | a = + 12 371 | b = - 剪枝后的决策树: 输出结果: === Classifier model (full training set) === J48 pruned tree === Evaluation on training set === === Summary === Correctly Classified Instances 626 90.7246 % Incorrectly Classified Instances 9.27 % Kappa statistic 0.8125 Mean absolute error 0.15 Root mean squared error 0.2781 Relative absolute error 31.6573 % Root relative squared error 55.95 % Total Number of Instances 690 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.902 0.0 0.1 0.902 0.6 0.937 + 0.911 0.098 0.921 0.911 0.916 0.937 - Weighted Avg. 0.907 0.094 0.907 0.907 0.907 0.937 === Confusion Matrix === a b <-- classified as 277 30 | a = + 34 349 | b = - 2.用 cross-validation验证 未剪枝的决策树: 输出结果: === Classifier model (full training set) === J48 unpruned tree === Stratified cross-validation === === Summary === Correctly Classified Instances 565 81.8841 % Incorrectly Classified Instances 125 18.1159 % Kappa statistic 0.6314 Mean absolute error 0.202 Root mean squared error 0.3982 Relative absolute error 40.8871 % Root relative squared error 80.1346 % Total Number of Instances 690 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.772 0.144 0.812 0.772 0.791 0.819 + 0.856 0.228 0.824 0.856 0.84 0.819 - Weighted Avg. 0.819 0.19 0.819 0.819 0.818 0.819 === Confusion Matrix === a b <-- classified as 237 70 | a = + 55 328 | b = - 剪枝后的决策树: 输入结果: === Classifier model (full training set) === J48 unpruned tree === Stratified cross-validation === === Summary === Correctly Classified Instances 565 81.8841 % Incorrectly Classified Instances 125 18.1159 % Kappa statistic 0.6314 Mean absolute error 0.202 Root mean squared error 0.3982 Relative absolute error 40.8871 % Root relative squared error 80.1346 % Total Number of Instances 690 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.772 0.144 0.812 0.772 0.791 0.819 + 0.856 0.228 0.824 0.856 0.84
0.819 - Weighted Avg. 0.819 0.19 0.819 0.819 0.818 0.819 === Confusion Matrix === a b <-- classified as 237 70 | a = + 55 328 | b = - 分析:由剪枝和未剪枝的结果可以看出,未剪枝的决策树尽管得到了更高的分类正确率,但是因其决策树宽度较大、分支较多,对于结果的解释能力较弱,分类的一般化程度较低。 实 验 收 获 通过本次实验,我进一步掌握了Weka 软件建立决策树的方法,并理解决策 树的剪枝和未剪枝的分类效果。
实验分项 3、关联规则,聚类分析 (1)进一步熟悉 Weka 软件的环境和基本用法; (2)学习应用 Weka 软件生成关联规则的方法; (3)学习应用 Weka 软件进行 K-means 聚类分析的方法。 实 验 目 的 一、具体题目: 1、 根据教材表 2.3 所提供的数据集,基于 Weka 软件,应用 Apriori 算法建立关联规则。 要求:(1)采用 arff 文件来完成;(注意文件头部的@relation,@attribute,@data 等信息不能缺省) (2)将表 2.3 的数值型数据改为分类类型数据。 实 验 要 求 2、对教材表 2.6 的数据集,应用 Weka 软件进行 K-means 聚类,注意先建立一个arff 文件。 3、对教材习题 2-10 题,进行上机验证。 二、系统平台:Weka3.6 实 验 原 理 步 骤 1.根据教材表 2.3 所提供的数据集,基于 Weka 软件,应用 Apriori 算法建立关联规则。 输出结果: ( 算 法 流 程 ) 分析:由以上输出结果可知,支持度阈值为0.35,置信度阈值为0.9,以及生成的关联规则有10条,置信度都为100%。 2、对教材表 2.6 的数据集,应用 Weka 软件进行 K-means 聚类,注意先建立一个arff 文件。 ①K-means聚类的输出结果: 分析:由输出结果可知,实例被分为0,1两个簇,分别有3个和2个实例,每个簇中心值分别为(4.1667,4.3333)和(1.5,1.25),与计算结果吻合。 ②K-means聚类的可视化输出结果: 3、使用打篮球数据集进行K-means无指导的聚类,检查聚类结果 输出结果: 通过本次实验,我掌握了Weka 软件生成关联规则的方法,并学会了用Weka 软件进K-means 聚类分析的方法。 实验收获
实验分项 4、KDD案例 实 验 目 的 (1)学习应用 Weka 软件进行 KDD 案例分析的基本步骤; (2)学习通过 K-means 聚类算法对输入属性进行评估的方法。 一、具体题目: 参照教材 3.3 小节,基于 Weka 软件,完成 KDD 过程模型和分析任务。 要求:(1)采用 arff 文件来完成; (2)数据源基于 UCI 的 Credit Screening Database.arff。 实验第 1 部分:使用 Weka 进行有指导的学习训练,选择 C4.5 算法 实验第 2 部分:基于无指导聚类技术,对输入属性进行评估 实 验 要 求 二、系统平台:Weka3.6 1、使用KDD过程模型,通过建立信用卡筛选分类模型,对申请信用卡用户进行评估,决定是否接受其信用卡申请。通过实验重点掌握KDD的数据准备、建模和评估过程,了解和体会KDD的迭代过程。 实 验 原 理 步 骤 ( 算 法 流 程 ) ①分类模型训练结果: === Evaluation on test split === === Summary === Correctly Classified Instances 198 84.2553 % Incorrectly Classified Instances 37 15.7447 % Kappa statistic 0.6801 Mean absolute error 0.2032 Root mean squared error 0.3418 Relative absolute error 41.0193 % Root relative squared error 68.4314 % Total Number of Instances 235 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.752 0.079 0.1 0.752 0.816 0.3 + 0.921 0.248 0.811 0.921 0.862 0.3 - Weighted Avg. 0.843 0.17 0.848 0.843 0.841 0.3 === Confusion Matrix === a b <-- classified as 82 27 | a = + 10 116 | b = - 分析:通过输出结果,得出检验集分类正确率为84.3%,是个不算太差的结果,可以用于评估新申请信息卡客户。 ②聚类结果:
2.属性评估 Weka检测出的缺失属性值: 分析:由图可知,Missing显示该属性具有9个缺失值。
实 验 收 获 通过本次实验,我掌握了通过 K-means 聚类算法对输入属性进行评估的方法,获益匪浅。 实验分项 5、属性相关性,神经网络(1) 实 验 目 的 (1)理解评估的原理,掌握属性相关性的计算。 (2)理解BP神经网络的基本原理,掌握应用BP算法建立前馈神经网络的方法和步骤。 一、具体题目: 1.根据5.4节的5.4.1小节,基于Excel的correl函数计算属性相关性,并使用散点图来查看属性相关性,对结果进行分析。 2.参照教材6.2.3小节,基于weka软件,使用BP算法创建有指导的分类模型。 二、系统平台:Weka3.6
1.1使用MS Excel 的CORREL函数计算属性相关性 输出结果: 实 验 原 理 步 骤 ( 算 法 流 程 ) 分析:在上下单元格中分别显示了0.9627和-0.3661。前一个值接近于1,说明花瓣长度和宽度之间有较强的正相关性;而后一个值说明花瓣宽度和花萼宽度两个属性之间具有一定的但较小的负相关性。 1.2使用散点图检查属性相关性 Petal_width和Petal_length的散点图: Petal_width和Sepal_width的散点图: 分析:在以上两个散点图中,根据相关系数和散点图可以判断Petal_with和Petal_length两个属性之间具有较强的正相关性,Petal_with和Sepal_with两个属性之间没有相关性。 2.1应用BP算法建立前馈神经网络 ①解释训练结果 分析:从上图的输出结果可以看到,结果并不理想RMS为0.4361,4个检验集实例,2个属于XOR等于1的类实例分类正确,而2个属于XOR等于0的类实例中的一个分类错误,另一个的计算输出值为0.213,并不能清晰地确定属于哪个类。 2.2结果不理想,更改结构,调整参数,重复实验. 第二次实验的XOR神经网络GUI界面: 第二次实验XOR Classifier 的输出结果: 分析:结果显示如以上两图,通过观察,实验的RMS为0,所有检验集实例分类正确,结果令人满意。 实验收获 通过本次实验,我理解了评估的原理,掌握属性相关性的计算。并且理解了BP神经网络的基本原理,掌握了应用BP算法建立前馈神经网络的方法和步骤。 实验分项 6、神经网络(2) 实 验 目 的 (1)继续深入理解人工神经网络的原理,掌握其在Weka平台下的相关实验操作方法与步骤。 (2)理解use training set 和 supplied test set 两种检验方式的差异。 (3)理解混淆矩阵和分类正确率等评价结果的含义。 实 验 要 求 二、具体题目: 1.使用iris数据集,基于BP学习算法建立前馈神经网络模型 (1)准备训练数据,加载iris.arff到Weka Explorer; (2)定义网络结构,设置相关参数; (3)训练神经网络(test options 选项为use training set); (4)解释训练结果。 2.将iris数据集中的3个类分别取出25个实例,共75个实例组成检验集(iris-test.csv),剩下实例作为训练数据(iris-train.csv),test options 选项为Supplied test set,训练网络。解释训练结果。 二、系统平台:Weka3.6 1.使用iris数据集,基于BP学习算法,建立前馈神经网络模型 ① 加载iris数据集 实 验 原 理 步 骤 ( 算 法 流 程 ) ②iris神经网络的GUI界面 ③iris神经网络分类模型在检验及上的输出结果 分析:从输出结果的图可以看到,训练结果比较理想。RMS的值为0.0661,分类正确率为99.33%,观察混淆矩阵,可以看到只有一个实例分类错误,结果理想不需要继续实验。 2、为了检验该神经网络分类模型对于输出值未知实例的能力,将iris数据集中的3个类分别取出25个实例,共75个实例组成检验集,其他参数不变,重新实验。 Iris Classifier 的输出结果: 分析:本例中的iris神经网络分类模型在检验集上表现出更出色的性能,RMS为0.0035,分类正确率为100%。证明该模型不存在训练过度的情况。 实验收获 通过本次实验,我继续深入理解了人工神经网络的原理,掌握了其在Weka平台下的相关实验操作方法与步骤。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- awee.cn 版权所有 湘ICP备2023022495号-5
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务