阅读笔记


阅读文章——基于 CART 决策树的计算机网络课程学生成绩分析

写在前面

近几周学习了决策树的相关知识,想要阅读一些用到这个知识的文章,但是在知网上浏览了几篇硕博士论文的摘要之后,发现一篇成熟的论文中,决策树这个知识只是整个论文实现目的的一个理论基础,自己现有的知识储备不足以读懂整篇论文,偶然看到了2019.12发表在计算机教育上的一篇期刊文章,对决策树地应用进行了介绍,最后就在对这篇文章进行了详细地阅读。

1 文章简介

此文章利用 CART 决策树算法对学生的计算机网络相关课程成绩深入分析,找出影响学生网络课程学习成绩的主要因素,建立合理的成绩分类模型,以便协助教师发现不同学生的学习特征,从而正确地评价、引导学生,使学生得到更好的学习效果。

2 研究现状

决策树算法是应用比较广的分类算法之一,最典型的算法是由 Quinlan 提出的 ID3 算法,该算法使用信息增益度量属性进行分类,将决策树和信息论联系起来。由于 ID3 的构造效果不够理想,只能处理离散的数据,Quinlan 又提出了C4.5 算法,对 ID3 进行了改进,选择信息增益率最大的属性作为分类属性。但是发现不管是 ID3 算法还是 C4.5 算法,都有一定的缺点,前面我的几篇文章有详细介绍,最后选择 CART 算法。

3 数据处理

使用的数据集为计算机学院信息安全专业2013 级 2 个班(班号分别为130721、130722)、2014 级 1 个班(班号为 140721)、2015 级 1 个班(班号为 150743)本科生的基本信息和学习数据,共 124 人。
CART 决策树输入属性包括分组角色(组长与非组长)、性别、民族(汉与非汉)、理论努力程度、实践努力程度 5 个。
前 3 个属性原始数据为文本类型,将其转换为数值类型,担任实验组长则该值为 1,非组长为 0,性别为男值为 1,性别为女值为 0,少数民族值为 1,汉族值为 0。理论和实践努力程度分别表示学生平时理论和实践学习的努力程度,CART 决策树训练样本的分类等级即学生成绩等级。本文根据成绩排名进行划分,排名前 20%学生为 A,中间 60% 学生为 B,后 20% 学生为 C。部分实例数据如下:
阅读笔记

4 基于CART决策树的学生成绩建模结果

不再详细赘述,直接放结果:
阅读笔记
阅读笔记

5 结果建议

  1. A 类学生分类规则分析及教学建议。
    A 类学生人数占总样本的 22%,其共同特点是实践努力程度较高(>0.694)。在此前提下,理论努力程度和性别差异对学生成绩影响极小。这也比较符合教学事实,因为实践的基础是理论,事实上,实践能让学生能够再次理解和掌握理论知识点。
    因此,A 类学生分类规则非常符合第一点根据属性对学生成绩影响程度提出的教学建议,即应通过在计算机网络类课程教学过程中加强实验指导和效果跟踪提高学生的学习能力和效果,并且这对培养高水平学生非常重要。
  2. B 类学生分类规则分析及教学建议。
    B 类学生人数占样本的 51.5%,共分为 5 个小类。其中前两小类与 A 类同学特点类似,后两小类与 C 类学生特点类似。中间小类学生人数较多,比较有代表性。
    因此,从 B 类学生分类规则可以得到如下3 个启示及教学建议:实验是区分 A 类和 B 类学生的关键环节,加强实验指导和效果跟踪可以得到更好的学习效果;在实验环节中,教师应注意辨别“搭便车”现象,对这类学生加强启发和检查,使他们得到更好的学习效果;在复习环节加强与学生的互动,提高学生的复习效果。
  3. C 类学生分类规则分析及教学建议。
    C 类学生人数占样本的 26.5%,其共同特点是实践和理论努力程度都不高。
    因此,在教学过程中应及早发现和干预该类学生的学习,在保证基础知识学习的情况下提高他们的学习兴趣和效果。