机器学习算法在学生成绩预测模型构建上的应用开题报告

2022-01-16 20:08:19

全文总字数：4148字

1. 研究目的与意义及国内外研究现状

近些年，由于国家政策和应试教育的要求，学生在校期间会留下大量的数据，这些数据的积累随着数据挖掘技术的兴起，终于赶上了用武之地：开辟了教育数据挖掘（educational data mining,EDM）这一新的领域，这一技术能从特定教育环境中的数据中挖掘出内在的模式，来帮助教育者们更好地了解学生并通过改变他们的学习环境达到帮助学生们优秀成长的目的。如何更加科学有效地利用数据对学习成绩进行建模分析就称为了该领域下一个重要问题。教育领域为商业智能/数据挖掘提供了一块肥沃的土地，因为复杂的数据资源（例如传统的数据库，在线网页）和多种有趣的组合（例如学生，教师，管理者或者校友）。例如，使用商业智能/数据挖掘可以回答这个领域的许多有趣的问题：占用学生最多学分的是谁？谁可能以更多的课程回报？那种课程最吸引更多的学生？什么是学生转学的主要原因？能够预测学生的成绩吗？哪些因素会影响学生成绩？这篇文章聚焦于最后的两个问题。对学生成绩建模是对教育者和学生的一个重要的工具，因为它有助于对这种现象的一个更好的理解，并且最终提升它。本文研究uci机器学习数据库中的葡萄牙中学生数学和葡萄牙语的两门科目成绩数据集来建立预测模型即利用已知的学生的相关情况（所有或者部分相关变量）建立针对最终考试成绩的预测模型。希望通过该模型预先判断出学生最终成绩的走向，能从源头，有目的性地预防或者阻止那些使学生成绩恶化的因素，将学生引向光明的未来。

国内外研究现状

自从数据挖掘技术在商业上大显神威以后，国内外诸多学者创造性地将该项技术迁移到了教育领域，Breiman[1]于2001年提出的随机森林(random Forest,RF)算法充分地利用棵决策树的信息增益，将多棵决策树组合起来以及通过集成学习，博采众长，客服主观偏见，提高了泛化能力。同时具有对特征重要性进行排序的功能，便于人们筛选特征，去除不相关特征。Paulo Cortez aand AliceSilva[2]将多种机器学习算法（朴素贝叶斯，多层感知机，支持向量机，决策树以及随机森林）应用于学生成绩预测模型，成功地得出各种预测模型的准确度，得出了最好的解决方法是由随机森林方法以1.75的均方根误差获得的。胡帅，顾艳等[3]提出了基于PCA-RBF网络的学生写作成绩预测模型，首先使用主成分分析（PCA）进行数据降维，再利用RBF神经网络模型的快速收敛性和精确率对学生成绩进行预测，由于神经网络是一种黑箱子模型，我们无法理解该神经网络是如何选择高相关特征来得出最好的预测准确度的，也就违背了教育数据挖掘的初衷，无法为教育管理者提供因材施教的方向。Kotsiantis et al.[4]从一个大学的距离学习项目中应用了几种数据挖掘算法来预测计算机科学学生的成绩。对每个学生来说，几种人口统计学(性别，年龄，婚姻状况)和成绩属性（给定任务中的评分）被用来作为二分类（通过或者未通过）器的输入，得出了最好的解决方案是由贝叶斯方法以74%的准确率获得的。同时，研究显示过去的学校的成绩比人口统计学变量有着更高的影响。RamaswamiM, Bhaskaran R.[5]将目标锁定在去除不相关特征和特征冗余性上，使用了统计方法，例如单变量ANOVA统计方法和卡方统计方法筛选出与学生成绩具有相关性的特征，通过决策树的混淆矩阵进行了评估，取得了令人满意的效果。王黎黎，刘学军等[6]提出了基于决策树C4.5算法的学生成绩预测模型，找出了学生成绩的主要影响因子，实现了学生成绩预测的可解释性，为教育决策提供了方案。吴强等[7]提出了基于决策树-LMBP神经网络的成绩预测模型，综合了决策树的可解释性技术和LMBP神经网络快速收敛以及准确度高的特点，利用了白盒模型和黑盒模型的组合模型一定程度上取得令人满意的结果。综上可知，目前，大多数的学生成绩预测类教育数据挖掘任务着重于改进模型，一定程度上忽略了原始数据的质量对于成绩预测模型的影响，也就是原始数据中的特征并不是成绩影响因素的最优子集，需要我们作特征选择，而常见的特征选择方法包括过滤式(filter)和包装式(wrapper)[8]。过滤式特征选择算法利用数据的内在特性对选取的特征进行评价和选择，独立于机器学习算法，该类算法通常运行效率较高，但是结果较差；而封装式特征选择算法先根据数据挖掘算法（例如基于树的机器学习算法：随机森林，梯度提升树等）的分类精度作为特征子集选择的评价准则，常会结合一些智能搜索算法，如模拟退火（SA），遗传算法（GA）等，在求解大规模非线性问题容易陷入局部最优解，造成该类算法效率较低，但选择的特征集合性能较优。再者就所有我们的工作就是使用这两种方法来筛选出特征子集，然后分别使用神经网络和支持向量机构建的预测模型的准确度来评价特征子集，最后结合社会学研究合理评价主要影响因子。

2. 研究的基本内容

数据挖掘技术在商业领域的成功应用使得人们创造性地开辟了教育数据挖掘的市场，目的建立一个能够获取关于学生学业成功的结论并能预测学生未来成绩的模型。为进一步提高学生成绩的预测准确率以及获得学生成绩的主要影响因素。本文采用卡方统计分析和随机森林算法分别对学生数据进行特征选择，得到了影响学生成绩的最优最小特征子集，用新的特征数据结合多种机器学习算法对成绩进行预测。实验结果表明，合理的特征选择能显著地减少数据集的维度和提高预测准确度。最后使用决策树可视化具体分析主要影响因子是如何影响学生成绩的。

3. 实施方案、进度安排及预期效果

本实验中我们采用多层感知机神经网络，支持向量机和随机森林来进行学生成绩分类预测任务，随机森林rf[1]是一个由若干未剪枝的决策树的集合。每一棵树基于一个从bootstrap 训练样本中的随机特征选择，随机森林预测由若干树的平均值建造。随机森林相较于单个决策树更加难以解说，尽管就输入变量相关性来说它任然可能提供解释性知识。非线性函数，比如神经网络（nn）和支持向量机（svm）,也是由于数据挖掘任务而被提出（hastie et al. 2001），当存在一个高非线性获得较好的结果。在这个工作中，神经网络模型是基于流行的带有一个具有h个隐藏节点的的隐层的多层感知机，而支持向量机将会使用一个带有超参数的高斯核。神经网络和支持向量机使用的是很难被人们理解的模型形式。同时，神经网络和支持向量机相较于随机森林更容易被无关输入影响，因为后者明确地执行一个内部的特征选择。

从实验结果上我们发现，从纵向比较上看，经过卡方检验和随机森林特征选择后的基于神经网络，支持向量机和随机森林的成绩预测准确度基本上都较于没有进行特征选择的时候要高，这一方面说明，原始数据集中确实存在与学生成绩预测不相关的特征，对这些特征进行选择更加有利于成绩预测的准确度。另一方面，无论是基于filter方法还是基于机器学习算法（随机森林）都对特征选择具有一定的作用。从横向比较上看，我们还发现了，在没有经过特征选择的数据集上，基于随机森林的成绩预测模型的准确度最高；而在经过特征选择后的数据集上，反而多层感知机（较多时候）或者支持向量机（较少时候）表现较好。由此我们可以指导神经网络在同样的实验条件下，进行特征选择后，明显的，多层感知机神经网络和支持向量机的对预测模型的准确度提升最大，这也说明了没有进行特征选择的数据中存在一些不相关的特征，而这两种基于非线性函数的算法对不相关特征特别敏感，这也更加证实严格的数据预处理和科学有效的特征选择对这些基于非线性函数的机器学习算法有着重大的影响，肯定了神经网络类或者非线性核方法作为机器学习算法在数据挖掘中不可忽视的作用以及巨大潜力。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献

参考文献：

[1] breiman l. random forest[j]. machinelearning,2001,45:5-32

[2] cortez p, silva a m g. using data mining topredict secondary school student performance[j]. 2008.

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码