基于数据挖掘的在线学习行为分析研究毕业论文
2020-02-23 18:24:05
摘 要
本文基于edx平台开放的学习者在线学习行为数据,对该平台在线学习情境下不同学习者留下的大量实时数据进行挖掘与分析,发现在线学习行为的特点及其影响因素。
基于数据集的数据项,选择对学习者在线学习行为产生影响较大的多个数据项选择合适的数据挖掘算法进行分析。如对注册课程时间、最后登录时间、课程交互次数、课程访问天数、播放视频次数、学习章节数、论坛发帖数、是否获得证书及成绩等因素使用决策树算法,得到了对影响学习者获得证书和成绩的影响因素。同时还对这些特征进行聚类分析,根据得到的数据划分出不同的学习者类型,讨论不同类型的学习者学习行为的特点。在此之上,联系学习者的基本信息,如学历、国籍、性别及年龄等,综合分析学习者的学习背景和学习行为对其学习成果的影响。依据分析成果,可为在线学习平台建设者改善课程设计、构建教学模式等提供有效的帮助。
关键词: 开放数据;数据挖掘;学习行为;学习分析
Abstract
Based on edx platform's open e-learning behavior data, this paper mines and analyzes a large amount of real-time data left by different learners under the e-learning environment, and finds the characteristics of e-learning behavior and its influencing factors.
Based on the data items of the data set, multiple data items that have a greater impact on the learner’s online learning behavior are selected and an appropriate data mining algorithm is selected for analysis. For example, the decision tree algorithm is used for the factors such as the registered course time, the last login time, the number of course interactions, the number of course visit days, the number of played videos, the number of chapters studied, the number of forum postings, whether the certificate is obtained, and the results, etc. And the factors that affect the performance. At the same time, these characteristics are clustered and analyzed. According to the obtained data, different learner types are divided and the characteristics of different types of learners' learning behaviors are discussed. On top of this, the basic information of learners, such as academic qualifications, nationality, gender, and age, is used to comprehensively analyze the learner's learning background and the influence of learning behavior on their learning outcomes. Based on the analysis results, it can provide effective help for online learning platform builders to improve course design and construct teaching mode.
Key Words:open data;data mining;study behavior;learning analysis
目 录
第1章 绪论 1
1.1 研究背景介绍 1
1.2 相关工作 1
1.3 本文主要工作 2
1.4 论文结构 2
第2章 学习者类型分析 3
2.1 问题描述 3
2.2 聚类算法 3
2.2.1 算法比较 3
2.2.2 层次聚类 4
2.3 特征选择与实验方法 5
2.3.1 特征选择 5
2.3.2 数据预处理 5
2.3.3 实验过程及结果 6
2.4 实验结果分析 6
2.4.1 各类学习者的行为特征 6
2.4.2 学习行为的关联分析 7
第3章 学习效果预测 9
3.1 问题描述 9
3.2 决策树算法 9
3.2.1 算法比较 9
3.2.2 C4.5算法 10
3.3 特征选择与实验方法 12
3.2.1 特征选择 12
3.2.1 实验结果 12
3.4 实验结果分析 13
第4章 总结与展望 14
参考文献 15
致 谢 16
第1章 绪论
研究背景介绍
信息技术的迅速发展,尤其是从互联网到移动互联网的转变,开创了跨越时空的生活、工作和学习方式,并使得知识获取的方式发生了根本性的变化。学习可以不受时间、空间和地点条件等条件的限制,获取知识的渠道变得十分灵活与多样化。在线学习平台也由此兴起, e-learning发源于美国,有大量的企业使用网络对员工进行职业培训。从1988开始,世界各个地区先后兴起了在线学习这一学习方式,其中包括北美、欧洲以及亚洲地区。同时,国内许多企业纷纷对在线学习产生了浓厚兴趣,并开始实施在线学习的解决方案。2012年,美国许多顶尖大学陆续建立了在线学习平台,在网上为学生提供大量的免费课程,如今世界知名的课程提供商如Coursera、Udacity、edX等也在那个时候开始兴起,为学生们提供了更多的学习优秀课程的可能。在此过程中,在线学习的优点也就显现出来,例如学习者可以方便的从网络中获取大量的学习资源,也可与其他学习者或全世界分享对学习内容的理解,此外,在线学习不受时间和空间限制,这使得学习者可以自由安排时间,在安排学习与工作时间时方便了许多。由此,在线学习成为了一中深受学习者欢迎的学习方式,越来越多的学习者将在线学习作为获取知识的主要途径。
在传统教育测量中,学习者主要为学生群体,学生群体的学习目的基本相同,被测群体知识水平大致相当,并且由于数据量少,测评方法相对单一,很难得到相对正确的结果。这种情况在在线教育背景下得到了很多改善,学习者不在局限于学生,还包含工作人士甚至教育工作者等多种学习类型。这些具有不同学习动机和知识背景的学习者,在进行在线学习的同时,他们无意识、零散的学习行为数据被在线学习平台记录下来。这些行为数据是研究学习者在线学习行为的特点和影响因素的有效素材,通过对这些数据的深入分析,有助于研究学习者的学习心理和学习行为。
相关工作
进行在线学习行为分析工作涉及到多种学科多个领域,如数据挖掘、数理统计、人工智能、行为认知学。由于本研究主要是使用数据挖掘方式完成,因此本研究关注的焦点是数据挖掘与领域应用方面。
Romero等人在1995至2005年间对EDM(教育数据挖掘)进行了系统的研究。此领域越来越受欢迎,直到2011年,已有超过300篇参考文献,所以Romero等人对教育数据挖掘领域的最新技术进行了广泛的概括[1]。本研究只关注与主题相关的方面,Romero等人描述了怎样使用不同的数据挖掘技术来改善教学方式和提高学生的学习效果。他们将数据挖掘技术需要进行的工作分为12类:数据分析和可视化,为支持教师提供反馈,为学生提供建议,预测学生的表现,学生建模,检测不良学生行为, 将学生分组社交网络分析,开发概念图,构建课件,计划和安排[2],使后面的研究有了明确的方向。刘训星等利用电大宣城分校在线学习数据,使用k-means聚类算法从阅读、视频、论坛,资料,作业,在线测试等特征分析电大学员的学习行为[3]。何雨利用决策树算法对在线学习行为数据进行分类分析和挖掘,构建出基于学习者“在线学习行为表现”和“非智力因素”的预测模型,并进一步将这两方面整合得到在线学习效果的预测机制[4]。
Vijaya Patil等人使用决策树算法进行了在线学习行为数据挖掘,并将其使用到了在线学习平台[5]。M. H. Hasheminejad等人使用一种名为S3PSO的基于规则的分类方法来提取可用于预测学生最终结果的隐藏规则[6]。Lori Breslow等人在对edx公开数据集进行研究后发现,学习者的构成、学习模式是非常复杂的[7]。胡艺龄等人从数据挖掘、学习行为分析、网络行为分析三个方面对在线学习行为的应用方向进行了概括[8]。王士霞使用C4.5算法构建了决策树模型,对在线学习行为数据进行了分类评估[9]。徐舜平等人使用数据挖掘方式研究了“电路原理”课程的学习者学习情况[10]。刘艳等人对大学生课堂学习行为进行了研究,为期末成绩数据分析做好了准备[11]。柴艳芳等人对2008到2017年相关文献进行了统计,并介绍了数据挖掘在在线学习行为分析问题上的研究过程[12]。和珍珍使用数据挖掘研究学习行为数据,探索SPOC模式下的学习者学习特征[13]。贾艳梅等人分析在线学习行为数据用于探究学习者更深层次的思维和行为[14]。程志君等人使用edx公开数据集探索学习行为以及学习背景对学习者最终学习效果的影响[15]。
1.3 本文主要工作
本文主要目的是对在线学习情境下不同学习者留下的大量实时数据进行挖掘与分析,发现在线学习行为的特点及其影响因素。本文准备从学习者类型和学习者行为影响因素两方面进行研究分析。
本文的主要研究内容有以下三个方面:
1)对数据集进行数据预处理,包括脏数据、缺失值及异常值等分析处理。
2)选择合适的特征值以及聚类算法,对学习者类型进行分析。
3)选择合适的特征值以及决策树算法,对影响学习者行为的因素进行分析,构建决策树模型,得到在线学习效果的预测机制。
1.4 论文结构
第1章介绍了本文的研究意义和需解决的问题,然后详细介绍了国内外相关研究现状,主要为本研究在数据挖掘与领域应用方面的现状。最后简单描述了本文的研究思路和方法,本文将使用数据挖掘进行研究。
第2章为学习者类型研究,首先提出了研究问题,学习者存在哪些类型,不同类型的学习者之间的差异之处是什么,然后选择合适的特征值和聚类算法,对选取的特征值进行聚类分析,得到5种不同的学习者类型,并对聚类结果数据进行分析。
第3章为学习者学习行为影响因素研究及在线学习行为预测研究,首先提出了研究问题,影响学习者学习行为的影响因素有哪些,不同影响因素对学习行为的影响程度是否相同,然后选择合适的特征值和聚类算法,对选取的特征值进行决策树分析,得到决策树模型,然后对测试集进行测试,最后进行了结果分析。
第4章总结了本文的研究成果并进行了展望。
第2章 学习者类型分析
2.1 问题描述
本章主要从学习者类型出发提出了以下问题:
1)有哪些学习者类型?
2)不同类型学习者之间的差异之处是什么?学历、国籍及年龄等学习者自身的因素是否与学习者类型之间存在关联?
2.2 聚类算法
2.2.1 算法比较
聚类是数据挖掘的一种重要方法,主要目的将相似程度较高的事物聚集在一起,而将不相似或者相似程度较低的事物划分到不同的类别的过程。最常用的聚类算法有k-means、层次聚类等。
k-means算法的目的是要将测试数据集划分为多个类别,找到每个类的中心,为了得到每个类的中心,k-means迭代地进行两步操作。开始时随机给出k个中心点,然后根据数据点与k个中心点之间的欧式距离把每个数据点归类到离它最近的中心点,这样就构造出了k个类。这k个中心的位置应该是不正确的,所以计算出这k个类内部数据点的平均位置,者就是新的中心点,然后再次根据距离构造出新的k个类。显然在这个过程中,中心点的位置会不断地改变,因而每次构造出来的类的也在变化。通过多次的迭代,这k个中心最终会收敛,此时的k个类即为算法目标。
k-means算法有许多不足之处,使用者使用时需事设置类的数目k,而聚类数目经常很难判断,而如果使用者选择了不正确的聚类数目,有可能会使得本应属于同一个类的两个数据点分为属于两个类别。此外,k-means使用欧氏距离来计算数据点相似性的情况,而如果数据非数值型,并不能通过简单的处理转化为数值型数据,那么也不能通过简单的平均来得到类中心。
相比之下,层次聚类对聚类数目的要求并不高,可以通过设置不同的相关参数值,得到不同粒度上的多层次聚类结构;在聚类形状方面,层次聚类适用于任意形状的聚类,并且对样本的输入顺序是不敏感的。
综上,本研究层次聚类算法进行研究。
2.2.2 层次聚类
层次聚类方法对给定的数据集进行层次的分解,直到某种条件满足或者达到最大迭代次数。具体又可分为:
凝聚的层次聚类(AGNES算法):一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇(一般是计算所有簇的中心之间的距离,选取距离最小的两个簇合并),直到某个终结条件被满足或者达到最大迭代次数。
分裂的层次聚类(DIANA算法):采用自顶向下的策略,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇(一般是每次迭代分裂一个簇为两个),直到达到了某个终结条件或者达到最大迭代次数。
本文使用凝聚的层次聚类(AGNES算法),层次聚类中使用的计算距离公式有以下三种:
(2.1)
(2.2)
(2.3)
公式(2.1)(2.2)(2.3)分别为均链接、单链接和全链接。其中dist(x,z)为数据点x与z之间的欧式距离,公式如下:
(2.4)
单链接取两个类中距离最近的两个数据点的欧式距离作为这两个类的距离,最近两个数据点之间的距离越小,这两个类之间的相似度就越大,这样会导致两个类本应相离很远,但由于两个点距离较近就被合并,会得到比较松散的类。全链接则是另一个极端,取两个类中距离最远的两个数据点的欧式距离作为两个类的距离,这样如果两个类即使非常接近,但只要有两个数据点距离过远,就不能合并。
全链接是取单链接和全链接算法的折中,它把两个类中的数据点两两的距离全部放在一起求平均值,这样做的结果显然相对合适。所以本研究采用全链接的AGNES算法,具体步骤如下:
1)将数据集中的每个样本初始化为一个簇,并放入集合C中。计算任意两个集合之间的距离,并存到M中。
2)设置当前聚类数目q = m。
3)当q大于k时执行如下步骤:
1. 找到距离最近的两个集合和, 将和合并。并赋值给。
2. 在集合C中将删除,更新到的下标。
3. 删除M的第j行和第j列。更新M的第i行和第i列。
4. q = q-1
4)返回聚类集合C
2.3 特征选择与实验方法
2.3.1 特征选择
edx开放数据集包括哈佛大学与麻省理工学院2012-2013年秋季、冬季和春季三个学期工16门课程数据,本文选取其中两门课程作为实验,分别为《Elements of Structurs》和《The Challenges of Global Poverty》,相关数据分别有5665和7416条。数据集的每行数据都描述了一个学习者注册某门课程的记录,每列为对学习者基本信息或学习行为的描述,共20个列项,本研究将其分为四类:学习者基本信息、课程信息、学习者行为信息和学习者类型信息,如表2.1所示:
表2.1 数据集描述
类别 | 课程信息 | 学习者基本信息 | 学习者类型信息 | 学习者行为信息 | ||||||||||||||
列项描述 | 课程ID | 用户ID | 国家 | 学历 | 出生日期 | 性别 | 注册者 | 一般学习者 | 积极学习者 | 获得证书者 | 学习成绩 | 注册课程时间 | 最后登录时间 | 课程交互次数 | 课程访问天数 | 播放视频次数 | 学习章节数 | 论坛发帖数 |
本章的研究目标是分析学习者类型,重点关注学习者进行在线学习后产生的学习效果,所以选择学习者行为信息中课程交互次数、课程访问天数、播放视频次数、学习章节数、论坛发帖数和学习者学习成绩等6列项进行分析。
2.3.2 数据预处理
首先对数据进行预处理,以此得到目标数据集。原始数据集所有课程和所有学习者均在同一张表中,所以首先进行数据提取,将《Elements of Structurs》和《The Challenges of Global Poverty》两门课的相关数据分别放入对应两张表中。
由于原始数据集是经过特殊处理之后公开出来的,脏数据、异常值等没有出现。而在课程交互次数、课程访问天数、播放视频次数、学习章节数、论坛发帖数等列项中常有空缺值,而这些特征都是数值型,所以对所有空缺值全部填充0。