一、介绍 网上教学和学习很难让教师观察到学生的学习行为,如果教师能动态和科学地观察、跟踪学生的上网行为,他们可能得到自适应反馈、个性化的评估以及更个性化的关注。目前,在线导师主要侧重学习管理系统(LMS)或课程管理系统(CMS),认为它们能提供学生的活动情况,如登录频率、访问历史和在论坛中的提问。但实际上,这种数据信息只能帮助在线导师在一定程度上了解学生的网上学习进度。 由于了解学生的活动对在线学习的效率起着至关重要的作用,所以找到科学的方法必然能够更好地在网络环境中观察和监测学生的学习活动。LMS/CMS自动收集和储存功能在服务器日志是一个很好的资源,它可以帮助教师了解学生虚拟学习的行为。如通过课程网站的链接选择序列以及服务器日志统计分析,将有助于教师发现学生的学习模式,如谁访问了课程网站、访问了多久、网站是如何被使用等。 数据挖掘(DM)包括一系列的数据分析技术,适用于从原材料日志数据中提取知识,目的是分析服务器日志,从典型模式的在线学习行为上构建知识,进一步探索数据挖掘技术的独特优势,以支持动态的在线指导,并建立在线学习的预测模型。目前,它已广泛运用于商业中。 DM技术在教育技术的研究主要集中在算法的开发上,而不是教育运用。显然,DM技术的教育研究还有很大的潜力,如:①本科生有哪些典型的在线学习行为?通过数据挖掘技术能发现什么?②本科生网上学习行为的典型模式是什么?③什么是网上学习环境的学习成果中最重要的预测指标? 二、研究设计和方法 这项研究是在江西科技师范大学计算机应用四年制本科生中展开的,课程是通过学校网站在线学习平台进行管理的。运用基于项目学习(PBL)的方法,在线学习体验需要学生之间的积极合作,而且98位学生在线学习行为连续六周被记录在服务器日志中。从LMS中一共检索到17,934条服务器日志,笔者对此进行了研究和分析。 图1显示了本项研究的数据准备和分析过程。首先,从LMS服务器中进行搜索查询语言(SQL)来查询和检索各种数据,然后日志记录会被保存到Oracle10GExpress数据库管理系统中。接下来,是数据预处理、检索和分析过程,包括以下Web使用挖掘过程,即数据预处理阶段、数据挖掘阶段、模式的分析阶段。 数据预处理过程使用精简的日志文件,它能删除原来的LMS常见的日志文件中所有没用的文件、不规则的和丢失的数据。在最初的预处理过程中,会话过滤器会被运用到为特征提取而减少日志的文件中,该过滤器的目的是把一个会话中所有用户的请求聚合成一个单一的变量集。如学生登录到LMS,即为一个会话开始,学生按"退出"按钮,会话立即结束。但是,当学生不小心关闭网页浏览器,或让网页闲置超过20分钟,该会话也将被终止。在这种情况下,已存储的相关原始数据会从数据库中删除,只能反映学生的正常学习活动。 特征提取过滤出以下几个主要变量:用户识别、会话标识符、会话起始日期和时间、会话结束日期和时间、用户的点击计数和会话持续时间。派生变量(每个学生的数据持续时间和频率)在每天和每周的基础上,通过计算或累积提取主变量数据。这些变量会转化为字段,分配适当的数据属性,并存储在数据库管理系统中。所有的数据字段以表的方式组织起来,并形成一个合理的数据库。数据挖掘阶段包括描述性分析和人工智能分析这两个子阶段:描述性分析用在总结、聚类、关联规则技术生成数据集,使教师深入了解学生的特点及他们的学习模式;人工智能分析用在预测目的中。 在两个开源的数据挖掘软件程序包中,WEKA和KNIME被用来进行描述和人工智能分析,SPSS被用来执行SQL查询和数据可视化。描述性分析的目的是概述构建所有学生在给定的时间内的行为。处理后的数据通过表格和图形可视化来说明基本趋势,使学生更好地了解如何进一步运用数据挖掘技术。 关联规则被运用于在找到非连续的两个或更多个变量之间的关系。在这项研究中,关联规则的一个例子是"行为A→行为B,支持=32%,置信度=80%",关联规则的支持意味着观察到的事件占事件总数的百分比。因此,上述关联规则意味着在所有分析的事件中,A和B占32%;信心的关联规则意味着"行为A→行为B"的可能性有多大,即行为A发生行为B的概率。顺序关联技术被运用到我们的研究中,以找出学习行为之间的顺序关系,以构建学习模式和喜好。 三、研究结果 从LMS收集的数据被用来描述、统计、分析参与者的登录频率、访问课程材料频率、发布消息的数量、读取的消息数和出席同步在线讨论的数量。如表1所示,访问课程材料的登录次数频率分布接近正常分布,异步通信的分布(即发布的消息和短信读取数)和同步通信(即参加同步讨论的次数)都偏向正值。据数据显示,最常见的网上学习活动是登录到LMS和访问课程材料,学生往往更喜欢访问课程材料,与导师或同龄人在线互动的学生较少。 据表1显示,论坛发布消息数量(M=30.13,SD=29.96)和信息读取数量(M=44.21,SD=38.08)明显超过同步讨论的频率(M=2.35,SD=3.46),t(97)=9.11,p<0.000;t(97)=11.14,p<0.000。因此,在本项研究中,异步通信工具经常被用作主要的通信方法。此外,学生们倾向于阅读消息(M=44.21,SD=38.08),而不是发布消息(M=30.13,SD=29.96),T(97)=3.48,p<0.001。 在这项研究中,笔者根据学生常见的学习活动生成了一个三维图(图2)来说明下列变量之间的关系:总数发布消息数量(NP)、阅读消息总数量(NR)、访问课程教材的总频率(FAC)。结果表明,一小部分学生访问教材频率低,发布的消息数量较少,读取的消息数量也较少,大多数学生的模式则分散在图形中。 为了解参与者在课程中的学习时间,研究者从原来的服务器日志中检索和分析,得出参与者每周一次的登录记录是N=3,395。每周子项目统计的截止日期是在6周内的每周星期一晚上12点。
据表2显示,25.7%的登录事件发生在周二,也就是每周的子项目开始的第一天;56%的登录事件发生在周一、周三、周四、周日;18.3%的登录事件发生在周五和周六。表3说明,在六个星期的项目中,学生在第一周的登录频率最高,为22.9%,最后一周是18.1%。 |