10

2024-05

数据挖掘技术在高等院校学业预警中的应用

| 来源:网友投稿

摘要 数据挖掘技术是目前人工智能和数据库领域研究的热点问题,是一种新的数据处理技术,它能自动分析数据仓库的海量数据,挖掘出丰富和客观的预警知识,并运用于危机预警。将数据挖掘技术运用于高等院校学生的学业预警领域,具有重要的理论意义与应用价值。以某高校教务管理系统中学生成绩数据信息为蓝本,进行课程相关性分析及初步的课程关联规则挖掘,为学生的学业预警和学习效果评价做理论和实践的指导。

关键词 数据挖掘;关联规则;学业预警

中图分类号:TP392 文献标识码:B 文章编号:1671-489X(2009)30-0120-03

Applying of Data Mining Technology in the Academic Early Warning of University//Lu Peng, Wang Jisheng, Yin Mingjun

Abstract The technology of data mining is a hot topic in the research field of artificial intelligence and database. It is a new technology of data processing, which can automatically analyze tremendous data, mine abundant objective precautionary knowledge and apply to crisis anticipation. Applying the data mining technology to the academic early warning has important theoretical significance and application value. This paper analyzed the relationship of courses and tentatively mined the associate regulations of courses in the example of the achievement data information of some university’s educational administration management system. It conducts the theory and practice of the academic early warning and learning effect.

Key words data mining; associate regulation; academic early warning

Author’s address Southwest University of Science and Technology, Mianyang, Sichuan, 621010, China

现有的高校学业预警系统已经不能适应人本化和科学化的要求,尤其是学生成绩绩效分析模块,往往只有一些简单的功能。由于同一学科体系下相关课程间的关联没有得到足够的重视,学生成绩数据又以不同的形式存储于不同的计算机上,从而使隐藏在其中的大量有用信息无法得到有效的利用。上述问题直接导致教学管理部门无法对学生的学习状况进行有效的评估,无法对潜在的无法正常完成学业的学生进行预警,任课教师也无法进行有效的教学改进。而如何将这些数据信息和关联信息转化为预警信息,为教育教学管理者提供决策依据,为学习者提供学业预警,将是高校迫切需要解决的问题。

1 数据挖掘技术简介[1]

数据挖掘(Data Mining,DM)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。本文是以学校教务管理系统的学生培养方案和学生成绩数据库为依托,运用数据挖掘的有关方法,提出学业预警的工作流程,并对初始数据进行数据清洗,以2门课程为例进行课程相关性分析、典型相关分析、成绩回归预测模型的建立和稳定性研究以及关联规则的挖掘[2]。

2 学业预警工作流程

首先由关系数据库抽取学生基本信息、学生培养方案、课程成绩信息、学业绩效信息等源数据,即相关的关系数据表。第二步是进行数据清洗,筛除冗余数据和无关信息后,进行数据格式转换,形成用科目成绩组成的按学号排序的属性列,即事物数据。第三步是进行课程相关性分析和关联规则挖掘。其中,课程相关性分析是根据学生已经完成的学业课程及其成绩信息,从课程成绩之间的联系中抽取课程关联模型;而关联规则挖掘是根据培养方案所要求的课程信息,从课程之间的联系中抽取关联规则,形成关联规则库,即根据课程之间的关联规则进行成绩预测,当成绩预测与成绩回归预测达到一定范围内的一致时,即达到预警条件对学生的学业进行预警。

3 数据清洗并创建数据仓库

由关系数据库抽取学生基本信息、学生培养方案、课程成绩信息、学业绩效信息等源数据,进行数据清洗。在多数据源情形下,数据清洗将面临许多新的问题,比如结构冲突、命名冲突、重复记录等[3]。

通过数据清洗剔除脏数据,恢复数据的原始信息,易于转化成事物数据格式[4]。

应用数据仓库技术,能够集成现有的各教学业务系统的数据,建立适合学业预警的数据仓库;在此基础上利用数据挖掘技术进行联机分析处理,并找出隐藏在大量教学信息中的课程关联和学业预警的规律和知识,有效地解决学业预警中的准确性和实时性问题[5]。

4 课程相关性分析

为了使研究具有普遍性和代表性,本研究采用公共基础必修课作为研究对象,根据上一阶段所建立的数据仓库,对图1中的课程成绩进行分析,可得出以图2所示成绩分布图,从中可以看出其成绩基本符合正态分布。

所研究的课程成绩符合正态分布,但课程间并不是相互独立的。课程相关性分析就是要找出课程之间的关联性[6]。

相关性分析是测定现象之间相关关系的规律性,并据此进行预测和控制的分析方法,是研究变量间密切程度的一种常用统计方法。相关系数是说明2个现象之间相关关系密切程度的统计分析指标,用r表示:。其中,是x变量的平均数,是y变量的平均数,n是相关系数,,即-1≤r≤1。当r>0时为正相关,即2个变量之间的变化方向一致,都是增长趋势或下降趋势;当r<0时为负相关,即2个变量变化趋势相反,一个下降而另一个上升,或一个上升而另一个下降;r=1为完全正相关;r=-1为完全负相关;r=0则不相关。r的范围在0.3~0.5称为低度相关;r的范围在0.5~0.8称为显著相关;r在0.8以上称为高度相关。在课程相关分析中,每一门课程都可以看作是一个变量因子[5],如高等数学作为因子x,离散数学作为因子y。利用公式计算出的是数据结构和离散数学的相关系数,r的大小表明两课程相关的程度(图3)。

离散数学和数据结构的相关系数为深色表示块(图4)。这里是单因素的相关性的分析,多门课对应多因素的相关性分析。

5 典型性相关性分析和成绩回归预测

现存在的问题:模型的稳定性不好。可能由以下几个因素造成:1)考试试题不能全面反映学生的实际学习水平;2)样本不足够大,不能满足中心极限定理的要求。

下面提出拟解决方案。所研究的成绩是符合正态分布的,对正态总体进行均值和方差的区间估计:,设置信水平为,并设(某一门课的成绩),n为学生人数,是总体的样本,分别是样本的均值和样本方差[6-7]。

1)u的置信区间。是的无偏估计,,其置信区间为()。

2)的置信区间。,其置信区间为()。

现阶段关联规则都是针对布尔关系的,数值模型的处理一般都是把数据离散化,使数据有一个有限的数量表达,然后转化为布尔模型 [7]。拟采用的数据离散化方式:把成绩划分为A、B、C、D、E五个等级,保证A占10%左右,B占23%左右,C占33%左右,D占23%左右,E占%10左右。

学生考试分数X的平均分和样本的标准差S分别为均值u和标准差点估计,所以用X与S近似代替u与。这样得到划分学生成绩等级的方法。

当学生的最小分数低于60分时,规定:A级,;B级,;C级,;D级,;E级,。

6 关联规则挖掘

Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一个开放源码的数据挖掘软件[8]。本研究使用Weka在课程相关性分析的基础上,以离散化后的课程信息数据为蓝本(图5)进行数据挖掘[9]。

7 结论

本研究主要是利用数据挖掘中的关联规则理论(图6)和经典的Apriori算法对学生成绩进行分析,从而得出学生所学课程间的相关性,对学生学习效果进行评价和学习情况预警进行探索。但是,本研究在挖掘算法上需要进一步改进,来提高课程间的关联规则挖掘效率,以期实现早日的应用。

参考文献

[1]范明,盂小峰.数据挖掘:概念与技术[M].北京:机械工业出版社,2001

[2]Fayyad U,Piatetsky-Shapiro G,Smyth P.Knowledge discovery and data mining: towards a unifyingframework[A]//In Proc. KDD-96: Second International Conference on Knowledge Discovery & Data Mining[C]. Menlo Park,CA:AAAI Press,1996:82-88

[3]Raman V,Hellerstein J M.Potter’s wheel: An Interactive Data Cleaning System[A]//Proceedings of the 27thInternational Conference on Very Large Data Bases[C].San Francisco:Morgan Kaufmann Publishers,2001:381-390

[4]王咏梅,稽晓,汪恒杰,冯安平.面向多数据源的数据清洗关键技术的研究[J].高新技术,2009:13-15

[5]武彤.基于数据仓库技术的教学质量评估与分析系统[J].计算机工程与设计,2009,30(6):1 545-1 547

[6]贾彩燕,倪现君.关联规则挖掘研究述评[J].计算机科学,2003,30(4):145-148

[7]欧阳辉,王员根,陈启买.关联规则在教务管理中的应用[J].实践与经验,2006:103-105,114

[8]董彩云,曲守云.数据挖掘及其在高校教学系统中的应用[J].济南大学学报:自然科学版,2004,18(1):65-68

[9]Witten I,Frank E.WEKA Machine Learning Algorithms in Java[A]//Data Mining: Practical Machine LearningTools and Techniques with Java Implementations[M].San Francisco:Morgan Kaufmann Publishers,2000

推荐访问:高等院校 预警 学业 数据挖掘 技术

最新推荐New Ranking

1软件实施方案(实用8篇)(完整文档)

方案是从目的、要求、方式、方法、进度等都部署具体、周密,并有很强可操作性的计划。我们应该重视方...

22023年应聘自我介绍(优秀18篇)(精选文档)

范文为教学中作为模范的文章,也常常用来指写作的模板。常常用于文秘写作的参考,也可以作为演讲材料...

3房屋租赁合同电子版免费(汇总19篇)【优秀范文】

在人民愈发重视法律的社会中,越来越多事情需要用到合同,它也是实现专业化合作的纽带。那么合同书的...

42023年度上课看课外书检讨书(模板20篇)(精选文档)

范文为教学中作为模范的文章,也常常用来指写作的模板。常常用于文秘写作的参考,也可以作为演讲材料...

52023年最新春节晚会结束语十字(11篇)(完整)

无论是身处学校还是步入社会,大家都尝试过写作吧,借助写作也可以提高我们的语言组织能力。范文书写...

6护理干事个人总结(实用8篇)

工作学习中一定要善始善终,只有总结才标志工作阶段性完成或者彻底的终止。通过总结对工作学习进行回...

7坚持方面名人名言(通用16篇)【优秀范文】

人的记忆力会随着岁月的流逝而衰退,写作可以弥补记忆的不足,将曾经的人生经历和感悟记录下来,也便...

8代发工资协议签好后多久发放(优秀8篇)

人的记忆力会随着岁月的流逝而衰退,写作可以弥补记忆的不足,将曾经的人生经历和感悟记录下来,也便...

9美术论文鉴赏(大全19篇)【精选推荐】

在日常学习、工作或生活中,大家总少不了接触作文或者范文吧,通过文章可以把我们那些零零散散的思想...

10领导辞职报告(汇总20篇)(范文推荐)

在经济发展迅速的今天,报告不再是罕见的东西,报告中提到的所有信息应该是准确无误的。报告对于我们...