周一至周五 | 9:00—22:00

基于数据挖掘的智能开放实验室系统的研究与设计

作者:未知

  摘 要:开放实验室是学分制下实验教学发展和改革的趋势。智能开放实验室系统采用三层分布式B/S结构,同时利用聚类分析和关联规则等数据挖掘技术进行设计和分析课程与学生信息数据库,挖掘课程之间、学生专业与课程之间及学生兴趣与课程之间的关系,为每一位选择实验课的学生提供一份推荐课表,一定程度上避免学生选课的盲目性,从而实现了系统的智能化。
  关键词:数据挖掘;开放实验室;选课;聚类分析;关联规则
  中图分类号:TP311.52 文献标识码:A 文章编号:1672-7800(2012)001-0160-02お
  
  0 引言
   随着本科教学学分制的改革以及学生选课系统的运行,传统的实验室管理方式已不能满足教学改革的要求。为适应新人才培养方案的实施,实现实验课程的全面改革,进行实验室的全面开放是行之有效的教学手段,也是改变传统教学模式,提高实验教学质量,培养学生独立操作能力和创造性思维的必由之路。为提高实验教学水平,规范有序地做好实验室开放工作,迫切需要一套与上述现代教学管理相适应的实验室管理系统,以实现开放性实验室管理,运用计算机信息技术,建立一套实验教学管理系统,实现在网上公布实验室开放的实验项目,同时能够网上预约选课以及相关教学管理。 但是学生在选课的过程中,由于对所选课程需要的基础知识认识不足,开设的实验课程项目比较多,导致选课具有一定的盲目性。而智能开放实验室系统改变了传统的选课模型,能根据学生的不同兴趣、爱好和课程之间关系提供相应的学习课程选择,能充分体现出因人施教的教育理念。
  1 智能开放实验室系统的分析与设计
  1.1 系统设计思想与方法
   本系统面向对象共有3类:管理员、教师及学生。管理员主要是实验室的管理者,负责系统基本维护;教师和学生是系统的使用人,教师通过系统填报开设的实验项目及管理学生,学生通过系统完成整个实验项目的选择及学习。系统的数据流程图如图1所示。
  
  系统利用数据挖掘技术进行设计,首先利用聚类分析的K―Means算法设计分析课程库和学生信息库;其次利用关联规则,对课程库和学生信息库数据库进行挖掘得到课程之间、学生专业与课程之间及学生兴趣与课程之间的关系,为每一位学生提供一份推荐课表。
  
  图1 智能系统数据流程
  1.2 系统体系结构设计
   目前的信息系统体系结构主要有两种,即B/S结构与C/S结构。为了方便管理,本系统采用了三层分布式B/S结构:浏览器/Web服务器/数据库服务器,如图2所示。其中客户端浏览器采用Internet Explorer(IE)6.0,中间件服务器为基于Windows 2000 Server 的 Microsoft Internet Information Server(IIS)6.0 Web服务器,后台为MS SQL Server 2000数据库系统。系统利用ASP.NET技术与数据库存储过程相结合,来实现网上智能选课及成绩发布等功能。
  
  图2 系统体系结构
  
  1.3 系统功能结构设计
   系统的具体功能结构如图3所示,教师身份登录系统后可以进行基本信息的维护、实验项目的申报、教学日历和课程课件的上传、学生名单管理以及成绩登录,完成整个教学组织过程;学生身份登录系统后可以进行基本信息的维护、智能选课学习、选课网上预约、课程表的查询以及个人成绩查询,完成个人学习过程。
  
  图3 系统基本功能
  2 智能学习系统的实现
  2.1 系统设计方法
   智能开放实验室系统的核心模块是智能学习子系统,其运用数据库及数据挖掘技术,选择专门的算法,根据学生的不同兴趣、爱好、专业类别和课程之间关系从课程库中抽取一份参考课表供学生进行课程选择。
   智能学习系统课表的形成过程相当于一次课程库中进行数据挖掘的过程,最终将结果呈现给每一位学生。数据挖掘来源于知识发现(KDD),是数据库发展和人工智能技术相结合的产物,因而数据挖掘包括知识发现(KDD)的全过程,类似于通常的一个开采过程,所以本系统将课表形成的整个过程分为3个阶段来完成:第一阶段为数据库设计及数据准备阶段,包括课程库和学生信息库设计构建;第二阶段为数据挖掘阶段包括:数据净化、预处理和抽取;第三阶段为结果显示阶段,即推荐课表。
  2.2 数据库设计与构建
   数据库是信息系统的基础,它把信息系统中大量的数据按一定的模型组织起来,提供存储、维护、检索数据的功能,使信息系统能够方便、及时、准确地从数据库中获得所需的信息。所以系统首先需要设计构建课程及学生信息数据库。课程数据库按照课程类别将课程分类,数据属性包括:课程类别、课程名称、课程代码、课程学分、课程简介;学生信息数据库按照专业对学生进行分类,记录学生的学习行为及兴趣爱好,数据属性包括:学号、姓名、性别、专业名称、已选课程成绩、兴趣爱好。
  2.3 数据净化和预处理
   原始数据的净化和预处理是系统进行数据挖掘的关键步骤。本系统的课程库和学生信息库包括所有的课程和在校生,数据记录多、数据噪声大、数据属性多样,而且数据对象包含有非数值型,如描述课程内容的属性:课程简介;描述学生特点的属性:兴趣爱好。所以必须对数据库中的原始数据进行净化和预处理。
   首先,进行数据的查漏补缺、规范统一,如课程名称的规范统一、课程简介及兴趣爱好的概化处理,得到干净且易处理的数据。
   其次,利用聚类分析处理经过净化的课程库和学生信息库,产生数据集。聚类是一种无监督的模式分类方法,
  
  多用于对观察结果、数据项、特征向量的分组。通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间的有趣的相互关系,而且可以减少待处理的交易个数。因此,基于聚类的关联规则挖掘算法的基本思想是将聚类分析作为关联规则算法的一个预处理步骤,所以对原始数据进行聚类可以看作是关联规则挖掘过程中的一个步骤,也就是先对数据仓库中的数据按照一定的方法进行聚类,将数据按照用户感兴趣的方向进行数据区域细化,将数据集放在相应的类型中。用户根据数据类进行关联分析,使得在关联规则分析的过程中数据范围大大缩小,从而提高挖掘效率。
   系统的数据挖掘模块从学生信息库中抽取学生特征,按照学生的专业特点及兴趣爱好进行分类,并赋予每个学生类标记,然后根据记录里每类学生的特点,给出相应的数据集。因此,系统采用划分聚类,算法为典型的为K―Means算法。其基本思想是在一个平面层次上对所有的样本点(学生信息)先作出某种较为粗略的划分,然后按照某种最优的准则进行修正,通过算法的迭代执行,得到一个较为合理的有K个类的聚类结果。聚类处理后的学生信息表结构如表1所示。
  
  表1 学生信息表结构
  
  字段名称数据类型说明
  
  xhChar(11)学号
  
  zymcnvarchar(10)专业名称
  
  xqahnvarchar(20)兴趣爱好
  
  lbChar(2)类别标记
  
  2.4 数据挖掘
   在经过净化和预处理的数据集上利用关联规则进行数据挖掘,给出相应的课程推荐。实现系统目标的关键是运用正确的数据挖掘算法,如今关联规则已经被推广到许多领域,只要涉及到从大型的数据集中获取知识的问题,关联规则都能成为有力的工具。关联规则可以挖掘发现大量数据项之间有趣的关联或相关联系,并为决策系统服务。智能学习系统就是需要找出学生的不同兴趣、特点、专业类别和课程之间关系,因此,本系统数据挖掘的算法采用关联规则。
   关联规则的传统算法步骤是:首先找出所有的频繁项目集,然后由频繁项目集产生满足最小置信度和最小支持度的规则。关联规则中的支持度和置信度分别用来衡量规则的有效性和可信度。若存在规则X→Y,则该规则的支持度表示事务集合中包含XUY中的所有项目的事务的出现频度。支持度是一个有效的评价指标,如果支持度的值太小,就表明相应的规则在整个事务集合中只是偶然出现。对于置信度而言,若存在规则X→Y,则该规则的置信度表示Y在包含X的事务中出现的频繁程度。置信度的大小决定了规则的可预测度的大小。如果所选规则的置信度值太小,就表明从X就很难可靠地推断出Y。例如,在本系统中就可以找到如下规则:
   兴趣爱好(X,”电磁学”)Λ课程简介(X,”电子测量
  仪,电路”)菘纬堂称(Y,”示波器使用实验”)
   专业名称(X,”土木工程”)Λ课程简介(X,”建筑、力学、共振”)菘纬堂称(Y,”利用波尔共振仪研究受迫振动”)
  2.5 输出结果
   对数据挖掘出的结果进行检查,处理它们之间的冲突,通过简明直观的方法把最终结果转换成为能够最终被用户理解的知识。例如:根据您的专业类别及填报的兴趣爱好,建议选择的实验项目如下:示波器使用实验;利用波尔共振仪研究受迫振动。
  3 结束语
   本文把数据挖掘技术应用到开放实验室系统的模型构建中,并根据数据库中学生信息和课程信息进行分析,按确定的推理规则进行推理,为学生给出相应的学习课程选择,在一定程度上避免其选课的盲目性,从而实现了系统的智能化。
  
  参考文献:
  [1] [加] JIAWEI HAN,MICHELINE KAMBER,范明,孟小峰.数据挖掘概念与技术[M].北京:机械工业出版社,2001.
  [2] 马琰,刘晓宁.基于网络的开放性实验室管理方案研究[J].实验技术与管理,2008(3).
  
  ぃㄔ鹑伪嗉:杜能钢)


常见问题解答