论文部分内容阅读
如何填报高考志愿,增加考生被自己心仪院校录取的几率,是每一位高考考生和家长密切关注的问题。目前国内虽然有相应的志愿填报辅助参考系统,然而只是单纯的依据考生成绩或位次进行简单的比较分析,无法从根本上为考生的志愿填报提供有价值的参考信息。鉴于此,本文以某省招生自考办公室招生数据挖掘项目为依托,以该省自实行网络招生以来所积累的近9年海量电子招生数据(其中包含了大量有关考生基础数据、志愿填报数据、高校专业设置与院校录取结果等有用信息)为基础,首先建立招考数据仓库,然后根据志愿主题建立多维数据集,接着利用OLAP技术从多角度、多侧面、多层次对考生志愿数据进行分析,最后利用数据挖掘技术对考生志愿数据进行挖掘,得到一些可资借鉴的结果。本文的工作主要包含以下4个方面:1.完成了历史招生数据的数据清洗本文首先对该省近9年的历史招生数据进行了比较分析,从而发现存在着数据质量与集成方面的问题;然后对电子招生数据代码表进行规范化处理,依据该省招考人员的建议建立高考招生数据代码规范。最后依据代码规范利用SSIS(Microsoft SQL Server 2008 Integration Services)对历史招生数据进行数据清洗、转换,将数据装载至招考数据仓库。2.建立了招考数据仓库本文所涉及的是重庆市科技攻关计划项目“重庆市招生数据挖掘与系统开发”的一部分,该课题系实际应用性项目,因此需要对项目的需求进行科学、合理分析。根据用户需求分析划分相应主题,确定事实度量与数据粒度,设计招考数据仓库模型,最后将清洗后的数据装载至招考数据仓库。3.对高考考生志愿数据进行了多维分析研究本文依据志愿分析主题设计多维数据集模型,从招考数据仓库中抽取相关数据,建立志愿数据立方体,采用OLAP技术从院校/专业报考热度与专业最低录取分两个方面对志愿数据进行多角度分析,得到一些广大考生可资借鉴的结果。4.对高考考生志愿数据进行了挖掘研究本文以考生志愿填报信息为基础,结合高考录取结果,依据CRISP-DM(Cross-industry Standard Process for Data Mining)标准数据挖掘过程建立志愿数据挖掘模型,以研究影响高校录取的关键因素以及录取倾向;最后通过实验,对不同挖掘算法所建立的模型进行对比。实验结果表明,决策树算法建立的模型具有较高的预测准确率,其挖掘结果可为广大考生借鉴。