论文部分内容阅读
随着信息通信技术的不断发展,互联网将系统行业在内的各行各业结合起来,使教育意识形态的发展也呈现新的特征。在大数据时代,各种教学信息大量涌现,而传统的教育信息调查、评价体系,往往需要大量的人工评阅,难以保证调查的效率与客观。如何有效提取网络信息特征解决网络教学的自适应性,准确把握教学目标需求成为教育技术专业急迫解决的问题。本课题源自科技部项目《内容银行评估系统》,基于大数据评价系统,通过构建文本分析模块,对关键词提取算法与情感趋向评价做出重点研究,并应用于具体的教育文本资源的分析。力图改变传统调查手段及评价方式,解决教育改革中存在的问题,训练、搜索教育领域中的诉求。基于大数据评价系统,文本评价的首要工作就是对网络数据的获取,为了更加广泛、全面的获得互联网和移动互联网的教育相关信息,采用网络爬虫技术抓取互联网数据,突破各种网络站点的限制,获取Wed端数据与移动端信息数据。建立文本分析功能模块,为了分析更加广泛、全面的网络教育资源数据,本文采用关键词提取技术与文本倾向分析技术,设计实现文本分析功能的子模块。并实现对于非结构化数据的量化及标准化,最终完成文本数据的相关挖掘、评价工作。基于大数据环境,非结构化的文本数据的有效整合与分类存在着一定程度的障碍,本文运用聚类算法,实现对非结构化数据的有效分类。通过文本分析,利用关键词抽取技术抽取关键词,可以实现教育文本资源的特征提取,但是碎片化的关键词会对文本的原有含义产生歧义的分析结果,误导评价者做出不正确的评判,而本文基于关联规则算法,从最频繁集及词语相关性两个维度来对文本语义进行分析,可以有效改善上述问题,基于各分词之间的关联规则,对网络教育资源文本的评价有一个更为清晰的认识。最后,针对现有情感趋向评价算法低效的现状,本文提出通过随机森林算法训练出更加有效,更有针对性的基于教育专业领域的情感字典训练集分类器,通过优化随机森林的节点数和森林个数来优化关键提升模型的有效性。