基于ETL及GBDT题库并行去重的应用研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:hanson1023
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,现代社会和教育已经进入了高度信息化时代。“互联网+教育”让教育领域发生着深刻改变。各种教育资源海量产出,也导致了教育平台中题目的重复度比较高。为了减小存储空间,提高检索效率和改善用户体验,本文提出了一种基于ETL及GBDT的题库并行去重方法。实验过程中,通过ETL预处理后的多特征组合训练模型的结果对比表明:基于GBDT用simahash等特征结合的方式取得了较好的去重效果,hadoop集群计算更是提升了计算速度,扩展性好,处理大规模数据能力强。本文主要工作有如下方面:1)由于题目内容形式和格式并不统一,本文设计了一套基于ETL的题库数据预处理流程,对题库数据任务进行调度和预处理,为提取题库文本特征提供数据来源。2)针对题库去重的问题,本文设计了一套基于GBDT的题库特征训练模型,通过提取与组合simhash、LCS、jaccard、TF-IDF等特征,调用模型计算相似度的方法来实现去重,可以提高题库去重的准确性。3)采用hadoop streaming + python方法,将待去重数据与训练好的模型存储至HDFS中,利用hadoop集群来并行计算相似度,大幅度提高了题库去重的速度,支持海量题库的去重。
其他文献
平顶山学院现处于向应用型大学转型的关键时期,且药学本科为新开设专业,构建完善毕业设计模式,对于培养药学应用技术人才极为重要。产学研结合的毕业设计模式,是产学研结合教
本文从史料证误和史实排比分析入手,对当下元末农民战争史研究中把"入都汴梁"视作北方红巾军反元鼎盛期的定说提出商榷。文中指出,当北方红巾军政权入都汴梁之际,正是其大规
随着现代工业的快速发展,重金属废水的排放带来了严重的环境污染,并威胁着生态环境和人类健康。铬及其化合物在工业领域中具有广泛的应用,当水体中Cr(VI)的含量超过0.1 mg/L
构造函数法是高等数学中最常用的分析手段之一,通过构造函数法解答高数中的相关问题,是解题的重要方法,也是学生需要重点熟悉掌握的根本解题方法.本文笔者通过探讨构造函数法
目的:分析miR-29c对小鼠心肌纤维化(MF)的影响及其作用机制。方法:小鼠心肌成纤维细胞经血管紧张素Ⅱ(AngiotensinⅡ,AngⅡ)处理24h,命名为AngⅡ组,取对数生长期的AngⅡ组细
目的 :探讨尿激酶型纤溶酶原激活剂 (uPA)在神经再生微环境中的作用机制 ,观察uPA对面神经断伤吻合后神经再生修复的影响。方法 :将 2 4只SD大鼠随机分为uPA组和对照组 ,建立
在军事装备和民用工业中,穿过金属壁进行无线数据通信正逐渐成为一个研究热点。由于密闭金属容器金属介质对电磁信号有屏蔽作用,电磁波信号难以实现穿过厚金属壁。利用超声波
近年来,随着金融科技的快速创新发展,金融科技战略纷纷被多家商业银行采纳,并在多个传统银行领域得到广泛的实践应用。ZS银行在财富管理业务方面走在国内商业银行的前列,金融科技的应用方面该行也做出了广泛而深入的探索。本文主要是以金融科技背景下ZS银行财富管理业务为研究对象,在客户关系管理理论、渠道策略理论、长尾理论的指导下,运用文献研究法、调研访谈法和案例分析法,深入研究了国内外财富管理业务发展现状以及
中枢模式发生器(central pattern generator,CPG)是一种重要的机器人节律运动控制方法。在Wilson-Cowan神经振荡器基础上,提出了一种新的CPG控制器,用于四足机器人的节律运动
本文以台州银行客户关系管理的实际情况出发,首先在开篇之处详细描述台州银行客户关系管理系统项目研究与分析的背景、研究的实际意义和目前同类系统的应用现状;其次在整体框