高并发异构数据预处理系统的设计与实现

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:leafxzc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今是一个数据的时代,随着大数据技术的发展,越来越多的行业需要使用这些新技术重新挖掘曾经积累的数据的价值,使其发挥出更大的作用,更好的为用户和企业服务。而这些数据大都是不完整、不一致的脏数据,无法直接进行数据挖掘,或者挖掘结果差强人意,故需要对数据进行预处理。本人有幸参与了某专利检索分析平台项目的开发,负责该平台中的底层异构数据预处理系统的设计与实现工作。本文从系统的项目背景及意义、国内外发展现状、系统需求分析、系统技术架构、系统功能结构、数据详细设计、系统详细设计与实现以及测试等方面对本系统进行了详细阐述。本系统为该平台提供专利数据预处理与存储服务。由于专利数据具有文件数量巨大且散碎、数据格式多样、数据语言多样、数据来源不一致等特点,而且需要在短时间内将专利数据加载入库,故而本文设计了索引数据的概念,将专利数据进行了封装,并基于Quartz框架设计并实现了多任务并行方式加载专利数据入库的功能,同时采用了五种不同的数据库满足数据存储功能。这五种数据库分别为检索数据库Hybase存储需要检索的数据;NoSq1数据库MongoDB存储供前台展示的半结构化数据;分布式文件系统存储海量的非结构化数据;缓存数据库Redis存储需要缓存的业务数据;关系型数据库MySQL存储数据流转过程中的控制、运维数据。并且这五种数据库均采用分布式方式进行部署,同时采用主从、双机热备、ZooKeeper等方式保证数据库的高可用性。本系统共有五个模块,分别是数据加载与更新模块、数据质检模块、数据修复模块、数据监控模块以及任务编排工具模块。其中数据加载与更新模块是重中之重,在加载数据入库时,将一个索引数据文件作为一个批次,采用批次的方式对数据进行分批加载入库;同时利用索引数据文件对专利数据文件的封装,从而可以使用多任务并行方式处理数据入库;并且将数据加载入库分为多个阶段进行,每个阶段都可以对数据进行校验、回滚。数据质检模块和数据监控模块协同工作,可以及时发现错误数据。数据修复模块负责对数据进行修复。任务编排工具模块负责自动拷贝索引数据文件。本系统已经交付使用并如期上线,而且已将积累的专利数据全部加载入库,提供用户使用。目前系统运行情况良好,同时为了提高该产品的竞争力,公司也在积极推广,相信会有更多的用户使用本产品。
其他文献
作文教学是语文教学的一大重点和难点,那么如何激活学生的写作兴趣呢?使之乐写,关键在于教师能否创设良好的情境,找准契机,使学生的写作激情如喷泉一样。本人根据多年的教学
阐述了当前农业技术推广工作中存在的问题,结合实际提出加强农技推广工作的建议与对策,对促进农枝推广工作的开展具有一定的借鉴意义。
本文介绍了新余钢铁公司中板厂控制轧制,控制冷却工艺技术的开发应用,ACC系统改造,技术特点及应用成效.
土地整理作为一项涉及资源环境、社会经济、政策制度的系统工程,是我国社会经济发展过程中解决土地利用问题的必然选择。以北京市通州区土地整理项目为例,介绍了土地整理在解决
食用菌子实体由于普遍具有含水量高,纤维质少,菌体鲜嫩,孢子易弹射,后熟性强,易变色,采收后易开伞、萎缩、菇柄伸长、失水、液化、褐变、自溶、腐烂等特点,从而使鲜美的食用
约翰·巴顿说,无论是灾难,还是黄金时代,选择将由我们来做出。语文教学中,我们是否给过学生选择的权利呢?因此,语文学科应该培养高中学生选择的眼光和质疑的素养,让他们
济钢一铁通过优化炉料结构,加强筛分,改进高炉操作上上部采用大矿批为主的装料制度,下部实行高风速,全风温,全风口喷吹等操作,同时不断加大喷煤系统和热风系统的设备改造,推动高炉喷
山东铝业公司依靠科学技术,加强管理,采用新工艺、新设备、新流程,大力降低能源消耗,提高了企业的经营竞争能力。创造了良好的经济效益。
由中国医学装备协会临床工程学分会指导,上海市中西医结合学会医学工程专委会、上海市医院协会医学装备管理专委会、上海市计量测试学会医学专委会主办,深圳迈瑞生物医疗电子
每个公示语都是一个完整的语篇,意义很大程度上依靠特定情景语境来传达。公示语的翻译应该追求情景语境的对等,而非形式的对等,而情景语境的对等主要是通过不同形式的“情景