海量数据归档与恢复系统技术研究与实现

来源 :南京航空航天大学 | 被引量 : 2次 | 上传用户:mistbaby
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
企业信息化平台中存在的海量数据,大部分是访问频率较低的历史数据。这些数据占据着大量的系统资源,并影响着服务器的运行性能和服务质量。如何将海量数据从信息化运行平台迁移到低廉的存储设备中,并进行有效管理,成为企业信息化发展面临的一大难题。数据归档技术能够有效地解决这个问题,但是目前很多归档系统专业性很强,主要针对专一的数据库平台和专业的数据管理人员,而企业用户需要的却是一种操作简便、数据来源广泛、性能良好的通用型数据归档与恢复系统。数据归档与恢复系统能够有效管理数据的原因在于对数据进行分类整理,并建立完整的、能够全面描述数据特征的索引。围绕这一思路,论文首先研究和分析了文本分类技术的基本思想和方法,同时对传统分类方法提出了一些改进。设计了SVM文本分类器,利用语料库对文本分类器进行训练,建立了文本分类模型。对文本数据进行自动化分类,建立非结构化数据的类别索引。其次,将全文检索技术应用到归档系统中去,研究了Lucene全文检索引擎的原理,利用它建立了归档系统的数据索引和检索模型,并根据用户习惯,建立个性化数据检索方案。Lucene对索引采取集中式管理方式,当处理海量数据产生的大索引时,性能上难以满足应用需求。因此,又利用Solr部署了分布式检索系统,搭建了分布式索引服务器,提升了系统对海量数据的处理能力。对于关系型数据库产生的结构化数据,在研究异构数据库环境差异的基础上,设计了基于XML的结构化数据归档模型,实现对结构化数据的归档和重构。最后,将各个功能模块进行集成,实现一个通用的海量数据归档与恢复系统。通过实验分析参数设定和不同特征选择方法对文本分类效果的影响;并对结构化数据归档方案的有效性进行验证。
其他文献
随着机器人技术的发展,人们希望机器人能完成更加复杂的任务,这些复杂的任务由单一机器人已难以完成,需要多机器人相互协调和合作共同完成.多机器人系统中大量的机器人和自主
该文重点探讨国内很少研究的Moak型电容耦合高频离子源的放电和引出特性以及如何准确地测定束流强度参数.特别在离子注入生物样品时,提出的非截断束流的测量方法对低能离子生
在该论文中设计了一套监测北京谱议簇议簇射电了学系统的供电电压和温度的控制系 统.它由两部分组成.一部分是基于CAMAC标准的CAMAC系统,它由标准CAMAC插件构成.用来完成被测
该文全面地论述了兰州重离子加速器冷却储存环(HIRFL-CSR)主环二极铁1/10原型脉冲电源的计算机控制系统的研制开发及这一系统的结构、性能和软硬件特色.论文阐明了系统的开发
期刊
本文通过对荣华二采区10
期刊
期刊
虽然后浇带是施工缝的特例,但在后浇带可采取的防水措施中并没有中埋式止水带.现状是钢板止水带成了后浇带的“防水神器”“法宝”,底板、立墙、顶板都可以用(图1~图4).包括一
期刊
PAMELA和Fermi是近期备受瞩目的两颗高能天文卫星,分别探测宇宙线荷电粒子以及伽玛射线。它们良好的性能(分辨率,灵敏度等)使其得以对很多之前不清楚的现象给出精确测量,并且还发
本文介绍了本人博士后期间的主要工作,包括核磁共振成像(MRI)超导磁体的物理设计、超导除铁器磁体的设计、水处理超导磁体的设计以及北京谱仪Ⅲ(BESⅢ)磁场计算。  引言部分