论文部分内容阅读
随着信息技术的不断发展,数据也呈爆炸式增长。根据权威数据咨询机构或研究机构的预测报告显示,近5~10年的数据量将呈指数级增长,而其中有着80%左右的数据为非结构化数据。面对如此庞大的数据和信息,如何进行存储和管理,并最终为管理者提供决策依据成为迫切问题。 关系数据库是使用最为广泛的数据库,在处理结构化数据方面具有无可比拟的效果。而非结构数据库的结构不严格,是可伸展的,结构复杂的非结构数据库有着自己特有的解析和存储方式,在处理非结构数据方面有着一定的优势。可以说,关系数据库和非结构数据库均有着各自的方法和特定,但是对于非结构数据,这种结构不固定,而绝大多数又都包括元数据,很难选择某一种发挥很好的数据管理效果。因此,对非结构化数据融合的研究是很重要和有意义的工作。 本文总结了以往常用的非结构数据管理方式,结合Lucene开源框架在处理非结构数据上的优势,对关系数据库和非结构数据库进行融合,充分发挥关系数据库和非结构数据库的优势。另外,本文采用了李末,郎波提出的四面体数据模型将非结构化数据分解成四个特征,其中,基本属性和语义特征存储在关系数据库中,底层特征存储在xml中,以Lucene开源框架进行管理,而原始数据主要指非结构数据源文件,以文件形式存储。关系数据库和xml相互建立关联,同时xml保留着原始数据的文件路径。针对改进的融合数据库在数据一致性和安全性的问题,本文提出了“监控”方法进行保障。 另外,本文以文档的存储和管理为例,采用面向对象方法对融合管理系统的原型进行了分析、设计和实现。