基于Lucene的非结构化数据融合研究与实现

来源 :云南大学 | 被引量 : 0次 | 上传用户:tomsue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,数据也呈爆炸式增长。根据权威数据咨询机构或研究机构的预测报告显示,近5~10年的数据量将呈指数级增长,而其中有着80%左右的数据为非结构化数据。面对如此庞大的数据和信息,如何进行存储和管理,并最终为管理者提供决策依据成为迫切问题。  关系数据库是使用最为广泛的数据库,在处理结构化数据方面具有无可比拟的效果。而非结构数据库的结构不严格,是可伸展的,结构复杂的非结构数据库有着自己特有的解析和存储方式,在处理非结构数据方面有着一定的优势。可以说,关系数据库和非结构数据库均有着各自的方法和特定,但是对于非结构数据,这种结构不固定,而绝大多数又都包括元数据,很难选择某一种发挥很好的数据管理效果。因此,对非结构化数据融合的研究是很重要和有意义的工作。  本文总结了以往常用的非结构数据管理方式,结合Lucene开源框架在处理非结构数据上的优势,对关系数据库和非结构数据库进行融合,充分发挥关系数据库和非结构数据库的优势。另外,本文采用了李末,郎波提出的四面体数据模型将非结构化数据分解成四个特征,其中,基本属性和语义特征存储在关系数据库中,底层特征存储在xml中,以Lucene开源框架进行管理,而原始数据主要指非结构数据源文件,以文件形式存储。关系数据库和xml相互建立关联,同时xml保留着原始数据的文件路径。针对改进的融合数据库在数据一致性和安全性的问题,本文提出了“监控”方法进行保障。  另外,本文以文档的存储和管理为例,采用面向对象方法对融合管理系统的原型进行了分析、设计和实现。
其他文献
观点动力学是研究群体观点演化和传播的重要研究领域,近几十年来受到社会学家、数学家、物理学家、经济学家的关注。目前该领域的大部分研究工作是关于群体观点如何达到同步或
脉冲压缩技术(简称脉压)有效地解决了雷达的作用距离和距离分辨力之间的矛盾,可以在不损失雷达威力的前提下提高雷达的距离分辩力.因此,脉冲压缩技术在雷达系统中占有极其重
数字水印技术是保护多媒体数据版权和图像可靠性认证的一种新技术.DCT(离散余弦变换)是已有的压缩编码标准JPEG的核心技术.本文比较系统地研究了数字水印在静止图象中的应用
随着全球能源互联网这一概念提出,电网互联范围更广、系统容量更大,大量可再生能源接入网络使得使用传统模型的系统仿真有时可能不能反映出系统的真实的运行情况。传统的仿真精度、系统控制由于受到负荷精度的影响亟待提高。在系统仿真、规划、控制、负荷预测等方面也越来越需要更加精确贴近实际负荷特性的负荷模型。但在系统规划设计中目前较多采用ZIP静态模型或带有一定比例的电动机综合模型,系统仿真受到传统负荷模型的局限
该文应用符号动力学理论,对流体力学中著名的Lorenz方程吸引子的一个截面沿设想的动力学不变分叶投影所构成的一个一维区间映射简化模型-Lorenz映射进行分析研究.根据Lorenz
电力需求侧管理(DSM)是提高终端用电效率,优化资源配置,改善和保护环境的一种有效手段。在DSM实践过程中,人们为了提高工作效率开发了DSM决策支持系统,从而使DSM人员能够充分利用
进入八年级之后,随着物理科目的介入,地理生物中考压力的增大,加之研究图形问题方法的改进和图形变换思想的扩充,函数的引进,要求学生形成系统的数学思想,有不少学习意志薄弱,学习基
PVM是一个动态的、开放的分布式系统,Agent技术是一种全新的分布式计算技术,基于PVM的多Agent系统是有效实现网络中资源共享和任务协作的方案.该文比较了PVM与MPI在通信方面