基于Lucene的非结构化数据融合研究与实现

来源 :云南大学 | 被引量 : 0次 | 上传用户：tomsue

【摘要】

：

随着信息技术的不断发展，数据也呈爆炸式增长。根据权威数据咨询机构或研究机构的预测报告显示，近5～10年的数据量将呈指数级增长，而其中有着80％左右的数据为非结构化数据。面对如

【作者】

：

陈于辉

【机构】

：

云南大学

【出处】

：

云南大学

【发表日期】

：

2014年期

【关键词】

：

关系数据库四面体数据模型数据融合 Lucene开源框架非结构化安全性

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息技术的不断发展，数据也呈爆炸式增长。根据权威数据咨询机构或研究机构的预测报告显示，近5～10年的数据量将呈指数级增长，而其中有着80％左右的数据为非结构化数据。面对如此庞大的数据和信息，如何进行存储和管理，并最终为管理者提供决策依据成为迫切问题。　　关系数据库是使用最为广泛的数据库，在处理结构化数据方面具有无可比拟的效果。而非结构数据库的结构不严格，是可伸展的，结构复杂的非结构数据库有着自己特有的解析和存储方式，在处理非结构数据方面有着一定的优势。可以说，关系数据库和非结构数据库均有着各自的方法和特定，但是对于非结构数据，这种结构不固定，而绝大多数又都包括元数据，很难选择某一种发挥很好的数据管理效果。因此，对非结构化数据融合的研究是很重要和有意义的工作。　　本文总结了以往常用的非结构数据管理方式，结合Lucene开源框架在处理非结构数据上的优势，对关系数据库和非结构数据库进行融合，充分发挥关系数据库和非结构数据库的优势。另外，本文采用了李末，郎波提出的四面体数据模型将非结构化数据分解成四个特征，其中，基本属性和语义特征存储在关系数据库中，底层特征存储在xml中，以Lucene开源框架进行管理，而原始数据主要指非结构数据源文件，以文件形式存储。关系数据库和xml相互建立关联，同时xml保留着原始数据的文件路径。针对改进的融合数据库在数据一致性和安全性的问题，本文提出了“监控”方法进行保障。　　另外，本文以文档的存储和管理为例，采用面向对象方法对融合管理系统的原型进行了分析、设计和实现。

其他文献

基于DeGroot模型的群体观点软控制研究

观点动力学是研究群体观点演化和传播的重要研究领域，近几十年来受到社会学家、数学家、物理学家、经济学家的关注。目前该领域的大部分研究工作是关于群体观点如何达到同步或

学位

观点动力学软控制邻居关系图收敛速度干预机制

医学教育纵向研究数据库构建研究

期刊

纵向研究数据库医学教育评价研究

雷达数字脉冲压缩实时信号处理研究

脉冲压缩技术(简称脉压)有效地解决了雷达的作用距离和距离分辨力之间的矛盾,可以在不损失雷达威力的前提下提高雷达的距离分辩力.因此,脉冲压缩技术在雷达系统中占有极其重

学位

数字脉冲压缩数字信号处理ADSP21160快速傅里叶变换

护理学博士研究生学术论文水平评价的分析与思考

期刊

护理学学科评估学术论文评审一级学科

基于分块DCT数字图像水印技术的研究

数字水印技术是保护多媒体数据版权和图像可靠性认证的一种新技术.DCT(离散余弦变换)是已有的压缩编码标准JPEG的核心技术.本文比较系统地研究了数字水印在静止图象中的应用

学位

数字水印离散余弦变换(DCT)密钥

基于实测数据的电力负荷建模研究

随着全球能源互联网这一概念提出,电网互联范围更广、系统容量更大,大量可再生能源接入网络使得使用传统模型的系统仿真有时可能不能反映出系统的真实的运行情况。传统的仿真精度、系统控制由于受到负荷精度的影响亟待提高。在系统仿真、规划、控制、负荷预测等方面也越来越需要更加精确贴近实际负荷特性的负荷模型。但在系统规划设计中目前较多采用ZIP静态模型或带有一定比例的电动机综合模型,系统仿真受到传统负荷模型的局限

学位

实测数据电力负荷建模混合模型

Lorenz映射中的Fibonacci序列与Feigenbaum超几何收敛普适性

该文应用符号动力学理论,对流体力学中著名的Lorenz方程吸引子的一个截面沿设想的动力学不变分叶投影所构成的一个一维区间映射简化模型-Lorenz映射进行分析研究.根据Lorenz

学位

符号动力学Lorenz映射块代换广义星变换超几何收敛比Fibonacci序列

需求侧管理决策支持系统的功能扩展与实现研究

电力需求侧管理(DSM)是提高终端用电效率，优化资源配置，改善和保护环境的一种有效手段。在DSM实践过程中，人们为了提高工作效率开发了DSM决策支持系统，从而使DSM人员能够充分利用

学位

需求侧管理决策支持系统IPMVP功能扩展负荷转移

如何应对八年级数学学习过程中的两极分化

进入八年级之后，随着物理科目的介入，地理生物中考压力的增大，加之研究图形问题方法的改进和图形变换思想的扩充，函数的引进，要求学生形成系统的数学思想，有不少学习意志薄弱，学习基

期刊

两极分化数学思想应对改进

在PVM下多Agent实现中的相关技术研究——协作中的共享资源的使用

PVM是一个动态的、开放的分布式系统,Agent技术是一种全新的分布式计算技术,基于PVM的多Agent系统是有效实现网络中资源共享和任务协作的方案.该文比较了PVM与MPI在通信方面

学位

并行虚拟机消息传递PVM守护进程消息传递接口Agent多Agent系统死锁公告空间板协作

基于Lucene的非结构化数据融合研究与实现

其他学术论文