基于用户反馈的多源非结构化数据集成研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:dhtmlbox
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着数字化的不断进步,人类社会的数据总量越来越大,这些数据已经成为一种有价值的战略资产,越来越受各国政府的重视。在此背景下,中国工程院于2012年启动了工程科技知识服务系统项目,目的是打通我国工程科技领域海量数据。让众多独立的工程科技数据源统一提供数据服务所面临的主要挑战有:由于分布式环境下的网络带宽的限制,普通的集成方式下数据访问效率较低;工程科技数据中非结构化数据占有较大比重,关系型数据处理方式无法兼容非结构化数据的查询处理等。本文基于工程科技知识服务系统的项目背景,对多源非结构化数据的集成技术进行了研究,提出了基于用户反馈的多源非结构化数据集成解决方案以提升集成框架的查询效率。本文的主要工作有:(1)归纳总结了国内外对数据集成和非结构化数据处理的技术研究,特别是文本和图像类型,并研究了用户反馈的理论和方法。(2)提出了基于用户反馈的多源非结构化数据集成框架,在传统的中间件模式数据集成架构基础上增加了用户反馈模块,通过用户可信度加权用户投票来比较各数据源在不同查询下的相似度,辅助数据源选择和结果合并。(3)结合数据源采样、历史查询记录和用户反馈设计实现了数据源选择算法和结果合并算法。最后,使用MIRFlickr数据集设计实验,观察新的架构和算法对查询效率的影响,验证其可行性。
其他文献
图像工程根据研究方法的不同可以分为三个层次:图像处理、图像分析和图像理解,图像工程是三者的有机结合及它们工程应用的总称。图像滤波和边缘检测技术是图像分析和处理的基
植物叶片识别对于相关植物知识的普及和植物学相关学科的发展有一定的促进作用,对于研究植物的系统的进化具有很重要的意义。近年来,国内外在植物叶片识别方面的研究取得了很
自动抄表系统利用现代通信和计算机技术实现对远程流量计量器的实时监控与数量采集,提高企业的运营效率,方便用户的使用。自动抄表系统中数据收集转发器保障外部设备与远程流
电子商务的大繁荣使得数以万计的用户开始通过网络购买各种产品、服务,并在线发表评论信息。许多消费者在购买某种产品或服务的时候,通常会先参考之前购买者的评论信息,获得直观
半监督学习是近年来倍受人们关注的新的机器学习方法,本文将李群理论引入到半监督学习领域中,给出了基于李群的半监督学习算法。主要包括以下几方面内容:1.分析了半监督学习
伴随信息技术的发展以及无线通信设备普及,移动学习(M-Learning)应运而生。移动学习是一种新型的学习方式,它充分利用无线技术和移动计算机设备来辅助教学,为学生通过移动设
学位
自动交换光网络(ASON,Automatic Switched Optical Network)是下一代光网络的发展方向。随着ASON网络规模日益扩大,如果将所有网络设备放在同一路由域内来管理,则单个节点需
调试在程序的开发与维护阶段占据相当大的比重,而定位错误则是调试过程中至关重要的一个步骤。由于手工定位错误往往缺乏导向性,因此需要耗费程序员大量的时间和精力,而且往往效
关联规则挖掘是数据挖掘的一个重要组成部分,频繁集挖掘是关联规则挖掘的关键步骤,它在很大程度上决定了关联规则挖掘的效率。本文分析和研究了两种著名的频集算法Apriori和F