一种基于模式的实体解析算法

来源 :计算机学报 | 被引量 : 0次 | 上传用户:esinstra
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体解析是数据融合和数据清洗的关键步骤,旨在从大量的数据集中找出描述相同实体的记录.当前主要有两种基本的解决思路,一种是穷尽式的实体解析,通过两两比较数据集中的所有记录,然后再合并相似的记录,从而找到描述某一个实体的若干记录集合.然而,该方法的计算复杂度比较高(O(n2),其中n表示数据集合的规模),难以处理大型数据集合.另一种思路是基于分块的实体解析,它调用特定的分块函数(如哈希函数、滑动窗口技术等)将集合中较为相似的记录划分到同一个块中,再仅对属于同一块中的记录进行两两比较.这种方法显著降低了运行时间,但会损失部分精度,因为某些描述同一实体的记录可能没有被分到同一个块中.文中提出了一种基于模式的实体解析算法,通过将相似的记录合并成记录集合并尝试生成对应的记录模式,然后进行模式之间的两两比较来产生一个边界值,以确定对应的记录集合是否需要进行进一步的精确比较,从而判断是否属于同一个实体.与第一种方法相比,该方法可有效地过滤部分不可能相似的记录,从而避免了针对所有数据记录进行两两比较,显著地降低了时间复杂度;与第二种方法相比,该方法并不损失任何精度.基于真实和模拟数据集合的实验结果验证了新方法的执行效率和有效性.
其他文献
<正> 1989年以来,我科在药物治疗肺心病时配合呼吸锻炼,取得了良好的效果。就呼吸锻炼的理论依据、具体方法及初步体会作一简要介绍。 一、呼吸锻炼的理论依据 肺气肿的主要
行人再识别是一个有着非常重要现实意义的研究问题,它可以应用于刑事侦查、在公共场所中寻找丢失的小孩、个人相册管理以及电子商务等领域.同时由于光照、视角、人的姿态以及
UWSN(Underwater Wireless Sensor Networks)相较于传统的无线传感器网络采用了声信号进行数据传输,由于高传输延迟的引入,冲突类数据丢失现象凸显,网络可靠通信面临全新的挑战
随着智能移动终端的普及和移动应用对计算资源需求的不断增长,移动终端资源(包括计算、存储、能量等)受限问题日益突出,如何扩展移动终端资源成为移动计算领域需要迫切解决的
由于现有的基于双线性映射的无证书签密方案存在计算效率低的不足,因此一种不使用双线性映射的新的无证书签密方案由Zhu等人提出;同时,在随机谕言机模型中对该方案的安全性进
网络坐标是根据网络测量时延将节点嵌入虚拟度量空间,根据坐标位置预测节点时延的模型和算法.然而通过网络测量发现互联网中广泛存在非对称和反三角(Triangle Inequality Viol
迁安三里河生恋廊遒穿越中国迁安城长选13.4km宽100m-300m不等。三里河曾经多年作为咐近的垃圾场和排污点它的改造是一个关于如何把荒废的景观转变为生态基础设施和日常景观
本项目的用地位于北京市区东四环附近,计划在30hm2的基地上开发连接北京和沈阳的高铁车站和从北京市市区延伸而来的地铁线路上的新车站,并建设与新地铁站一体化的复合开发项
这个项目需要应对非常特殊的环境,主要是复原现有的木砖石建筑,在一个坡屋顶下创造出协调统一的综合体。设计从现有的材料条件出发,依赖于其自身的居住的可能性。
这座老旧的农场住宅包含5栋建筑,坐落在非常接近哈斯贝克城堡的一块特殊场地上。想要复兴残破的建筑,却又不能以怀旧的方式重建它,那么应该采用什么样的策略呢?关键的问题是,