数据空间中时间为中心的集合实体识别策略

来源 :第29届中国数据库学术会议 | 被引量 : 0次 | 上传用户:QQ359780695
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  数据空间是一个异构的环境,并且数据及模式具有随时间演化的特性.已有的实体识别技术很少考虑时间信息在识别中所起的作用,并且没有考虑实体随时间演化的特性.针对数据空间中具有时间信息的实体识别,提出了一个四阶段的时间为中心的集合实体识别策略(T-CER).T-CER在实体识别过程的不同阶段都考虑了时间信息所起的作用,在识别阶段提出了基于时间的聚类算法(T-Clustering),并使用基于时间的约束对识别结果进行检查,以获得更精确的识别结果.在真实数据集上的大量实验结果表明了T-CER的可行性和有效性.
其他文献
大名鼎鼎的莱昂内尔-巴斯特-克拉比曾经是英国的海军英雄,凭借过人的本领和胆识,他获得“第一蛙人”的美誉,此外也一度有传闻说,他就是超级间谍007的原型。然而令所有英国人
  由于概率维的存在,使得准确高效地处理不确定数据的Top-k查询成为一个急需解决的难题。提出了一种利用控制关系分析(DRA)的不确定数据Top-k查询算法。该算法通过分析元组
  高维数据集合的最近邻查询性能会受到“维数灾难”现象的影响。提出了一种基于联合聚类的HC2高维索引结构。首先通过联合聚类算法同时降低数据尺寸和维数,将高维数据集合
会议
集群划分是实现分布式能源网络优化调控的基础环节.文中提出含热电联产机组的分布式能源网络集群划分方法.首先,提出综合考虑结构性与功能性的集群划分指标体系:结构上采用计
  针对当前需要对海量的文本数据进行分类和用于训练的带标记的文本数据非常匮乏这两个问题,结合半监督的朴素贝叶斯分类算法和Map-Reduce编程模型,提出了一种新型的并行化
能源危机和变革给传统的输电模式带来了巨大的挑战.柔性直流电网以其灵活、可控、高效等特点,成为新的电力输送方式之一,但在关键技术与装备等方面仍存在较多问题有待解决.文
  变异测试是一种基于缺陷的软件测试技术,在近四十年得到国内外学者的广泛关注,并取得了一些研究成果。对已有的研究工作进行总结,将其分为变异测试原理、优化和应用三个模块
会议
  微博不同于传统的社会网络和电子商务网站,存在用户活跃程度低,微博数据稀疏和用户兴趣动态变化等特点,将传统推荐算法应用于微博推荐时,效果并不理想。提出了一种基于贝叶斯
会议
1922年生于广东汕头的吴南生,是改革开放第一批“闯将”、广东省经济特区早期的主要拓荒者。他于1979年3月向中央提议,“广东应在改革开放中先走一步,划出一块地方,用各种优
  DBSCAN算法是一种典型的基于密度的聚类算法。该算法可以识别任意形状的类簇,但聚类结果依赖于参数Eps和MinPts的选择,而且对于一些密度差别较大的数据集,可能得不到具有正