论文部分内容阅读
随着数据库技术在交通、娱乐等领域的普及应用,国内外学者们开始探究如何从多维数据中筛选出满足查询需求的关键数据。而 Skyline 查询作为当今信息技术领域中高效的检索方案之一,能够有效地筛选出符合用户所给出的多偏好查询需求的对象点集。由于移动设备及其配套服务与设施的快速普及,各类移动应用中产生了海量的空间文本数据。针对空间文本数据中复杂的属性构成,传统Skyline查询方法在有效性、通用性等方面存在着许多缺陷与不足之处。鉴于此,本文从实际生活中真实的查询场景出发,针对面向空间文本数据的 Skyline 查询特点进行多方位的研究,主要研究工作如下:
(1) 探究现有工作在解决道路网空间上连续关键词 Skyline 查询问题上的不足,提出了一种基于空间索引的连续关键词Skyline查询算法——ICKS算法。该算法将查询计算过程中与用户相关的因素进行剥离,给出了 Skyline 路段集的概念。基于此,提出了一种针对道路网路段信息的索引结构LMR-Tree,将复杂的道路网支配关系计算转化为计算Skyline路段集中的道路网地标信息,有效地减少了道路网支配计算次数,并利用倒排索引和哈希表进一步优化关键词匹配计算的过程。
(2) 考虑用户可能更关注于满足查询偏好的局部数据间优劣关系,提出了一种关键词优先的空间Skyline查询算法——KFSS算法。为了充分满足查询用户的偏好性需求,定义了一种基于加权距离的空间文本支配模型,并给出了一种空间文本索引结构STR-Tree。基于该索引,利用位图与倒排索引相结合的方式,可快速剪枝不满足查询条件的无关对象点。其次,在支配计算的过程中该算法利用最小值过滤法和求和过滤法两种剪枝策略,有效地减少了空间文本支配计算次数。最后,采用模拟数据集对KFSS算法进行了对比实验,并在真实数据集上进一步验证了算法的查询性能。实验结果表明,KFSS算法相较于现有算法更为高效。
(3) 由于用户在查询过程中可能仅关注于数据的部分数值型属性维度组合,考虑子查询空间上关键词Skyline查询问题,提出了一种可以解决该问题的Naive算法。为了返回一组结果规模可控且参考价值较高的结果集,给出了一种基于对象点权重的子查询空间上关键词 Skyline查询算法——KTS 算法。该算法给出了一种对象点权重的度量方案,考虑 Skyline 频率和关键词频率的影响,可有效衡量对象点在查询结果集中的价值大小。其次,针对 Skyline 频率计算过程,提出了一种高效的全体子查询空间上Skyline结果集计算方法,进一步优化了计算效率。
(1) 探究现有工作在解决道路网空间上连续关键词 Skyline 查询问题上的不足,提出了一种基于空间索引的连续关键词Skyline查询算法——ICKS算法。该算法将查询计算过程中与用户相关的因素进行剥离,给出了 Skyline 路段集的概念。基于此,提出了一种针对道路网路段信息的索引结构LMR-Tree,将复杂的道路网支配关系计算转化为计算Skyline路段集中的道路网地标信息,有效地减少了道路网支配计算次数,并利用倒排索引和哈希表进一步优化关键词匹配计算的过程。
(2) 考虑用户可能更关注于满足查询偏好的局部数据间优劣关系,提出了一种关键词优先的空间Skyline查询算法——KFSS算法。为了充分满足查询用户的偏好性需求,定义了一种基于加权距离的空间文本支配模型,并给出了一种空间文本索引结构STR-Tree。基于该索引,利用位图与倒排索引相结合的方式,可快速剪枝不满足查询条件的无关对象点。其次,在支配计算的过程中该算法利用最小值过滤法和求和过滤法两种剪枝策略,有效地减少了空间文本支配计算次数。最后,采用模拟数据集对KFSS算法进行了对比实验,并在真实数据集上进一步验证了算法的查询性能。实验结果表明,KFSS算法相较于现有算法更为高效。
(3) 由于用户在查询过程中可能仅关注于数据的部分数值型属性维度组合,考虑子查询空间上关键词Skyline查询问题,提出了一种可以解决该问题的Naive算法。为了返回一组结果规模可控且参考价值较高的结果集,给出了一种基于对象点权重的子查询空间上关键词 Skyline查询算法——KTS 算法。该算法给出了一种对象点权重的度量方案,考虑 Skyline 频率和关键词频率的影响,可有效衡量对象点在查询结果集中的价值大小。其次,针对 Skyline 频率计算过程,提出了一种高效的全体子查询空间上Skyline结果集计算方法,进一步优化了计算效率。