主题信息采集与检索结果排序策略的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:zhuyanhua421
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet已经成为目前世界上最大的信息资源库,但是网上信息资源纷繁复杂,如何满足人们对快速、准确而全面获耳义信息的要求,已经成为摆在人们面前的一大难题。本文主要探讨了主题的相关技术在搜索引擎系统中的应用,针对主题信息采集与检索主题相关性排序设计并实现了这两种策略。 这篇论文主要从理论和实践两个方面探讨了面向主题搜索中的两个关键算法——主题信息采集和检索主题相关性排序。在主题信息采集方面:将基于内容的相关度判定和基于链接的相关度判定算法相结合,设计了一种更优的主题信息采集策略。该策略兼顾了网页的相关性和主题精度,能够在不遍历大量无关页面的情况下,获得期望页面,提高主题相关页面的获取效率和准确性:在检索主题相关性排序方面:结合了网页重要度、网页主题相关度和查询相关度的评价。网页重要度的评价有效地利用了Web所拥有的庞大链接构造的特性,将重要的网页给与较高的评价;网页主题相关度的评价不仅具有清晰、简单、较小的计算复杂度等特点,而且能够很好得计算网页与主题的相似程度。查询相关度的评价描述了索引网页与用户查询的相似程度。这三个评价的结合可以使质量好的满足用户需求的主题页面排在返回结果的前面。 试验结果显示,从查准率、查全率以及检索结果来看,该工作是有效的,提出的策略有很强的实际可行性。 文章的最后对两种算法做以总结,并对未来的工作进行了展望。
其他文献
声纹识别,也称说话人识别,它是通过对说话人的语音信号进行分析,而对说话人进行确认(Verification)或鉴别(Identification)的一种技术,已经在安全支付、声纹解锁、公安刑侦等许多
关键词检出是从连续语音中检测并确认给定的若干个特定词。它是连续语音识别的一个重要分支,有着广阔的应用前景,已成为近年来颇受重视的一个研究方向。传统的关键词检出系统一
随着Internet的发展,基于网络的应用系统越来越多,现代社会对网络的依赖日益增强,同时网络的安全也面临着巨大的挑战。面对威胁,众多安全机构研发了许多安全产品,但攻击者的
随着数据库技术的发展以及数据库管理系统的广泛应用,出现了数据爆炸但知识贫乏的现象,数据挖掘随之产生。它是一项通过对海量数掘进行提取、逻辑分析等处理操作来获得潜在有用
近些年来,随着Internet的日益普及,构建基于Web的B/S结构的管理信息系统的需求越来越复杂,同时对系统的稳定性、扩展性和可维护性要求也越来越高,这就给Web应用开发带来了新的挑
无线传感器网络(WSNs)广泛应用于环境监测、交通控制等诸多领域。事件检测作为无线传感器网络的重要应用之一,受到越来越多的重视。然而由于传感器节点具有感知准确性低、硬件
在互联网广泛普及以及宽带网络高速发展的今天,对网络带宽要求较高的网络多媒体技术也发展迅猛,其中流媒体(Streaming Media)视频技术相关开发与应用成为当前的热点之一。然而
个性化推荐是根据用户的偏好和行为特点向用户推荐感兴趣信息的过程。在未来的智能电视系统中,真正的智能视频推荐应该是不需要用户评分动作就能自动、准确地获得用户兴趣、爱
随着Internet上可获得的Web服务的数量急剧增多,如何能够在服务发现基础上,从大量实现相同功能的Web服务中选取出合适的服务进行服务组合已经成为了一个亟待解决的服务选取问题
随着网络技术和Internet的迅速发展,通过Web方式来发布企业应用系统越来越成为时尚,而基于浏览器/服务器(B/S)的应用成为开发者的首选。 不同的Web应用因所属环境不同,具有特