专用搜索引擎中信息采集的预测与过滤方法

来源 :全国搜索引擎和网上信息挖掘学术讨论会 | 被引量 : 0次 | 上传用户:jackyong63
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web信息急速膨胀使搜索引擎专用化成为发展趋势.有效定向采集过滤专业信息成为搜索引擎一个重要研究方向.本文提出一种基于潜在语义索引的Web信息预测采集过滤方法.在样本文档集潜在语义索引对文档相似计算基础上,构造出用户兴趣模型,判断页面相关性进行文本过滤.通过对Web站点结构分析,对未知网页的相关性的预测来控制信息的采集.在保持定向采集精度的同时,缩短采集时间、减少存储、加快检索,节约网络资源.
其他文献
  DCS集散型控制系统是新型干法水泥生产线的神经中枢,对生产工艺过程自动化控制、机械、电气设备的安全运行起着关键性的控制和管理作用.本文对施耐德DCS控制系统,从网络
  本文首先介绍了集散控制系统在国内水泥行业的应用情况,阐述了现代水泥工业工艺特点并由此提出了DCS水泥设计方案,其中着重介绍了国产ECS-100集散控制系统的结构特点及在
  变频器和PLC在水泥生产中应用广泛,变频设备采用PLC控制的范例也很多.变频器既受现场的供电和用电设备的干扰,更会对其它设备产生干扰.文中介绍了水泥生产过程中变频器产
  本文针对水泥厂新型干法生产工艺的要求和特点,设计了一套基于集散控制系统的水泥生产过程自动化整体解决方案,整个系统包括生料制备系统、窑尾控制系统、窑头煤磨控制系
  本文通过实现优化控制、提供完善的保护和充足的信息,可以使在线脉冲袋式收尘器更加安全高效运行,充分发挥收尘作用,保证收尘器达到并超越设计指标.
Web爬虫是搜索引擎和Web信息检索系统的重要基础.本文介绍了一个大型分布式爬虫系统Igloo 1.2版所采用的性能优化措施.它采用分布式的系统结构,通过有效的性能优化方法,如高
本文在向量空间模型和概率推理网络的基础上提出了一个基于关键词与概念相结合的混合信息检索模型.该模型能够融合关键词检索和概念检索的优势,弥补它们的不足,而且能够根据
本文首先介绍了搜索引擎现状及其工作原理,然后给出了搜索引擎中的几项关键应用技术:机器人、信息检索、自然语言理解、可扩展标记语言等,最后结合当前搜索引擎最新的几个研
主题搜索引擎是主题Web信息博物馆的关键组成部分.本文重点探讨了以敦煌学主题Web信息为样本的主题搜索引擎信息采集策略,并给出了一种比较理想的主题搜索引擎设计方案.
基于Web的FTP文件搜索引擎作为专门查找文件的工具越来越受到人们的关注.虽然FTP搜索引擎技术上没有像WWW搜索引擎那样复杂,但近年来一些FTP搜索引擎展示的施工方便实用的功