【摘 要】
:
本文介绍了对有规则路径表示的XML数据查询的处理方法,包括传统的处理方法、改进的处理方法及相关的理论基础;然后提出了用动态规划算法对XML数据查询的处理进行优化,包括设计步骤和具体算法;最后对全文内容进行了简要总结.
【出 处】
:
全国搜索引擎和网上信息挖掘学术讨论会
论文部分内容阅读
本文介绍了对有规则路径表示的XML数据查询的处理方法,包括传统的处理方法、改进的处理方法及相关的理论基础;然后提出了用动态规划算法对XML数据查询的处理进行优化,包括设计步骤和具体算法;最后对全文内容进行了简要总结.
其他文献
针对中文网页,比较研究了kNN和NB分类算法.主要的实验结果有:(1)kNN的分类质量明显优于NB;(2)即使是同一个算法对于不同领域的文档,其分类能力也是各有差异的.从总体而言,NB算法对不同类别比较敏感,是一种不稳定的分类算法,kNN的分类质量受领域的影响不大.
本文通过对Web文本中信息分布特性的考察,重点研究了网页内容、网页内向链接结构、网页链接文字和URL四个部分的信息特征,并针对每种特性的信息分布,提出新的检索策略,是对传统信息检索模型的一种改进.文中提出主特征域和主特征空间的概念,在传统词的权重计算中引入主特征词信息因子,改进检索效果.并将网页的内向链接作为主要依据,对Web中的多主题文档进行分段检索.在TREC大规模测试数据集合上的实验表明,综
特征选择在文本自动分类中扮演了比较关键的角色,本文在词的类间概率分布基础上,使用分布函数的区分度和相似度,将噪声词的去除和保留词的聚类相结合,提出了一种新的文本特征选择算法,实验结果表明,该算法具有较好的性能效果.
随着多媒体技术和因特网迅速发展,网上的图像资源日益丰富,图像检索成为重要的研究课题.本文提出了一种基于信息表征的图像检索方法,给出了图像的内容属性的表征方法以及利用改进的信息测度公式衡量图像相似性的方法.文中还给出了利用这种方法进行网上图像检索的初步实验结果.实验表明,这种图像检索方法对改善检索结果的相关性具有很好的效果.
万维网上数据量的急剧增加,使得人工从网上获取有效的信息变得十分困难.网页分类技术成为解决这个矛盾的关键技术之一.本文介绍的网页分类系统(HCS)综合考虑了网页中的文本信息和结构信息,用Naive Bayes和SVM等分类算法实现了网页的多层次多类别的分类.文中结合网页分类中的网页表示、特征提取、分类算法等技术讨论了HCS的设计、实现及其特点.实验结果表明HCS所采用的方法是有效的.文章最后指出了改
本文首先提出了一种基于最小损失的支持向量机模型(SLMBSVMs),该模型中参数n反映了两类错误损失率的比值.随后,借助SLMBSVMs的特性构造两个SVM并将其与KNN相结合提出了一种SLMBSVM与KNN相结合的网页分类算法,实验证明,该算法是切实有效的,具有较高的精确度.
本文介绍了北京大学天网知名度系统的设计与开发工作,重点论述了其中网页相关度评价的因素、算法和相应的检索结果.系统在北京大学天网搜索引擎的基础上,运用中文信息提取的新技术,结合网页信息的特点,针对名人网页的检索提出了一种新的网页相关度评价算法,改善了检索结果的排序合理性,提高了名人网页检索服务的质量.
本文受传统信息检索中对文本结构信息挖掘的启发,针对Web页面特点,提出基于HTML标签处理的加权策略,用于Internet搜索引擎.引言简单介绍纯文本信息检索中的词加权方法;第二部分在纯文本文档的加权公式tfidf的基础上,结合HTML标签特性,给出一个新的索引词加权公式;实验部分用布尔模型和扩展布尔模型分别对这两种方法进行了比较.结果表明采用布尔模型时,后者在系统的查准率和查全率方面都要优于前者
Internet高速发展,信息量书刊号膨胀.通常用户关心的可访问Web信息并不是存放在数据库系统中,而是在HTML页面中.HTML是一种显示描述语言,缺乏结构和元数据信息.通过浏览器,人可以非常直观地获取自己关心的知识和信息,但是计算机却难以理解这些HTML文档.这给信息集成、信息交换、Web知识挖掘、Web信皮的精确查询带来极大的不便.本文提出一种新的基于XML技术的Web信息提取算法.本算法分
基于Nosey Parker的FTP搜索引擎的配置和优化特点,本文探讨了特殊用途FTP搜索引擎的系统原理和优化方向,为用户带来方便.