基于神经网络的网页排序学习算法研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:zhennanquming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,搜索引擎的重要性与日俱增。如何有效的查找需要的信息是非常关键的,一个好的搜索引擎可以极大的节省用户查找信息的时间。搜索引擎包含多个组成部分,其中网页排序是搜索引擎设计的核心问题,排序结果的准确率直接决定了搜索引擎的性能和用户体验。信息检索领域中有许多的网页排序算法,其中以样本对级别方法的模型应用比较广泛。在样本对级别方法的模型中,有一类是基于神经网络结构的,其中以RankNet算法比较具有代表性。RankNet算法虽然简单易用,却也存在着样本对级别方法本身固有的不足:查询之间不具备平等性;每一个文档序对是平等的,各文档序对之间没有优先关系。这是与网页评价标准的原则相违背的。 本文提出了对基于样本对级别方法的神经网络排序算法的改进思路。文章以RankNet算法为例,对其进行了改进。一是构造了新的误差函数,对误差函数加入查询的平等性信息,并结合神经网络的特点,分析了不对其加入文档位置权重信息的原因;二是对神经网络的训练过程也进行了改进,通过扩充训练样本集,使其加入查询的平等性信息和文档位置权重信息,使模型的学习过程更符合网页评价标准的原则,以达到提高排序精度的目的。 本文在LETOR(TREC2003,TREC2004,OHSUMED)数据集上进行了实验,分别利用2层神经网络模型和3层神经网络模型来进行学习。并且通过交叉校验的方法来避免过拟合。实验采取了多个评估指标进行衡量。实验结果表明改进算法比起原有的RankNet算法能够有效的提高网页排序的精度。
其他文献
近年来,随着互联网中数字图像不断激增,如何在海量图像中迅速准确地进行分类显然已经成为亟需解决的问题之一。现有的许多图像分类方法一般是通过提取图像底层特征来获得图像视
关联规则挖掘和文本分类都是数据挖掘领域的核心问题,两种方法都被广泛应用于许多其它数据挖掘任务中,近年来越来越受到学术界的关注。本文对关联规则在文本分类中的应用进行
本文的目的是研究进化算法,特别是具有量子行为的粒子群算法,解决多目标优化问题。在科学应用和实际应用领域中,普遍存在着多目标决策的问题,各个目标之间往往是相互冲突的,
税收制度作为规范国家和纳税人之间税收分配关系的法律制度,在现实经济生活中具有十分重要的意义。而税收流失的现象严重影响着国家的发展。因此,加强税务信息化建设,有效减少税收流失显得尤为重要。完善的税收体制是维护国家权益的重要保障。GB18240.7国标样机系统的研发项目,主要是针对使用POS系统、业务系统进行企业管理、财务管理的大型零售商场、超市、大卖场以及大型连锁快餐业目前在用的收款机系统进行税控改
近年来,以Web服务为基础的面向服务的体系架构的迅速发展,为互联网应用提供了一种共享数据的有效手段。Web服务组合为企业业务应用提供了极大的灵活性。然而,随着网络上Web服务
随着国内移动通信网络即将向3G演进,数据业务势必将得到空前发展。无线应用协议(WAP)是互联网和移动通信技术的有机结合,是一种向移动终端提供互联网信息内容和增值服务的全
作为新一代的IT商业模式,云计算受到了广泛关注。然而,云计算在急速发展的同时也带来了一系列的问题,首当其冲的就是云端数据的有效管理问题。如何高效的管理云端数据、提高系统
优化奶牛品种、提高牛奶产量与品质是奶业生产中的核心环节。奶牛体型线性评定是奶牛优化育种工作的一项重要内容,其主要目的是通过评定来预测奶牛的产奶能力,同时估测育种值,组
高分辨率应用程序在日常生活中使用广泛,对于这些应用程序,可以使用高清平板液晶显示器或等离子显示器作为输出设备。然而,此类设备受到物理的限制,显示屏幕的尺寸有限。与其
近年来,说话人识别技术日趋成熟,说话人识别作为生物认证技术的一种,有它独特的优势,比如声音是非接触的,自然的,用户比较容易接受。由于语音这一媒介自身特殊的优势,通过声