基于网页锚文本的导航性信息提取与检索算法的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户：zbz963

【摘要】

：

中文Web信息博物馆中保存了大量的知识，如何有效的挖掘和利用这些知识是一个有意义的课题。本文认为历史网页中站点首页、文章型网页、主题型导航网页都是很有价值的网页。从

【作者】

：

陈鹏

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2010年期

【关键词】

：

网页锚文本导航网页信息提取检索算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

中文Web信息博物馆中保存了大量的知识，如何有效的挖掘和利用这些知识是一个有意义的课题。本文认为历史网页中站点首页、文章型网页、主题型导航网页都是很有价值的网页。从站点角度出发，站点首页是一个站点的门户；从知识角度出发，文章型网页包含了丰富的知识；从历史主题或者历史事件的角度出发，主题型导航网页是历史主题或者历史事件最好的概括。本文重点研究了历史网页中站点首页和主题型导航网页，并基于网页的锚文本信息实现了一个导航型网页的原型检索系统。　　锚文本库是本文建立检索系统的基础。大量研究表明，锚文本与用户输入的查询特征相似，实验证明锚文本非常适用于导航型网页的检索效果。本文基于WebInfomall系统构建了海量网页的锚文本库。针对WebInfomall数据的特点，分别实现了锚文本的生成算法和增量算法，同时过滤了无效URL，有效的提高了系统运行效率。本文对库中锚文本的出现频率、锚文本长度、锚文本有效性等特征进行了统计分析，以便于其它应用场景的分析和使用。锚文本库的建立，不仅可以用于导航型网页的检索，还可以用于网页正文提取、网页发布时间估计等方面。　　观察发现，历史网页库中存在一种网页主题内容单一，并且包含大量与主题相关的链接的导航型网页，本文定义为主题型导航网页。历史网页中的主题型导航网页对挖掘历史网页库中的历史主题具有重要意义。主题型导航页是人工编辑生成的网页，对主题或者事件的概括全面、准确。找到了主题型导航页，也就找到了一个历史事件的入口，从而可以更深入了解历史事件。　　基于主题型导航网页的定义，本文使用SVM分类器从海量历史网页中筛选出主题型导航网页。本文首先从网页库中随机找到1997个网页，人工标注后仅有12个正例样本。因为正例样本过少，因此从国内主流门户网站上抓取了352个主题型导航网页作为正例样本补充到训练集中。本文统计分析了训练集网页的网页长度、网页链接出度、网页锚文本平均长度、网页锚文本最高词频、URL反斜杠数、URL中特殊字符频率等特征，对训练集进行5-folder评测准确率达到95.5％。利用训练得到的分类器筛选海量历史网页，从分类结果的正例样本中随机抽取184个网页进行人工评测，分类器的准确率为68％。　　最后本文基于锚文本库和网页标题，并利用网页的链接关系设计了导航型网页检索模型。模型首先对锚文本进行切词处理。通过语言模型综合考虑网页与查询的相关性和网页的重要性，以此来估计网页的排名。本文对CWT200G数据集的3700万网页进行评测，实验表明ADM模型对站点首页检索效果最好，MRR值为0.71。ALRM模型对主题型导航网页的检索效果最优，P@10值为0.37。

其他文献

面向动态场景的同时定位与地图创建

同时定位与地图创建是指机器人在移动过程中根据传感器数据创建环境地图的同时进行自身位姿的估计。目前,很多同时定位与地图创建的研究都是在假设环境只包含有静态目标的前

学位

移动机器人同时定位地图创建动态场景移动目标检测位姿估计

一种基于树结构的本体复合映射方法

随着本体研究的开展与深入,本体被广泛应用到各个领域之中,越来越多的本体被构建用以表示知识与共享知识。由于不同领域问题的不同特征以及网络的分布性,不同领域构建的本体

学位

本体本体异构本体映射树结构子树划分复合映射

基于DFT的矢量地图数字水印算法研究

随着计算机技术的快速发展和因特网的日益普及，各种媒体内容被转化为数字形式，提高了信息表达的效率和准确性，但是数字产品极易被非法复制，盗版已经对数字化产业构成最大的威胁。

学位

矢量地图数字水印四叉树划分法离散傅立叶变换

具有新跳转策略的Web图PPS抽样方法实验研究

面对Web所提供的仍在不断扩张的信息海洋，抽样是研究人员了解Web整体特征情况最有力的工具。抽样是一种推论统计方法，它是指从目标总体(Population)中抽取一部分个体作为样本(S

学位

Web图随机游走跳转策略PPS抽样法评测指标

AmazingStore：高动态性环境下高效的P2P存储系统

P2P存储系统具有良好的扩展性，并且能够利用边缘网络计算机上的数量巨大的存储容量和网络带宽，具有巨大的服务潜力。自提出以来一直受到学术界的关注，但在其后的时期内却没有出

学位

P2P存储系统AmazingStore高动态性环境可靠性分析响应能力

对SLCA进行语义分析的XML关键字查询

XML结构查询算法能根据精确的查询条件输出理想的查询结果。不过，该算法不仅要求查询用户熟悉结构查询算法所采用的查询语言，而且还要求了解待查询的XML文档树结构。这些要求对

学位

XML结构关键字查询SLCA语义路径查询语义相关性

车载自组织网络模拟中的移动模型与地图效应

车载自组织网络(Vehicular Ad hoc NETwork,VANET)是一种以车载无线设备为节点组成的新型的无线自组织网络。与传统的移动自组织网络(Mobile Adhoc NETwork,MANET)相比,车载

学位

车载自组织网络车载网络模拟移动模型地图效应网络协议

Web富客户端缓存框架的设计与实现

随着互联网的发展，Web应用技术不断推陈出新。这期间，客户端和服务器端的通讯机制发生了巨大改变。以通讯机制中的通讯方式和数据交换格式为依据，Web应用可以分为三类：传统的文档

学位

数据交换缓存策略自适应算法通讯机制面向服务

基于本体知识库的查询扩展方法研究与应用

随着互联网的高速发展和广泛应用,web网已成为最大的信息资源仓库,包含几乎任何领域内的数据资源,使用户能方便的获取或共享web空间的信息资源。但信息资源过载始终是制约web

学位

本体知识库查询解析本体存储查询扩展搜索引擎

ad hoc网络路由协议的仿真优化

移动互联网络的发展，便捷了移动用户使用，加速了无线互联网的快速发展，其巨大的发展前景成为当前全球互联网络的重要发展内容。移动无线网络中的ad hoc网络因具有各节点地位平等

学位

adhoc网络NS2仿真路由协议资源分配海量信息

基于网页锚文本的导航性信息提取与检索算法的研究与实现

其他学术论文