论文部分内容阅读
中文Web信息博物馆中保存了大量的知识,如何有效的挖掘和利用这些知识是一个有意义的课题。本文认为历史网页中站点首页、文章型网页、主题型导航网页都是很有价值的网页。从站点角度出发,站点首页是一个站点的门户;从知识角度出发,文章型网页包含了丰富的知识;从历史主题或者历史事件的角度出发,主题型导航网页是历史主题或者历史事件最好的概括。本文重点研究了历史网页中站点首页和主题型导航网页,并基于网页的锚文本信息实现了一个导航型网页的原型检索系统。
锚文本库是本文建立检索系统的基础。大量研究表明,锚文本与用户输入的查询特征相似,实验证明锚文本非常适用于导航型网页的检索效果。本文基于WebInfomall系统构建了海量网页的锚文本库。针对WebInfomall数据的特点,分别实现了锚文本的生成算法和增量算法,同时过滤了无效URL,有效的提高了系统运行效率。本文对库中锚文本的出现频率、锚文本长度、锚文本有效性等特征进行了统计分析,以便于其它应用场景的分析和使用。锚文本库的建立,不仅可以用于导航型网页的检索,还可以用于网页正文提取、网页发布时间估计等方面。
观察发现,历史网页库中存在一种网页主题内容单一,并且包含大量与主题相关的链接的导航型网页,本文定义为主题型导航网页。历史网页中的主题型导航网页对挖掘历史网页库中的历史主题具有重要意义。主题型导航页是人工编辑生成的网页,对主题或者事件的概括全面、准确。找到了主题型导航页,也就找到了一个历史事件的入口,从而可以更深入了解历史事件。
基于主题型导航网页的定义,本文使用SVM分类器从海量历史网页中筛选出主题型导航网页。本文首先从网页库中随机找到1997个网页,人工标注后仅有12个正例样本。因为正例样本过少,因此从国内主流门户网站上抓取了352个主题型导航网页作为正例样本补充到训练集中。本文统计分析了训练集网页的网页长度、网页链接出度、网页锚文本平均长度、网页锚文本最高词频、URL反斜杠数、URL中特殊字符频率等特征,对训练集进行5-folder评测准确率达到95.5%。利用训练得到的分类器筛选海量历史网页,从分类结果的正例样本中随机抽取184个网页进行人工评测,分类器的准确率为68%。
最后本文基于锚文本库和网页标题,并利用网页的链接关系设计了导航型网页检索模型。模型首先对锚文本进行切词处理。通过语言模型综合考虑网页与查询的相关性和网页的重要性,以此来估计网页的排名。本文对CWT200G数据集的3700万网页进行评测,实验表明ADM模型对站点首页检索效果最好,MRR值为0.71。ALRM模型对主题型导航网页的检索效果最优,P@10值为0.37。