搜索引擎检索结果的自动分类研究

来源 :北京大学 | 被引量 : 0次 | 上传用户：SONGZHIQIANGAAAA

【摘要】

：

搜索引擎的出现大大便利了人们对于网络信息的查找，使得我们能够在海量的网页中查找所需的信息，但另一方面也颠覆了传统的信息组织方式。在图书馆这个古老的信息管理机构中，分类

【作者】

：

李孟臣

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2008年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

搜索引擎的出现大大便利了人们对于网络信息的查找，使得我们能够在海量的网页中查找所需的信息，但另一方面也颠覆了传统的信息组织方式。在图书馆这个古老的信息管理机构中，分类是组织、利用信息的主要手段。而在Web环境下，分类组织的方法没有得到充分的利用。尽管Google和Windows Vista给我们带来了强大、高效的检索工具，但是，单纯依赖搜索，是不能全方位满足用户的信息需求的，这两者需要进行有机的结合。　　为了弥补信息检索的不足，本文尝试将分类的方法和信息检索结合起来，实现检索结果的自动分类。我们在Google Book的基础上实现了一个原型系统，通过自动分类的方法对检索结果进行组织。在此基础上，我们还提出了“协同分类”的概念，通过收集大量用户的隐式反馈来提高系统自动分类的准确率。本文的主要贡献包含以下四点：　　 1.通过前期的离线实验来调整CA(中心点算法)分类器和SVM分类器的性能，使之适合于Google Book的检索结果自动分类。Google Book检索结果自动分类具有三个特点：数据稀疏、类目体系庞大和实时在线分类。为了让我们的分类器能更好地适应这三大特点，我们通过一系列实验来确定分类器的最佳设置与组合。　　 2.使用大型类目体系来组织检索结果。一般的检索结果自动分类研究中所使用的类目体系都比较简单，大多只有几十个类目、一到两层的体系结构；而我们用于组织检索结果的类目体系(杜威十进分类法DDC的一部分)包含了七干多个类目，最深的类目达到了11层。这使得我们的类目可以更好地区分检索结果。　　 3.提出并实现了用户协同分类。大多数分类研究侧重于对分类算法本身的研究。然而，对于目前这种基于向量运算的机器学习方法而言，分类器的准确率具有一个不可逾越的上限，该上限是由语料库的性质所决定的。这一上限导致了稀疏数据的分类效果往往不佳。为了解决这个问题，本文借鉴信息检索中用户反馈的方法，通过收集用户的隐式反馈来提高分类器的分类效果，从而突破了传统分类器的准确率上限，使分类准确率有了更大的提升空间。　　 4.探讨了通过用户协同分类的方法来实现类目导航和语料库的自动构建。类目导航和语料库的构建往往涉及大量的人力成本，前者导致Yahoo！ Directory的日渐衰落，而后者则是所有自动分类研究和应用所必须面对的问题。而在我们的系统中，协同分类的过程同时也是类目导航和语料库自动构建的过程，这可以为我们节省大量的大力。

其他文献

高中信息技术教学方法探讨

高中信息技术这门课是从该课程的特点和内容出发,主要是为了培养学生分析问题能力和解决问题的能力,信息技术具有很强的可操作性、应用性和实用性,所以必须要重视这门课程,如

期刊

高中信息技术教学方法探讨

基于主题爬虫的本体非分类关系学习框架

提出一种借助主题爬虫自动从返回的相关网页进行本体非分类关系学习的框架与方法.针对利用互联网进行本体学习的特点,所用到的主要方法是词频、共现统计和分割聚类算法K-Mean

期刊

本体学习非分类关系主题爬虫分割聚类算法相关度

基于领域Ontology的知识检索模型研究

针对传统信息检索模型不能很好满足用户需求的问题,在分析现有相关研究的基础上,提出基于领域Ontology的知识检索模型.通过构建领域Ontology,对文档进行语义标注,对查询请求

期刊

知识检索领域Ontology语义索引项语义标注语义相似度语义相关度

期刊共被引相似性测度问题的实证研究

在共被引分析中,还有诸多问题未解决,如原始数据是否需要标准化,选择何种相似性测度方式更为准确可靠。从理论分析和实证研究两个方面探讨期刊共被引相似性测度问题,得出期刊

期刊

期刊共被引标准化相似性测度聚类分析

我国中央政府决策的信息保障研究

信息是政府决策的基础。本文通过对政府决策的信息保障理论和我国中央政府决策的信息保障实践的研究，深入分析了信息保障的各要素、各要素运行方式等问题，认为应当完善我国中央

学位

胰岛素泵治疗儿童1型糖尿病患儿血糖达标情况及影响因素研究

目的探讨胰岛素泵治疗的1型糖尿病(type 1 diabetes mellitus,T1DM)患儿的血糖控制情况,并研究影响血糖达标的因素.方法收集我院2017年1月至2018年12月使用胰岛素泵治疗的T

期刊

Ⅰ型糖尿病胰岛素泵糖化血红蛋白血糖儿童

探讨Dll-4在膀胱移行细胞癌中的表达及临床意义

目的评估Notch配体Dll-4在膀胱移行细胞癌中的表达及临床意义.方法 70例膀胱移行细胞癌进行免疫组化检测评估Dll-4在膀胱癌标本中的表达情况,同时采用RT-PCR和Western blot

期刊

膀胱癌Dll-4预后

主题聚类及其应用研究

信息组织方法是针对信息检索的需要，对信息资源进行内容分析、标引、处理，最终使得信息资源有序化的方法。信息组织方法在互联网的应用服务中发挥巨大作用。当前信息组织方法存

学位

高校图书馆总馆与分馆管理模式研究

创新是高校图书馆发展不竭的动力和永恒的主题。21世纪的图书馆创新管理已成为现代图书馆管理的核心任务之一。图书馆应有意识地规划和组织创新管理，包括组织结构创新、管理机

学位

高校图书馆管理机制机制创新管理模式

政府信息资源的开放存取研究

《中华人民共和国政府信息公开条例》于2008年5月1日开始实施，得到了社会和民众的热烈呼应，同时一些地方政府或政府部门因为信息不公开被民众提起诉讼。这既反映了政府信息公开

学位

行政管理政府信息信息公开大众传媒

搜索引擎检索结果的自动分类研究

其他学术论文