论文部分内容阅读
搜索引擎的出现大大便利了人们对于网络信息的查找,使得我们能够在海量的网页中查找所需的信息,但另一方面也颠覆了传统的信息组织方式。在图书馆这个古老的信息管理机构中,分类是组织、利用信息的主要手段。而在Web环境下,分类组织的方法没有得到充分的利用。尽管Google和Windows Vista给我们带来了强大、高效的检索工具,但是,单纯依赖搜索,是不能全方位满足用户的信息需求的,这两者需要进行有机的结合。
为了弥补信息检索的不足,本文尝试将分类的方法和信息检索结合起来,实现检索结果的自动分类。我们在Google Book的基础上实现了一个原型系统,通过自动分类的方法对检索结果进行组织。在此基础上,我们还提出了“协同分类”的概念,通过收集大量用户的隐式反馈来提高系统自动分类的准确率。本文的主要贡献包含以下四点:
1.通过前期的离线实验来调整CA(中心点算法)分类器和SVM分类器的性能,使之适合于Google Book的检索结果自动分类。Google Book检索结果自动分类具有三个特点:数据稀疏、类目体系庞大和实时在线分类。为了让我们的分类器能更好地适应这三大特点,我们通过一系列实验来确定分类器的最佳设置与组合。
2.使用大型类目体系来组织检索结果。一般的检索结果自动分类研究中所使用的类目体系都比较简单,大多只有几十个类目、一到两层的体系结构;而我们用于组织检索结果的类目体系(杜威十进分类法DDC的一部分)包含了七干多个类目,最深的类目达到了11层。这使得我们的类目可以更好地区分检索结果。
3.提出并实现了用户协同分类。大多数分类研究侧重于对分类算法本身的研究。然而,对于目前这种基于向量运算的机器学习方法而言,分类器的准确率具有一个不可逾越的上限,该上限是由语料库的性质所决定的。这一上限导致了稀疏数据的分类效果往往不佳。为了解决这个问题,本文借鉴信息检索中用户反馈的方法,通过收集用户的隐式反馈来提高分类器的分类效果,从而突破了传统分类器的准确率上限,使分类准确率有了更大的提升空间。
4.探讨了通过用户协同分类的方法来实现类目导航和语料库的自动构建。类目导航和语料库的构建往往涉及大量的人力成本,前者导致Yahoo! Directory的日渐衰落,而后者则是所有自动分类研究和应用所必须面对的问题。而在我们的系统中,协同分类的过程同时也是类目导航和语料库自动构建的过程,这可以为我们节省大量的大力。