论文部分内容阅读
本文改进了一种基于语义的、层次的、以集簇标签为向导对搜索引擎返回的结果进行层次聚类的算法。算法的主要思想是首先推导出可以表示集簇的集簇标签,然后在这些集簇标签的基础上,将摘要分配到不同的集簇中。展示了如何应用潜在语义分析技术来提取摘要集合中的主要概念作为集簇标签。在这个过程中,讨论了几个影响集簇标签提取质量的因素,例如搜索结果的预处理方法和基于词的短语提取方法。为了评价算法的聚类效果,采用了一个基于人工判断标准的评估指标。
本文的创新之处:
1.讨论了词组作为集簇标签的优越性,并提出了一种利用后缀数组在切分的基础上提取词组的算法,该算法性能和效果都不错。
2.讨论了一个利用短语来表示从摘要集合中提取出的抽象概念的方法。同时,讨论了一个将摘要分配到集簇中的方法。
3.提出了一个基于词频或者短语频频率以用户需求为导向的层次聚类方法。
4.设计了一种针对中文搜索结果进行层次聚类的方法。
5.设计并实现了一个原型系统,并进行了实验;最后对实验数据结果作了一定的分析。
实验和分析表明本文提出了一种对中文搜索结果进行聚类的可行的思路。