中文搜索结果的在线层次聚类技术

来源 :北京大学 | 被引量 : 0次 | 上传用户:xiaohuzhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文改进了一种基于语义的、层次的、以集簇标签为向导对搜索引擎返回的结果进行层次聚类的算法。算法的主要思想是首先推导出可以表示集簇的集簇标签,然后在这些集簇标签的基础上,将摘要分配到不同的集簇中。展示了如何应用潜在语义分析技术来提取摘要集合中的主要概念作为集簇标签。在这个过程中,讨论了几个影响集簇标签提取质量的因素,例如搜索结果的预处理方法和基于词的短语提取方法。为了评价算法的聚类效果,采用了一个基于人工判断标准的评估指标。 本文的创新之处: 1.讨论了词组作为集簇标签的优越性,并提出了一种利用后缀数组在切分的基础上提取词组的算法,该算法性能和效果都不错。 2.讨论了一个利用短语来表示从摘要集合中提取出的抽象概念的方法。同时,讨论了一个将摘要分配到集簇中的方法。 3.提出了一个基于词频或者短语频频率以用户需求为导向的层次聚类方法。 4.设计了一种针对中文搜索结果进行层次聚类的方法。 5.设计并实现了一个原型系统,并进行了实验;最后对实验数据结果作了一定的分析。 实验和分析表明本文提出了一种对中文搜索结果进行聚类的可行的思路。
其他文献
本文将易于并行化的插值法用于Dixon结式的构造中,从而使两种方法有机结合起来,进一步提高了符号计算方法解决问题的规模和效率.主要工作和贡献有:①根据Dixon多项式的特点,
本文首先介绍标准移动IPv6(MIPv6,Moblie IPv6)的基本原理和切换过程,当移动节点在网络间越区切换时,由于IP层的切换容易产生时延和数据包的丢失,引起通信质量的下降或通信中
为了维护计算机系统的安全,一般通过设置用户口令进行身份鉴别,防止他人冒名顶替。口令鉴别的主要弱点在于一旦被窃,冒名顶替者就可以轻而易举地进行非法活动。击键特征的研
本文面向工程应用提出了一种新颖的基于退化隐马尔柯夫模型(Degraded Hidden Markov Model)的印刷体文字识别方法。 由于印刷体文字的字形相对固定,因此以往通常采用结构
  在信息技术领域,随着计算技术、存储技术和网络技术的发展,促使信息技术与天文研究相结合,促进了虚拟天文台(VO)的研究工作。虚拟天文台首先要实现的是天文数据的无缝透明访
学位
  本文首次提出将粗糙集的属性约简与支持向量机结合处理中文网页的分类问题,具有如下独特优势:  支持向量机处理小样本分类时,能得到较好的效果,但应用于中文网页分类时,由于
该文从如下几个方面进行了研究:1.研究了英汉双语语料库词汇对齐技术.分析了词汇对齐需要解决的关键问题.提出了N-gram模型和迭代策略相结合的统计词汇对齐方法,有效地解决了
电子机构(Electronic Institutions)是人类组织的代理副本,为电子商务、政务应用提供支持和信任。其目的和我们人类组织一样,为了创造信任、防止欺诈,从而保证参与者的合法权
 本文的研究目标是测量IPv6网络的性能和拓扑信息,从而可以达到进一步优化IPv6网络的目的。研究工作分为三个阶段进行:首先通过研究网络测量和IPv6网络协议的特点以及国内外的