论文部分内容阅读
伪相关反馈技术利用用户初始查询结果排序靠前的文档进行查询相关反馈,并假设这些反馈文档是用户查询相关的,但多数情况下这个假设并不成立。不相关文档参与查询相关反馈会带入不相关噪声,使得相关反馈偏离用户查询需求。聚类技术可以将相似文档尽可能划分到同一集合中,借此可以发现文本间的语义关系,其中语义聚类技术相比传统聚类技术在聚类效果上有显著改善,独立分量分析(Independent Component Analysis,ICA)是一种能更好表示文档中真实的语义类别的语义聚类技术,其分离的独立分量可作为语义聚类的表征。但是由于文档中未知的语义类别数量和ICA算法的随机性导致ICA算法形成的语义聚类是不稳定的,在不稳定的语义聚类上进行伪相关反馈必定偏离查询主题。 本文针对由不稳定聚类估计的相关模型影响检索性能的问题,提出了验证ICA语义聚类稳定性的方法和基于稳定性语义聚类的相关模型估计方法。语义聚类稳定性验证的主要思路是:稳定性验证方面,探测ICA分离的独立分量的数量,在同一数据集上使用重采样方法以及改变运行初始条件,多次运行 FastICA算法,并聚类得到的一组独立分量。将聚类质量得分最高对应的探测数量作为稳定的ICA语义聚类数量。基于稳定性聚类的相关模型估计过程为:首先利用初始查询结果排序前N个文档构成相关反馈数据集,然后探测数据集中稳定的语义类别数量,从稳定性语义聚类中选择与用户查询最相似的语义类别估计稳定性语义聚类相关模型。实验结果显示,SSRM模型相比RM模型,MAP性能平均提高了44.16%;相比SRM模型,MAP性能平均提高了35.1%;SSRM模型相比RM模型、SRM模型MAP性能平均提高了26.3%。SSRM相比CBDM、LBDM和Resampling等基于聚类的检索方法,MAP性能平均分别提高了32.19%、29.59%和13.05%;MAP性能平均提高了27.92%,这说明SSRM模型有利于改善检索性能。本文认为性能的改善是由于稳定性语义聚类的噪声过滤功能,从而使得估计出的SSRM模型更接近用户的查询需求。另外,SSRM模型相比基于聚类方法的检索性能提升,也说明ICA算法是一种适合的语义聚类算法。 推荐系统是解决信息过载问题的有力工具,并受到了越来越广泛的关注与研究,但推荐系统存在数据稀疏和计算复杂度等问题。本文提出了稳定性语义聚类能更好将相似用户或项目组织在一起,更好地表达用户和项目的语义结构的观点,设计了基于稳定性语义聚类的推荐算法。算法的主要思路是:根据用户偏好项目构建用户行为矩阵,利用稳定性语义聚类得到用户行为模式,然后将待推荐用户和已有用户进行相似度匹配,再将匹配用户的语义聚类中的文档,进过推荐分值的计算后,由高到低推荐给用户。实验结果表明,查询检索的平均准确率22%,前10个检索结果上的准确率32%,推荐算法的平均准确率为51%,大于两个比较的检索平均准确率;检索结果前10个文档的召回率为13%,推荐算法的平均召回率为36%,效果好于检索的召回率,这对于用户快速获取所需的项目是有益的。考查一般查询的性能,推荐平均准确率为56%,查询检索的平均准确率为33%,前10个检索结果上的准确率为50%,准确率分别提高了69.79%和12%;推荐平均召回率33%,检索结果前10个文档的召回率21%,召回率提高了57%;对于困难查询:(1)推荐平均准确率为42%,而查询检索的平均准确率仅为2%,前10个检索结果上的准确率为0;(2)推荐平均召回率42%,检索前10个文档的召回率为0,前100个文档的召回率为0.25。研究发现,基于语义聚类的推荐算法有着较准确和迅速的推荐性能,有利于用户快速从推荐中获取所需项目。另外,所提出的基于稳定性语义聚类的推荐算法还可以改善困难查询,这说明稳定性语义聚类能够按照项目主题组织文档项目,能更好的表达用户偏好。 总之,本文利用ICA技术进行的语义聚类并做语义聚类稳定性分析。在稳定的语义聚类上估计的相关语言模型和进行推荐任务,都能获取较好的检索性能和推荐性能。研究发现,只要语义聚类足够稳定,语义聚类就能很好的表示数据的语义结构。在正确的语义结构上估计语言模型可以减少用户查询反馈的主题偏移,提高检索性能;同样,在正确的语义结构上查找用户偏好信息可以减少搜索引擎查询结果通用性的影响,从而达到个性化推荐的目的和效果。