基于稳定性语义聚类的语言模型及推荐方法

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:gianfranco1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伪相关反馈技术利用用户初始查询结果排序靠前的文档进行查询相关反馈,并假设这些反馈文档是用户查询相关的,但多数情况下这个假设并不成立。不相关文档参与查询相关反馈会带入不相关噪声,使得相关反馈偏离用户查询需求。聚类技术可以将相似文档尽可能划分到同一集合中,借此可以发现文本间的语义关系,其中语义聚类技术相比传统聚类技术在聚类效果上有显著改善,独立分量分析(Independent Component Analysis,ICA)是一种能更好表示文档中真实的语义类别的语义聚类技术,其分离的独立分量可作为语义聚类的表征。但是由于文档中未知的语义类别数量和ICA算法的随机性导致ICA算法形成的语义聚类是不稳定的,在不稳定的语义聚类上进行伪相关反馈必定偏离查询主题。  本文针对由不稳定聚类估计的相关模型影响检索性能的问题,提出了验证ICA语义聚类稳定性的方法和基于稳定性语义聚类的相关模型估计方法。语义聚类稳定性验证的主要思路是:稳定性验证方面,探测ICA分离的独立分量的数量,在同一数据集上使用重采样方法以及改变运行初始条件,多次运行 FastICA算法,并聚类得到的一组独立分量。将聚类质量得分最高对应的探测数量作为稳定的ICA语义聚类数量。基于稳定性聚类的相关模型估计过程为:首先利用初始查询结果排序前N个文档构成相关反馈数据集,然后探测数据集中稳定的语义类别数量,从稳定性语义聚类中选择与用户查询最相似的语义类别估计稳定性语义聚类相关模型。实验结果显示,SSRM模型相比RM模型,MAP性能平均提高了44.16%;相比SRM模型,MAP性能平均提高了35.1%;SSRM模型相比RM模型、SRM模型MAP性能平均提高了26.3%。SSRM相比CBDM、LBDM和Resampling等基于聚类的检索方法,MAP性能平均分别提高了32.19%、29.59%和13.05%;MAP性能平均提高了27.92%,这说明SSRM模型有利于改善检索性能。本文认为性能的改善是由于稳定性语义聚类的噪声过滤功能,从而使得估计出的SSRM模型更接近用户的查询需求。另外,SSRM模型相比基于聚类方法的检索性能提升,也说明ICA算法是一种适合的语义聚类算法。  推荐系统是解决信息过载问题的有力工具,并受到了越来越广泛的关注与研究,但推荐系统存在数据稀疏和计算复杂度等问题。本文提出了稳定性语义聚类能更好将相似用户或项目组织在一起,更好地表达用户和项目的语义结构的观点,设计了基于稳定性语义聚类的推荐算法。算法的主要思路是:根据用户偏好项目构建用户行为矩阵,利用稳定性语义聚类得到用户行为模式,然后将待推荐用户和已有用户进行相似度匹配,再将匹配用户的语义聚类中的文档,进过推荐分值的计算后,由高到低推荐给用户。实验结果表明,查询检索的平均准确率22%,前10个检索结果上的准确率32%,推荐算法的平均准确率为51%,大于两个比较的检索平均准确率;检索结果前10个文档的召回率为13%,推荐算法的平均召回率为36%,效果好于检索的召回率,这对于用户快速获取所需的项目是有益的。考查一般查询的性能,推荐平均准确率为56%,查询检索的平均准确率为33%,前10个检索结果上的准确率为50%,准确率分别提高了69.79%和12%;推荐平均召回率33%,检索结果前10个文档的召回率21%,召回率提高了57%;对于困难查询:(1)推荐平均准确率为42%,而查询检索的平均准确率仅为2%,前10个检索结果上的准确率为0;(2)推荐平均召回率42%,检索前10个文档的召回率为0,前100个文档的召回率为0.25。研究发现,基于语义聚类的推荐算法有着较准确和迅速的推荐性能,有利于用户快速从推荐中获取所需项目。另外,所提出的基于稳定性语义聚类的推荐算法还可以改善困难查询,这说明稳定性语义聚类能够按照项目主题组织文档项目,能更好的表达用户偏好。  总之,本文利用ICA技术进行的语义聚类并做语义聚类稳定性分析。在稳定的语义聚类上估计的相关语言模型和进行推荐任务,都能获取较好的检索性能和推荐性能。研究发现,只要语义聚类足够稳定,语义聚类就能很好的表示数据的语义结构。在正确的语义结构上估计语言模型可以减少用户查询反馈的主题偏移,提高检索性能;同样,在正确的语义结构上查找用户偏好信息可以减少搜索引擎查询结果通用性的影响,从而达到个性化推荐的目的和效果。
其他文献
随着互联网技术的不断发展,网络安全问题也日益突出。防火墙、入侵检测等传统的网络安全技术尽管提供了一定程度的安全防范能力,但由于相互之间协调性等问题,传统的网络安全
近几年来,由于非均衡数据广泛存在于实际的生产与生活中,并且具有特殊性,对非均衡数据分类问题的研究越来越重要,对于这种不同类型数据的数量分布差别较大的数据,传统算法无法得到
目前时空信息系统及时空数据挖掘理论越来越引起专家和学者的关注。这是因为随着信息技术的发展,人们已经不满足于单纯的空间数据的存储和展现,而是需要更先进的手段帮助理解空
目前,由于各种原因的影响,使得我国油田中普遍使用的采油井系统电动机运行时一般工作于轻载或空载状态,使电动机的功率因数、工作效率低下,电能浪费情况比较严重。本课题主要以抽
一个软件系统的特性表现在它的功能性和非功能性(如性能、可靠性、安全等)两个方面。在许多软件系统,尤其是大型软件系统中,非功能甚至是强制的要求,例如电信领域数据仓库中的性
随着单个web站点的日益庞大,web超链结构的日趋复杂,传统的建立在单个网页和单纯超链结构上的web模型已很难适应基于各种不同应用需求的web分析。为有效解决web分析所需知识的
在软交换体系中,SIP协议以其简洁、灵活、易扩展的特点得到了广泛的研究和应用,占有重要的地位;多媒体网络会议模型因为其低廉的成本、丰富的表现手段而具有广阔的市场前景,因此,
随着网络和多媒体技术的快速发展,经典的静态图像压缩算法JPEG已不能满足人们的需要;因此,联合图像专家组设计和制定了新的图像压缩标准JPEG2000。JPEG2000的出现,带来了图像
教学参考信息是高校教学必不可少资源,因此如何有效的管理和利用这些信息资源是国内外高校都十分重视的课题。随着信息时代的发展,当前的计算机技术、网络技术、数据库技术以及
网络行为测量是互联网流量工程的重要组成部分。随着互联网的发展,理解网络行为对于网络管理、规划和发展都有重要意义。作为网络行为测量的一个分支,网络流量监测对网络的资源