论文部分内容阅读
协同标注系统是Web2.0下的一种应用,它可以用来搜索用户感兴趣的资源,然后由用户自己来为找到的资源命名自己喜欢的标签,方便下次找回。目前应用较多的协同标注系统有del.ici.ous,Flickr,last.fm,分别针对网页资源,图片资源和音乐资源的标注。同传统的搜索引擎相比,协同标注系统更多强调了人的参与,其中的标签更是人对资源的标注而非专家的标注,因此具有较好的对资源的理解。与此同时,标签还可以反映用户的兴趣,同一个资源可能不同的用户会标注不同的标签,从而反映他们对资源关注的角度。 本文以发现用户的兴趣偏好为研究重点,考虑到聚类方法与本研究问题的契合性,通过协同过滤系统中对用户多兴趣探测的基本公式,加入了自己对用户兴趣与用户个数,用户标注特点的正反比关系,设计了划分用户兴趣个数的经验公式,并将它应用于考虑到文本和文本中词汇关系的LDA聚类算法中,很好地完成了用户兴趣划分的目的。将该结果应用于资源推荐中,并和传统的基于标签的协同过滤方法相比,本文的基于主题推荐方法在保持召回率不变的情况下,明显提高了正确率和Fl-measure。之后,本文又将专家本体Wordnet考虑进来,设计了基于语义的推荐方法,并完成了相应推荐系统的开发。 本文的算法具有较高的鲁棒性,自动化程度较高。并解决了标签系统中的一义多词问题。尝试了新的推荐思路,对推荐系统的发展具有较积极的意义。