论文部分内容阅读
时至今日,数字图书馆已经走过了一段相当长的发展历程。随着馆藏资源由“信息匮乏”转为“信息过载”,数字图书馆建设也从初期的基础建设、资源积累、技术开发,朝着更深、更广层面上的主动服务方向迈进。面对“信息过载”的现实,帮助用户迅速、准确地推荐出有用信息的图书馆“个性化推荐服务”成为数字图书馆领域的研究热点之一。
将日志挖掘和协同过滤相结合是当前个性化推荐研究中一个方向,但目前的基于此的推荐系统普遍存在冷启动的问题;同时一般的日志挖掘普遍忽视了新老日志在挖掘用户当前兴趣上所存在的差异,即:越临近的日志越能反映用户当前的兴趣。这两个问题,严重地影响着个性化系统推荐的质量和推荐效果。此外,在高校读者中,高校在校本科学生是一个重要的用户群体,不同学期不同专业选修不同课程的学生对文献有着不同的需求。目前针对这类群体,尚没有合适的个性化推荐系统能更好地根据其近期的兴趣情况推荐合适的图书供其借阅。
本文作为中国高等教育数字图书馆(CADLIS)项目中的子课题,针对高校本科生这一用户群的特殊性,围绕用户身份的相似性和历史借阅日志,引入时变因素,提出了一种改进的带时变影响的借阅日志挖掘算法和带时变影响的邻居用户计算算法,从而能有效解决上述两个问题:
(1)在带时变影响的借阅日志挖掘算法中,把“时间衰退因子”引入到类别偏好度计算中,从而能合理地体现现实中越临近的用户借阅日志越能反映用户当前兴趣这样的一个特点,由此,推荐的质量得以提高。
(2)在带时变影响的邻居用户计算算法中,对于协同过滤算法所依赖的邻居用户的计算,不再是单纯依赖历史借阅日志计算出的兴趣相似性,而是将基于借阅日志计算的兴趣相似度和已知的用户身份属性信息的相似度根据用户在校时间情况加以叠加运算,最终解决冷启动的问题。
此外,通过充分研究并借鉴已有的推荐系统的研究成果,本文所完成系统的设计与实现,较好地解决了推荐自动化、用户数据稀疏性、服务实时性等设计和实现上的难点问题,并充分考虑了不同层次的本科学生对不同类型文献的个性化推荐需求,提高了推荐系统的实用性。