论文部分内容阅读
如今随着互联网规模急剧增长,科技文献电子资源数目也成倍的膨胀着,用户查找信息犹如大海捞针,“信息过载”和“资源迷向”问题制约着人们高效使用科技文献的能力。全文检索工具在一定程度上解决了信息查找的问题,但是大多没有考虑到用户的个性化需求。检索工具每次检索都是根据检索词在全局范围内检索和结果排序,任何人使用同一个检索式进行检索时,得到的检索结果都是相同的。如何帮助广大的科技工作者以其有限的精力从海量数据中找到符合自己兴趣偏好的科技文献,并追踪最新文献资源的发表,成为了目前迫切需要解决的问题。
本文的主要工作就是在推荐领域的已有基础上设计了一个基于跨库检索的科技文献个性化推荐系统,来满足科技工作者对科技文献阅读的个性化需求。本文解决的关键技术主要包括:
1、跨库检索:互联网上存在着众多文献服务机构,各自提供独立的检索工具,本文分析各个机构的检索接口,设计了一个跨库检索工具,对外提供统一的检索接口,可以同时检索、采集多个文献机构上的科技文献资源,并抽取出统一格式的科技文献信息。
2、混合推荐系统:将混合推荐系统与跨库检索相结合,对跨库检索得到的结果采用基于内容推荐算法根据用户兴趣模型进行二次过滤得到匹配文献列表,并且使用协同过滤算法挖掘与目标用户兴趣相似的用户群都感兴趣的文献得到相关文献列表。这两个列表构成用户的推荐文献集。
3、概率主题模型:引入概率主题模型作为特征降维工具,将文本在词条空间中的表达转换到主题空间中来;提取用户感兴趣文献集的共现主题特征作为用户模型,得到用户兴趣模型主题空间向量的表达。
4、用户模型和文献管理:通过本系统,用户可以阅读、注释、标注、收藏、删除文献等,构建个人专有科技文献库。同时,系统隐式采集用户行为数据,分析用户对文献的评分,以动态更新用户模型。
经过实验表明,该系统取得了良好的效果,有效地满足了科技工作者追踪自己感兴趣的科技领域的文献的个性化需求。