论文部分内容阅读
学术合作推荐是一种利用论文、专利等现有科技信息资源为科研管理人员或研究人员推荐他们关注领域的研究人员的方法,该方法能快速发现并了解领域相关的研究人员和研究内容,促进开展进一步的交流合作,带来更好的知识和资源共享,加快科研进程,有利于取得更大的科研成果。本论文通过对国内外当前学术合作推荐方法进行调研分析,发现现有的基于作者文本内容的合作推荐方法对文本语义内容的表示通常基于词频统计,较少关注研究内容的相关性,可能遗漏部分有价值的推荐对象,或者对于不同的语料需要重新进行训练,适应性差,在实际应用中效率较低;而基于网络拓扑结构的方法受网络结构影响较大,在不连通网络中表现较差,限制了推荐的选择范围。因此提出了一种基于稀疏分布式表征(Sparse Distributed Representation,SDR)的学术合作推荐方法。 SDR方法基于一种以神经科学为基础的分布式语义机制,将词或者文本转化为一串长且稀疏的二进制向量。向量的每一位均有特定的语义,其对应取值“1”或者“0”分别代表该向量包含或者不包含该位置所代表的语义,不同文本生成的SDR向量可直接计算相似度。本文提出的学术合作推荐方法如下:首先由作者的论文文本生成作者SDR,表征作者的研究内容;再由作者合著网络得到作者间的结构特征,将结构特征与SDR特征相结合,运用支持向量机(SVM)方法进行学术合作推荐。 论文选取NIPS会议第1-10届论文数据集进行实验,运用Precision@N,Recall@N,F1-measure指标进行评价。首先将基于SDR相似性的方法与基于内容的TF-IDF方法以及LDA方法进行对比,实验结果证实基于SDR的学术合作推荐方法整体上好于TF-IDF和LDA方法;再将SDR方法与基于网络结构的共同邻居方法进行对比,说明了在不连通网络中SDR的表现要好于共同邻居方法;最后将SDR方法结合网络结构特征进行了实验,相比单独的SDR方法,推荐效果有明显提高,说明了方法的有效性。实验结果说明了SDR是一种有效的学术合作推荐方法,且有较好的性能和对不同领域的适应性,并能与其它特征结合用于学术合作推荐。