论文部分内容阅读
引文网络是由文献间引用和被引用的特有关系所构成的整体,其节点代表科技文献,边代表论文之间的引证关系。引文网络中的节点和边蕴含了大量信息,如文本信息、链接信息等,通过对其进行分析和挖掘,可以发现大量有用或潜在的知识。研究表明,引文数据存在明显的集中和离散趋势,同一研究方向的文献往往引用和参考的都是紧密相关的文献,构建知识网络,能够有效地提高研究人员对科技文献的归纳与整理,进而帮助和指导研究人员开展更加有效地科学研究工作。 然而,虽然当前针对引文网络社团划分的研究较多,但多数方法只考虑了论文间的引用关系,而对影响引用行为的相关因素尚缺乏系统而充分研究,少数结合文本属性的混合聚类方法也尚不成熟,且未充分运用至当前引文网络的分析中。同时,由于引文网络是基于引用行为所构建的知识网络,本身存在一定的局限性,例如由于一些非常规动机,可能导致两篇文献出现引用关系,但实际上两篇文献内容并不相关;反之,两篇内容主题十分相似的文献,可能由于其出版时间过于接近而并无直接的引用关系。因此,在对引文网络进行社团划分时,考虑如何改进引文网络,克服其本身的时滞性和偶然性等缺点也是本文的重要研究内容。 针对上述问题,本文基于引文网络的整体结构,运用适当的方法确定引用关系的重要程度,综合考虑引文网络内容属性、拓扑结构及出版时间等特征提出一种改进引文网络的方法,并将内容相似度值以边权形式引入引文网络中,使得引文网络具有语义属性,最终利用复杂网络中社团划分方法将主题相似的文献聚集在一起,从而实现综合考虑引文网络中内容属性及拓扑结构特征进行社团划分。 最后,本文以Scientometrics期刊论文以及合成生物学主题论文为研究对象,从不同角度对本文提出的社团划分方法进行实证研究。研究表明,本文提出的引文网络的社团划分方法可克服传统引文网络中单一考虑网络拓扑结构或内容属性的社团划分方法的不足,可提高社团划分的精准性,为后续引文网络的研究提供了新的视角和方法,在理论和方法上是一次全新的尝试和提升。 本文研究的算法可用于更加准确地分析学科结构、描述知识发展和研究主题转移、探索学科间亲缘关系、分析学科交叉、渗透等。可服务于国家的学科方向选择和创新主体选择,进而服务于我国优势学科方向布局,为摆脱跟踪和模仿、实现并行甚至达到引领发挥支撑作用。