科学文献网络分析:文献评价、流派分析和模式查询处理

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:jackfang999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学日新月异的发展,科技文献的数量以爆炸式速度快速增长,新的科学问题层出不穷,越来越多的科研人员投入到科技创新的事业中去。这些因素都导致科学研究世界中存在着越来越大的信息过载问题。科研人员在面对越来越强的竞争的同时,还要面对信息过载所带来的新的挑战。面对海量文献,科研人员需要利用有限的时间查询到最符合自己需要的文献,需要阅读最有价值最重要的文献,需要厘清研究领域的脉络寻找自己创新的道路,这都使得科研人员呼唤更智能、更高效地科研辅助工具。从科技工作者的角度分析,本文提出了科研辅助工具的三个功能,并围绕这三个方面为构建这样的科研辅助工具作出贡献。  第一,科技工作者需要一个科技文献或科学创新重要性的有效评价工具。对科研人员来说,哪些文献最有价值、哪些文献是必读文献这样的问题不可回避。本文在科技文献自动评价上,首次强调了科技文献评价算法存在的“偏歧”性问题,通过实例证明了“偏歧”性对评价效果的损害。通过分析评价“偏歧”的产生机制,本文提出了一个仅利用科技文献网络结构的基于不同对象间互增强关系的非“偏歧”文献评价算法MutualRank。本文第一次在文献评价研究中建立了基于用户(即科研人员)共识与认可度的统一测试集和金标准集。通过分别评估文献评价算法有效性和公平性的两个指标,本文与时下最先进的基于网络的科技文献评价算法做了充分比较,证实MutualRank算法在评价有效性和评价公平性两个方面都取得了很大的改进。在客观实验结果之外,MutualRank算法返回的文献集也很好地反映了测试数据集所涉及的研究领域在近30年的不同年代中的实际发展情况。  第二,在初次调研某一个研究问题或研究领域时,研究人员面对纷繁的文献和各异的思想首先要做的工作就是为这些文献和思想理出一条脉络来,这就是科学流派。本文首次提出自动科学流派分析的问题,并在其中一个子问题即科学流派特征词识别上开展具体工作。本文认为通过挖掘不同词汇间的共存共现模式,科学流派特征词(至少在很大程度上)是可以自动识别的。本文对研究人员的科学创作过程做出了若干简化假设,并在此基础之上提出了SoT(School-of-Thought)流派特征词分析模型。在SoT的前身BCD(Background/sChool-of-thought/Document-specific word)模型中,科学流派被直接定义为领域词汇的一个分布。通过分析BCD模型的能力和不足, SoT把流派定义为一组科学主题的分布,同时将流派特征词分为流派共性词和流派创新词两类。实验证明SoT模型已经具备比较好的科学流派特征词区分能力,初步证明了科学流派自动分析的可行性和价值。  第三,科研人员在日常工作中,经常需要查询相关的文献。在关键词检索之外,现有的文献数据库提供了丰富的结构信息,能够支持语义更加丰富的复杂模式查询。本文把支持复杂语义的科技文献库查询问题建模为科技文献网络上的(树)模式查询问题,利用图数据上的可达性索引改善科技文献查询的性能。在此问题上,本文做了两方面工作。首先,本文改进了作为模式查询处理基石的(基于跳转的)可达性索引算法的性能。本文提出了3-Hop*可达性索引,改善了基于跳转的可达性索引的索引性能、构建开销。其次,利用3-Hop*可达性索引,本文使用一个两遍节点筛选算法筛除满足属性约束、但不满足结构约束的候选匹配节点。使用基于可达性索引的节点筛选算法,查询性能得到很大提高。使用本文提出的3-Hop*可达性索引,查询性能可以进一步提高4-6倍。
其他文献
蛋白质是由氨基酸脱水缩合组成的复杂有机物。在大多数生物体各个组织里面,蛋白质的含量仅次于水,并参与多种生命活动过程,在生物体中的功能至关重要。  蛋白质的空间结构决定
学位
学位
作为传统虚拟现实技术的下一代革新,基于深度图像绘制的自由视点技术允许观看者在一定的范围内自主地选择视角观看其感兴趣的内容,使图像不再局限于若干个有限的固定视角,向观看
学位
学位
学位
指令级测试在当今测试领域正显示出越来越重要的应用价值,随着设计的复杂度日渐增大电路频率不断提高,集成电路的测试面临更加严峻的挑战。指令级测试作为一种低成本低功耗的测
脑卒中是严重危害人类健康的难治性脑血管疾病,具有发病率高、致残率和死亡率高的三大特点。虽然早期预防和治疗能够大大减少脑卒中的发生,但是临床发现大部分病人在症状已经较
学位