论文部分内容阅读
文档相似性度量是信息检索领域最重要的研究方向之一。单词移动距离(Word Movers Distance,WMD)是最近提出的一种能够有效衡量文档相似性的度量方式,其融合了基于神经网络的Word2Vec模型词向量表达出的单词语义信息,并依据推土机距离(Earth Movers Distance,EMD)计算两篇不同文档之间的距离。然而,单词移动距离存在两个缺点,第一点是它采用不够精确的词频来作为单词的权重,第二点是EMD的计算复杂性较高,EMD度量下的查询效率通常很低,当前最新的查询方法难以扩展到单词移动距离。这两方面的因素使得单词移动距离度量方式在大规模数据量下的文档分类、文档检索等任务上的应用存在效率和效果两方面的问题。 为了提高分类效果的准确性,本文对单词移动距离进行了一定程度的改进。本文考虑到单词对于文档的重要性而采用TF-IDF评分作为单词的权重,进而得到基于TF-IDF的单词移动距离(TI-WMD)。 为了提高单词移动距离度量下的文档查询效率,本文提出了一种近似的层次化查询方法。首先,依据文档的单词质心向量将每一篇文档表示成特征点的形式,并采用局部敏感哈希的方法为文档集合构建哈希索引;在查询过程中,文档需要被表示成单词质心向量和文档标签两种形式,依据单词质心向量与多探寻局部敏感哈希查询获得对应哈希桶中的候选文档集合,接着依据文档标签与过滤-细化框架在候选文档集合中获取TI-WMD度量下的k近邻。 本文在Reuters-21578,20-Newsgroups两个文档数据集上对TI-WMD的有效性,层次化查询的性能进行了全面的验证,并将它们与WMD和WMD度量下的PrefetchPrune方法进行对比分析,从而论证了层次化查询在效率和准确性上的优势。