论文部分内容阅读
词向量使用低维稠密向量表示词,通过向量运算能够反映词间关系,被广泛应用于自然语言处理任务。对基于矩阵分解的词向量方法进行了研究,发现降维前相似度矩阵质量与词向量质量存在线性相关性,提出了一种基于中心化相似度矩阵的方法。该方法使得相似(不相似或弱相似)词间的相似程度相对增强(减弱)。在WS-353和RW数据集的词语相似性实验中验证了所提出方法的有效性,两个数据集下词向量质量最高提升0.2896和0.1801。中心化能够提升降维前相似度矩阵质量,进而提升词向量质量。