论文部分内容阅读
自动文本识别可以帮助研究学者们快速选择所需要的数字信息,加快研究进度,提高研究效率。目前自动文本识别方法存在着一些不足,如文本表示模型保留的原文本信息较少,忽视了语言单元之间的关联信息等。与其他文本表示模型相比,词汇链文本表示模型可以保存更丰富的原文信息,应用于文本识别应该会有较好的效果。目前词汇链文本表示模型还存在一些问题,通过使用分布式语义模型,可以解决一些问题,提高词汇链构建的效果,进而提升文本识别的效果。 本文在对当前自动文本识别方法进行了广泛调研的基础之上,总结了目前文本识别方法的不足,提出了基于词汇链的文本识别方法。具体思路是,利用分布式语义,加强词汇链对词衔接关系的探测能力,同时将基于词汇链进行文本识别作为一种新的思路,通过对词汇链中重要内容的分布情况进行研究,提出基于链的文本模型,并根据词汇链的多个特征进行分段决策,实现文本的解释。主要解决了两个主要问题:如何构建分布式语义增强的词汇链构建方法;如何基于词汇链进行文本的探测和识别。采用医学领域的文本数据对方法进行了可行性和有效性的验证,以专家人工标注的核心词作为基准数据,将论文提出方法同非贪婪算法、TF*IDF方法、Ercan方法以及LDA方法的结果进行对比。实验结果表明,本文提出的方法在各方面效果都要比对比算法的效果有所提高,能够有效的揭示文本主题,得到的结果更明确,有助于文本的理解。本文提出的方法具有较好的可行性和有效性。