论文部分内容阅读
关键短语自动标引技术可以有效地从文本中自动抽取出关键短语,近年来一直是自然语言处理领域的研究热点之一。其中,自动抽取方法是当前主流的标引方法。在本文中,我们对关键短语自动抽取研究中所遇到的问题及其解决方法,做了系统而深入的探讨。
在预处理步骤中,我们分析了不同颗粒度的候选短语提取方法。以往对于候选短语的选取方法中,以串频统计为主。本文中我们结合文本语言本身的特点,对各种选取候选短语的方法进行了探讨。在预处理的另一个环节--特征选择中,研究者通常采用TF×IDF作为关键短语抽取的特征。在此基础上,我们补充了短语特征、统计特征、位置特征、短语对特征等四类特征,作为关键短语抽取的重要依据。
我们提出了基于朴素贝叶斯分类器的对方式排序学习算法RankBayes,将关键短语抽取问题看作排序问题而非分类问题。通过RankBayes算法,我们将训练样本中的正例和负例比例转化为1:1,从而较好的解决了标引数据集不平衡的问题。与其它对方式的排序学习算法相比,RankBayes训练速度有显著提升,而且不会带来排序性能的下降。
对方式排序学习算法的引入,可以解决标引数据集不平衡问题,但与此同时,又加剧了标引数据的标引瓶颈问题。我们提出了基于Co-training方法和RankBayes排序学习算法的半指导排序学习模型CoRankBayes,从而自未标注语料中逐步学习,以解决标注瓶颈问题。在CoRankBayes算法中,我们采用置信分数解决了数据的排序问题和冲突问题。关键短语自动抽取评测目前普遍采用P-R-F评测方法,我们发现其具有匹配过于严格和对冗余惩罚不够的缺点,在某些情况下会导致评测不够合理。本文中,我们提出了AJS(平均Jaccard相似度)评测方法,通过使用Jaccard相似度进行模糊匹配,并通过贪心计算方法消除冗余。实验表明AJS评测方法是一种简单,高效,易于推广的自动评测方法,可以有效提高评测性能。