论文部分内容阅读
实体关系抽取在自然语言处理中占有非常重要的地位。它不仅是信息抽取的一项主要任务,而且是信息检索、自动应答系统等所采取得重要技术之一,具有广阔的应用前景。近年来,人们开始将关系抽取看作是分类问题,通过构造关系实例,利用机器学习算法训练得到分类器,来标注这些候选关系属于哪类预定义关系。
在选择分类器方面,因为SVM(SupportVectorMachine)具有很高的分类精确度,本文以SVM作为分类器。由于SVM对输入的要求以及其自身应用核函数可以在隐含的高维空间分类的特点,目前基于特征向量和基于核函数的实体关系抽取方法是应用最为广泛的两种方法。针对这两种常用方法在中文关系抽取中存在的不足,本文主要工作及创新点在于:
1.针对现有基于核函数的中文实体关系抽取方法没有充分利用句法分析结果的问题,提出了基于合成核的抽取方法。该方法根据核函数具有很好的复合特性将卷积树核与依存核合成,这样的合成同时引入了短语结构语法和依存语法。因为现有的依存核具有很低的召回率,所以本文重新定义了依存核函数。最后在中文语料上进行分类实验,验证了该方法的有效性,并且对其训练和测试的速度做了实验。
2.基于核函数的方法都有一个难以克服的问题,那就是随着数据集规模的增大训练和预测的速度将会急剧的减慢,不适合大规模的数据集。为了克服这一缺点,本文提出了基于子树特征的中文实体关系方法。该方法应用序列模式挖掘算法和特征选择算法,挖掘出对分类有贡献的子树特征,将原来隐含的特征空间显式化,以此来减少训练和测试的时间消耗。应用该方法在解决了时间问题的同时,还能有效解决基于核函数方法中的噪声问题,以及基于特征向量方法中特征向量构造的启发式问题。最后在语料上的实验证明了该方法的效果。