基于SVM的中文实体关系抽取研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:haiwei2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体关系抽取在自然语言处理中占有非常重要的地位。它不仅是信息抽取的一项主要任务,而且是信息检索、自动应答系统等所采取得重要技术之一,具有广阔的应用前景。近年来,人们开始将关系抽取看作是分类问题,通过构造关系实例,利用机器学习算法训练得到分类器,来标注这些候选关系属于哪类预定义关系。   在选择分类器方面,因为SVM(SupportVectorMachine)具有很高的分类精确度,本文以SVM作为分类器。由于SVM对输入的要求以及其自身应用核函数可以在隐含的高维空间分类的特点,目前基于特征向量和基于核函数的实体关系抽取方法是应用最为广泛的两种方法。针对这两种常用方法在中文关系抽取中存在的不足,本文主要工作及创新点在于:   1.针对现有基于核函数的中文实体关系抽取方法没有充分利用句法分析结果的问题,提出了基于合成核的抽取方法。该方法根据核函数具有很好的复合特性将卷积树核与依存核合成,这样的合成同时引入了短语结构语法和依存语法。因为现有的依存核具有很低的召回率,所以本文重新定义了依存核函数。最后在中文语料上进行分类实验,验证了该方法的有效性,并且对其训练和测试的速度做了实验。   2.基于核函数的方法都有一个难以克服的问题,那就是随着数据集规模的增大训练和预测的速度将会急剧的减慢,不适合大规模的数据集。为了克服这一缺点,本文提出了基于子树特征的中文实体关系方法。该方法应用序列模式挖掘算法和特征选择算法,挖掘出对分类有贡献的子树特征,将原来隐含的特征空间显式化,以此来减少训练和测试的时间消耗。应用该方法在解决了时间问题的同时,还能有效解决基于核函数方法中的噪声问题,以及基于特征向量方法中特征向量构造的启发式问题。最后在语料上的实验证明了该方法的效果。
其他文献
纹理图像分割在遥感、医学图像处理、计算机视觉及基于基于内容的图像检索等许多应用领域中具有广泛的应用。纹理分割是图像处理过程中一个重要步骤,是实际应用中图像分析的
光线跟踪是生成真实感图形的主要算法之一。本文总结对比了CPU与GPU光线跟踪算法优劣,讨论了现有基于GPU光线跟踪加速算法中均匀网格、KD-Tree及层次包围盒(BVH)的遍历方法,并
随着信息和网络技术广泛而深入地渗透到商业、金融、科研、教育、军事以及人们日常生活的各个领域,网络和信息安全对人们生活和国家安全的影响越来越重要。防火墙技术是较早发
用传统遗传算法处理规模越来越大,搜索空间越来越复杂的优化问题时,由于需要较多的个体数量和大量的计算,进化速度缓慢难以达到适时的要求,所以遗传算法传统的串行处理方式就显得
随着web2.0的快速发展,用户变成了互联网内容贡献的主力,大量用户产生的主观性文本充斥了人们的视野。基于这些主观性文本的情感分析成为了近些年的研究热点。情感词典的构建
随着企业业务过程的复杂程度和参与者的规模急剧增长,各业务间的逻辑关系变得更为复杂。采用工作流管理技术建立工作流模型,描述复杂的业务过程信息,可以实现对复杂业务过程
信息化管理系统是促进现代企业发展有利工具,信息化管理系统涉及多个领域的理论和技术,如数据存取技术等,因而具有综合性和挑战性。现在企业的信息管理系统大多都建立在两层
作为一个新兴崛起的研究领域,基于Twitter、新浪微博等社交媒体的事件挖掘研究正受到越来越多的关注。针对社交媒体数据流的噪声数据过滤、事件识别和事件摘要生成技术已成为
现今光纤作为新的信息传播介质已经普遍应用到了城域网和广域网中,而波分复用技术(WDM)是当前光纤网络中常见的提高光纤网络吞吐量的一种技术,它的工作原理是利用不同光波互
生产调度问题普遍存在于各个行业领域中,它是生产制造行业进行有效的管理和运作的关键。合理的优化调度策略,能够提高企业的生产效率,降低生产成本。因此,对车间作业调度问题的研究具有重要的理论意义和现实意义。遗传算法作为一种应用范围很广的进化算法,可以应用于生产调度问题的优化求解。但遗传算法也有本身的不足,本文针对于此,根据生物机体免疫系统的抗原识别、保持抗体的多样性等特点,引入生物学中的免疫算子,提出了