基于贝叶斯排序学习的关键短语自动抽取

来源 :北京大学 | 被引量 : 0次 | 上传用户:yanjie99826
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键短语自动标引技术可以有效地从文本中自动抽取出关键短语,近年来一直是自然语言处理领域的研究热点之一。其中,自动抽取方法是当前主流的标引方法。在本文中,我们对关键短语自动抽取研究中所遇到的问题及其解决方法,做了系统而深入的探讨。   在预处理步骤中,我们分析了不同颗粒度的候选短语提取方法。以往对于候选短语的选取方法中,以串频统计为主。本文中我们结合文本语言本身的特点,对各种选取候选短语的方法进行了探讨。在预处理的另一个环节--特征选择中,研究者通常采用TF×IDF作为关键短语抽取的特征。在此基础上,我们补充了短语特征、统计特征、位置特征、短语对特征等四类特征,作为关键短语抽取的重要依据。   我们提出了基于朴素贝叶斯分类器的对方式排序学习算法RankBayes,将关键短语抽取问题看作排序问题而非分类问题。通过RankBayes算法,我们将训练样本中的正例和负例比例转化为1:1,从而较好的解决了标引数据集不平衡的问题。与其它对方式的排序学习算法相比,RankBayes训练速度有显著提升,而且不会带来排序性能的下降。   对方式排序学习算法的引入,可以解决标引数据集不平衡问题,但与此同时,又加剧了标引数据的标引瓶颈问题。我们提出了基于Co-training方法和RankBayes排序学习算法的半指导排序学习模型CoRankBayes,从而自未标注语料中逐步学习,以解决标注瓶颈问题。在CoRankBayes算法中,我们采用置信分数解决了数据的排序问题和冲突问题。关键短语自动抽取评测目前普遍采用P-R-F评测方法,我们发现其具有匹配过于严格和对冗余惩罚不够的缺点,在某些情况下会导致评测不够合理。本文中,我们提出了AJS(平均Jaccard相似度)评测方法,通过使用Jaccard相似度进行模糊匹配,并通过贪心计算方法消除冗余。实验表明AJS评测方法是一种简单,高效,易于推广的自动评测方法,可以有效提高评测性能。
其他文献
随着研究的日益加深,指纹图像识别技术的发展日趋完善,各项核心算法都有了深入的研究,取得了许多成果。但在指纹识别技术中,仍旧有很多问题值得探讨解决。随着指纹数据库中数据的
推荐系统不仅是多年来学术界的研究热点,而且已经成为当今网络应用中必不可缺的功能之一。推荐系统要解决的基本问题是如何在恰当的时候把恰当的信息用恰当的方法提供给恰当的
当前,Internet上涌现出了大量的Web服务,开发人员开发新系统时可以直接复用这些Web服务以实现特定功能。北京大学软件资源库收集整理了上万个Web服务,提供给开发人员复用。然而
雷达导引头是用于目标探测、跟踪,并向导弹控制系统提供目标位置及运动参数,引导导弹飞向目标的弹上雷达装置,捷联式惯性制导是导弹导引头实现简化封装、减小体积的必然途径。在
随着信息技术的发展,网络已经成为人们生活不可或缺的一部分。物联网的出现使得网络概念从互联网发展到人与人、物与物、人与物互联互通的网络。作为物联网感知层的无线传感器
随着消费类电子产品相关技术的不断发展,开机速度已成为电子产品是否能脱颖而出的重要决定因素,很多产品在追求即开即用的效果。在这样的行业需求下,本文针对北大众志PKUnity
随着当前科学研究领域的不断扩展与发展,科学计算的算法越来越复杂,涉及的数据规模越来越大,带来程序开发复杂性和计算效率两方面的难题。   任务群计算(Many-Task Computing
随着电子技术的发展,爆闪式信号灯在多个领域内获得了广泛地应用。如何提高爆闪灯的产品质量是当前一个重要的研究课题。对爆闪式特种信号灯的质量检测更具有重要的研究意义和广泛的应用价值。但是,如何在大规模批量生产中实现对爆闪灯快速准确的检测,仍是目前爆闪灯的生产领域亟待解决的“瓶颈”问题。因此,本学位论文设计一种爆闪式信号灯的智能型检测仪,通过其对产品质量进行测试与评估。首先,本文对爆闪式信号灯的工作原理
运动人体的跟踪技术研究是机器视觉领域的核心课题之一,目前被广泛应用在视频编码、智能交通、智能监控、图像检索及军工等众多领域中。本文就低对比度的复杂环境下运动人体
真实感绘制一直是计算机图形学的一项基本研究内容。它首先在计算机中构建场景的几何模型,然后根据假定的光照条件,计算在最终图像上可见的各物体表面的光亮度,并使用纹理映