基于广义话题理论的话题句识别研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:kcb2639
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语篇章中,常有标点句句首话题缺失的现象。这种现象是机器翻译、信息抽取等应用准确率不高的原因之一。  本文工作围绕如何补足标点句句首缺失话题这一核心问题展开,报告了语言学、计算语言学、语料库建设方面的相关研究现状,详细说明了本文工作的理论基础——广义话题理论,然后从该理论出发,采用换行缩进图式标注了中国大百科全书鱼类语料的243篇文本,对语料做了分词和语义泛化,并进行了实例调查和分析。  根据汉语话题结构的特点,提出标点句之话题句识别的研究方案,包括单个标点句的话题句识别和标点句序列的话题句识别两个阶段任务,并开展了相关的实验研究。  本文主要创新性工作包括:  1)提出针对单个标点句之话题句识别的技术方案。首先是基于广义话题结构的堆栈模型,为标点句添加所有可能的话题从而构造候选话题句集合;进而提出整句可用度函数,用以评估候选话题句的优劣,帮助找出正确的话题句;在整句可用度函数的求值过程中,采用语义泛化和编辑距离两种手段计算候选话题句与话题句库中话题句的相似度。实验中对717个标点句的开放测试的准确率比基线高出12.50个百分点,达到了73.64%,对200篇文本的十折交叉验证测试的均值达到了69.38%。  2)提出了基于多种特征的候选话题句评估函数。为了提高单个标点句的话题句识别的准确率,需要在话题句识别过程中优化用于评估候选话题句优劣的评估函数。为此,本文提出了话题句生成的上下文相似性特征、话题串与说明相邻接的局部相似性特征,并构造了基于整句可用度、上下文可用度、局部可用度以及它们的组合等四种话题句识别评估函数。实验表明,基于上下文可用度和局部可用度相组合的话题句识别评估函数效果最好,对200篇文本的十折交叉验证测试的均值达到了76.30%。  3)提出了候选话题句生成过程中的筛选策略。单个标点句的话题句识别的技术方案中采用穷举方法生成标点句的候选话题句,会影响系统的执行效率和话题句识别的准确率。为了减少冗余的或不成句的候选话题句的个数,利用标点句在篇章中的位置特征、话题的语法特征以及话题串与说明的邻接性特征,提出了一种基于细粒度特征的候选话题句筛选算法。该算法对200篇文本的十折交叉验证测试的均值达到了77.24%。  4)提出了标点句序列的话题句识别方案。通过构造与标点句序列对应的候选话题句树,并利用优选策略从树中选取最佳路径从而获取话题句序列。针对15篇文本进行了开放测试实验。实验结果中,话题句识别的准确率达到了77.41%,比基线高出16.27个百分点。  本文在受限领域文本的话题句识别研究工作取得了一定的成果,这些工作将有益于推进篇章语言学的研究,促进机器翻译、信息抽取等应用水平的提高。
其他文献
该课题主要完成在办公自动化系统中电子公文的流转技术及电子公文 流转过程的安全性策略的研究,围绕这些内容,该文分析了已有的几种计算机网络安全技术.根据电子公文流转应遵
该文介绍了遥科学概念的发展、定义,以及国内外对遥科学技术的应用研究情况.论文详细论述了基于CCSDS标准的格式化帧同步的基本原理和FPGA的实现,并给出帧同步有关参数计方法
该文旨在探讨和研究C/S结构下管理信息系统(MIS)与基于Internet的电子商务系统的信息集成问题.本课题以某个医疗器械销售公司为对象,设计并实现了企业内部局域网上对产品的进
该文介绍了WebGIS项目中的G/SQL空间语言的设计与实现.G/SQL是扩展SQL得到的查 询语言.G/SQL具有强大空间支持能力:支持空间型关系和点、线、面空间数据类型,支持 数据模型中
该文详细介绍了作者及相关课题组成员在Inferno操作系统上研究开发的移动代理系统:TELEKARON.该文的主要内容及作者在课题中的主要工作如下:在简单介绍Inferno操作系统之后,
该文首先回顾了WWW的起源和发展.面对极其大量的信息,人们通常依靠搜索引擎来 为他们在WWW上进行导航,这给搜索引擎技术带来了巨大的挑战.自1994年问世以来,搜索 引擎的发经
我们在研究了许多国外异构数据源的实验模型基础之上,创建了一个电子商务集成与搜索系统.该系统主要应用了商品对象交换模型(COEM),作为结构化数据源和半结构化数据源通用的
图像分割是图像处理与分析的关键环节,也是计算机视觉领域中一个经典的研究分支。图像分割按照在分割过程中有无人工参与可分为半自动分割和自动分割,自动分割按照分割过程中有
检查点技术与任务复制相结合的方法,是实现上述低成本容错计算机的途径之一.该文主要研究如何有效利用任务复制与检查点技术结合方法提同容错计算机的性能.该文的研究工作和
近年来,微博以其便捷、及时的信息分享、传播和获取方式,迅速在互联网上流行,使用的用户数量与日俱增。随着网络用户个性化需求的质量不断提高,建立有效的用户兴趣模型便是为用户