基于广义话题理论的话题句识别研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户：kcb2639

【摘要】

：

汉语篇章中，常有标点句句首话题缺失的现象。这种现象是机器翻译、信息抽取等应用准确率不高的原因之一。　　本文工作围绕如何补足标点句句首缺失话题这一核心问题展开，报告了

【作者】

：

蒋玉茹

【机构】

：

北京工业大学

【出处】

：

北京工业大学

【发表日期】

：

2013年期

【关键词】

：

自然语言处理广义话题理论话题结构话题句识别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

汉语篇章中，常有标点句句首话题缺失的现象。这种现象是机器翻译、信息抽取等应用准确率不高的原因之一。　　本文工作围绕如何补足标点句句首缺失话题这一核心问题展开，报告了语言学、计算语言学、语料库建设方面的相关研究现状，详细说明了本文工作的理论基础——广义话题理论，然后从该理论出发，采用换行缩进图式标注了中国大百科全书鱼类语料的243篇文本，对语料做了分词和语义泛化，并进行了实例调查和分析。　　根据汉语话题结构的特点，提出标点句之话题句识别的研究方案，包括单个标点句的话题句识别和标点句序列的话题句识别两个阶段任务，并开展了相关的实验研究。　　本文主要创新性工作包括:　　1)提出针对单个标点句之话题句识别的技术方案。首先是基于广义话题结构的堆栈模型，为标点句添加所有可能的话题从而构造候选话题句集合;进而提出整句可用度函数，用以评估候选话题句的优劣，帮助找出正确的话题句;在整句可用度函数的求值过程中，采用语义泛化和编辑距离两种手段计算候选话题句与话题句库中话题句的相似度。实验中对717个标点句的开放测试的准确率比基线高出12.50个百分点，达到了73.64％,对200篇文本的十折交叉验证测试的均值达到了69.38％。　　2)提出了基于多种特征的候选话题句评估函数。为了提高单个标点句的话题句识别的准确率，需要在话题句识别过程中优化用于评估候选话题句优劣的评估函数。为此，本文提出了话题句生成的上下文相似性特征、话题串与说明相邻接的局部相似性特征，并构造了基于整句可用度、上下文可用度、局部可用度以及它们的组合等四种话题句识别评估函数。实验表明，基于上下文可用度和局部可用度相组合的话题句识别评估函数效果最好，对200篇文本的十折交叉验证测试的均值达到了76.30％。　　3)提出了候选话题句生成过程中的筛选策略。单个标点句的话题句识别的技术方案中采用穷举方法生成标点句的候选话题句，会影响系统的执行效率和话题句识别的准确率。为了减少冗余的或不成句的候选话题句的个数，利用标点句在篇章中的位置特征、话题的语法特征以及话题串与说明的邻接性特征，提出了一种基于细粒度特征的候选话题句筛选算法。该算法对200篇文本的十折交叉验证测试的均值达到了77.24％。　　4)提出了标点句序列的话题句识别方案。通过构造与标点句序列对应的候选话题句树，并利用优选策略从树中选取最佳路径从而获取话题句序列。针对15篇文本进行了开放测试实验。实验结果中，话题句识别的准确率达到了77.41％，比基线高出16.27个百分点。　　本文在受限领域文本的话题句识别研究工作取得了一定的成果，这些工作将有益于推进篇章语言学的研究，促进机器翻译、信息抽取等应用水平的提高。

其他文献

DQOA系统及其网络安全机制的研究与实现

该课题主要完成在办公自动化系统中电子公文的流转技术及电子公文流转过程的安全性策略的研究,围绕这些内容,该文分析了已有的几种计算机网络安全技术.根据电子公文流转应遵

学位

办公自动化网络安全系统安全安全控制机制

空基遥科学地面网络传输系统的设计与实现

该文介绍了遥科学概念的发展、定义,以及国内外对遥科学技术的应用研究情况.论文详细论述了基于CCSDS标准的格式化帧同步的基本原理和FPGA的实现,并给出帧同步有关参数计方法

学位

遥科学网络传输帧中继帧同步传输系统

C/S结构下的管理信息系统与Internet上的电子商务信息集成研究

该文旨在探讨和研究C/S结构下管理信息系统(MIS)与基于Internet的电子商务系统的信息集成问题.本课题以某个医疗器械销售公司为对象,设计并实现了企业内部局域网上对产品的进

学位

Internet电子商务管理信息系统数据库客户/服务器结构浏览器/服务器结构

空间查询语言和查询优化

该文介绍了WebGIS项目中的G/SQL空间语言的设计与实现.G/SQL是扩展SQL得到的查询语言.G/SQL具有强大空间支持能力:支持空间型关系和点、线、面空间数据类型,支持数据模型中

学位

空间查询语言G/SQL空间型关系空间谓词空间数据库基本操作空间索引代价估计模型谓词选择性

基于Inferno的移动代理系统的设计与实现

该文详细介绍了作者及相关课题组成员在Inferno操作系统上研究开发的移动代理系统:TELEKARON.该文的主要内容及作者在课题中的主要工作如下:在简单介绍Inferno操作系统之后,

学位

移动代理Inferno操作系统代理传输协议代码移动强/弱移动性代理通讯模型

一个大规模、高性能的搜索引擎系统及索引和检索子系统的实现

该文首先回顾了WWW的起源和发展.面对极其大量的信息,人们通常依靠搜索引擎来为他们在WWW上进行导航,这给搜索引擎技术带来了巨大的挑战.自1994年问世以来,搜索引擎的发经

学位

搜索引擎WWW信息提取分布处理

异构数据源集成与查询方法的研究及其在电子商务中的应用

我们在研究了许多国外异构数据源的实验模型基础之上,创建了一个电子商务集成与搜索系统.该系统主要应用了商品对象交换模型(COEM),作为结构化数据源和半结构化数据源通用的

学位

电子商务异构数据源商品对象交换模型循环查询

图像的前景目标提取与语义分割方法的研究

图像分割是图像处理与分析的关键环节，也是计算机视觉领域中一个经典的研究分支。图像分割按照在分割过程中有无人工参与可分为半自动分割和自动分割，自动分割按照分割过程中有

学位

图像分割无监督法区域特征对比协显著性检测法语义分割法

基于任务复制的检查点性能优化技术研究与实现

检查点技术与任务复制相结合的方法,是实现上述低成本容错计算机的途径之一.该文主要研究如何有效利用任务复制与检查点技术结合方法提同容错计算机的性能.该文的研究工作和

学位

容错检查点任务复制性能优化

基于微博短文本的用户兴趣建模研究

近年来，微博以其便捷、及时的信息分享、传播和获取方式，迅速在互联网上流行，使用的用户数量与日俱增。随着网络用户个性化需求的质量不断提高，建立有效的用户兴趣模型便是为用户

学位

信息挖掘用户兴趣模型微博短文本向量空间

基于广义话题理论的话题句识别研究

其他学术论文