自动问答系统中问句分析与相关研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:yongren803
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动问答目前是一个比较热的研究领域,它的目标是回答用户用自然语言提出的简单问题。目前面临的难点有算法效率、准确率、可扩展性等方面。本文集中研究的范围是自动问答系统中的问句分析与相关研究。通过对现有的自然语言处理方面的研究,本文作者利用已有的成熟的或者提出新的有效的模型和算法,部分解决了自动问答系统中的问句分析当中遇到的问题,并证明了如下命题:较之纯粹的正则匹配的分析方法,采用了词法与句法分析的方法能有效提高问句分析的准确率。本文涵盖的具体内容包括中文分词,词性标注,中文句法分析,中文问句模式分类。 中文问句词法分析方面,文章分析了一些有效的分词方法,在通过词表分词的基础上引用一定统计信息,提出“基于前瞻”的最大概率快速中文分词算法。并予以实现,通过一定的测试发现分词准确率可以达到97%。词性标注方面本文介绍了利用统计信息的Viterbi词性标注算法。 中文问句句法分析方面,文章介绍了确定型上下文无关文法的chart句法分析算法和概率上下文无关文法的chart句法分析算法,并提出一种修改方案使得新算法能以更少的存储空间和更快的速度进行句法分析,最后实现了该算法,通过一定的实验发现准确率可以达到75%,而采用改进方案可以减少近26%活动边数,提高效率约10%左右。 中文问句模式分类方面,基于前面的工作,针对自动答疑系统中的问题,文章介绍了几种不同的问句模式分类思想,然后提出问句VP+QW+NP假设,并针对这种假设,结合问句中的词法分析和句法分析的方法,设计出一种新的相对较高效合准确的基于疑问词边界识别的问句模式分类算法,并实现了该算法,通过一定的试验得出这种算法可以满足大多数答疑系统的应用需求。
其他文献
计算机图形技术的发展,使三维仿真日臻完善。三维表示的地形较之平面地图有更多的优越性,体现了地形三维化的趋势,是计算机图形学研究的热点之一。 基于视觉感受的三维地
保护信息的过程具有悠久的历史,早期密码学主要应用于军事,外交策略,它作为一种工具来保护国家机密。随着计算机和通讯系统的迅速增加,要求用数字形式保护信息和提供安全服务。现
随着Internet技术的发展,软件系统网络化的趋势越来越显著。在动态、开放和个性化的网络平台上,软件容易受到环境变化和用户需求改变的影响,为了维持软件的正常运行而对软件系统
随着计算机网络和多媒体(数字图像、视频、音频)技术的广泛应用,多媒体知识版权保护成为一个迫切需要解决的问题。视频水印技术作为多媒体版权保护的重要手段得到了越来越广
数据仓库技术从诞生到现在,在理论研究上已经有了较大的进展,围绕数据仓库解决方案的软件产品如雨后春笋般出现,数据仓库技术也已经被应用到了银行、保险、通信等竞争比较激烈的
随着网络和计算机技术的迅速发展,越来越多的企业开展了电子商务,然而国内中小企业自身资金不足、专业人才匮乏的特点制约了其电子商务的顺利开展。运营服务提供商(ASP)运营模
移动AdHoc网络(MANET)是由一组带有无线通信收发装置的移动终端节点组成的一个多跳的临时性无中心网络,它具有随机动态变化的网络拓扑结构、无中心网络的自组性和无线带宽和终
当前,信息化、网络化和全球化已成为世界经济发展的主要趋势。企业,作为当今世界的一个重要组成部分,其相互之间的竞争,已不再只是简单的质量竞争、成本竞争和产品竞争。信息技术
目前,计算机监控系统在各个领域获得了广泛的应用。随着32位嵌入式CPU及其相关技术的发展,其应用也越来越广泛。使用这种CPU的新型的嵌入式测控单元较之传统的单片机系统在数据
近几十年来,生物医学领域积累了大量的数据。一方面,基因、蛋白质、RNA、代谢物等分子级别的数据在还原论的指导下得到了大量积累。另一方面,医案、病例等临床数据也飞速增长。