基于概率统计和句法分析的中文语句压缩系统的研究与实现

来源 :北京邮电大学 | 被引量 : 7次 | 上传用户:shenkan8009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展和数字设备的广泛使用,人们对信息的获取和接收都提出了更高的要求。虽然搜索引擎的出现大大加速了人们查找信息的速度,但是搜索引擎返回的是和查询内容相关的多个链接,其中内容大多是重复或者相似的,因此还得通过人工识别的方法去筛选所需内容,费时费力。为了快速而准确地获取主要信息,同时适应移动终端和数字多媒体技术对于信息显示的要求,许多互联网产品应运而生:内容聚合(RSS),电子邮件提醒,电影字幕生成等,这些无一不用到文本重写技术。近几年来,此项技术在多文档摘要,问答系统,机器翻译等自然语言处理领域也都得到了广泛的应用。而语句压缩则在其中占有重要的位置,它致力于在保留原语句关键信息的前提下生成一个更为简短,合乎语法规范的新句子。本文首次研究和实现了一种基于概率统计和句法分析的中文语句压缩系统,在总结前人研究成果的基础上,结合中文语句压缩的实际情况,一方面引入了有监督的机器学习方法来提取压缩规则,通过统计原句和压缩句在压缩前后句法成分的变化规律来计算各个句法成分的删除概率;另一方面采用命名实体识别技术和正则表达式匹配技术来进行扩展知识库的构建和缩略语的替换。因此本系统的压缩实际上实现了词语删除,词语替换,等文本重写操作。另外,由于国内外关于中文语句压缩的研究较少,相应资源不容易获取,因此作者构建了自己的中文训练语料库和扩展知识库,用于实验的训练和对压缩结果的测试。本文最后介绍了本系统在测试集上的实验结果,实验结果表明本系统具有良好的中文语句压缩效果和友好的操作体验。
其他文献
实体关系抽取是指从无结构的自然语言文本中抽取实体之间的语义关系,并以结构化的形式表示出来。它是篇章理解的一个核心技术,在机器翻译、信息检索、问答系统、知识图谱构建等
多层架构的Web应用已成为当前主流的网络应用,它可以应用于多种形式,如电子银行、网上购物、社交网络等等,性能是系统运行时和时间(相应时间、吞吐率)相关的一个属性,包括响应时间
小水电代燃料(Small Hydropower Substituting Fuel, SHSF)生态保护工程是巩固退耕还林、天然林保护建设成果和保障偏远山区农民生活问题的重要举措。本文以贵州黔东南富江小
如今,对在线医疗信息咨询服务需求量越来越大。随着互联网技术的发展每天有上百万的人通过网络查询相关的医疗信息。也有很多网站将医疗咨询作为服务提供给患者查询搜索,患者
随着航天技术的进步和嵌入式软件的发展,带有Cache的航天嵌入式系统的使用越来越普遍。Cache即高速缓冲存储器,它主要通过保存CPU读写主存的副本来解决高速的CPU与低速的主存间
近年来,随着全球经济和信息技术的不断发展,安全问题日益突出,越来越多的领域需要可靠的身份识别。由于传统的身份识别方法已经无法跟上时代发展的需要,因此人们将目光更多的
现代城市的快速发展,要求城市管理从传统的粗放化向精细化转变,城市部件作为城市管理的重要对象,对城市的精细化管理起着非常重要的作用。传统的部件管理方式是城市监督员发
时序曲线是一种十分常见的图形。在实际生产领域,很多问题都可以归结成时序曲线的识别问题。在地震勘探、医疗和气象等诸多领域,时序曲线的识别问题都占据着十分重要的位置。
学位
学位