不同粒度下的话题表示生成方法研究

来源 :中国科学院大学(中国科学院人工智能学院) | 被引量 : 0次 | 上传用户:yzq660511
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
日前网络信息爆炸式增长,把信息按话题组织的同时,还需要将话题以简洁明了的方式展示给用户,通过有效简洁的文字表征话题(话题表示),以使用户迅速了解话题大意,获取所需信息更高效。基于人工编写的精练话题表示虽然效果好,但耗时费力,目前自动生成的话题表示效果欠佳。事件是细粒度的话题,同样受关注。因此针对事件和话题两种不同粒度研究自动生成堪比人工编写的精练话题表示很有必要。本文研究事件和话题两种粒度的话题表示自动生成,事件和话题由多文档描述,旨在生成形式如热搜词的精练准确、语义明确完整、可读性好的话题表示,其比标题和摘要简洁。本文主要工作如下:(1)事件粒度的话题表示生成方法研究本文利用同一事件有不同的报道描述但它们内容往往高度相似的特点,提出一种抽取式的话题表示生成方法,把事件文档集中的标题作为处理对象,通过提取事件文档标题集中按原序组合的共性信息,并对这些共性信息筛选甚至压缩来生成该事件的话题表示。在真实事件数据上的实验结果表明该方法能较好地生成精练准确、语义明确完整且可读性好的话题表示。(2)话题粒度的话题表示生成方法研究本文针对话题由多个相关事件构成,其内容复杂、涵盖面广、动态变化但围绕核心信息刻画的特征,提出一种生成式的话题表示生成方法,该模型包含事件发现层、事件的话题表示生成层、话题的话题表示生成层3个核心层,能从描述话题的文档集中发现所包含的事件,对发现的事件获得其话题表示,在相关事件的话题表示基础上利用引入注意力机制的seq2seq模型学习特征并挖掘核心信息生成该话题的话题表示。最后通过实验验证了所提方法的有效性。(3)话题表示生成方法实际应用本文将提出的事件粒度的和话题粒度的话题表示生成方法应用到互联网话题分析系统的实际数据中,验证了其实用性,基于上述方法分别设计了针对事件和话题的接口形式的话题表示子系统,便于与实际系统集成。
其他文献
低秩近似是图像成像、传输和识别等过程中的重要环节。图像是人们获取外部信息的重要媒介,自然界中存在的图像大多为二阶灰度图像或三阶的RGB图像,而且图像在传输过程中易受
随着工业自动化技术的不断发展,将计算机视觉技术与实际应用相结合成为工业检测技术发展的重点研究方向。工业检测环境相对复杂,涉及不同的测量视场需求,因此要求测量技术具
随着第五代移动通信技术的发展,人们对于高速率大带宽的要求使得毫米波(millimeter-wave,mm Wave)大规模多输入多输出(Multiple Input Multiple Output,MIMO)系统成为了关注
毫米波(Millimeter Wave,mm Wave)与大规模多输入多输出(Massive multipleinput and multiple-output,Massive MIMO)技术相结合被认为是5G通信中关键技术之一。毫米波通信解
金属有机骨架化合物(MOFs)又被称为多孔配位聚合物,或者叫做无机有机杂化材料,是一类新型的,由金属离子或金属簇通过配位键与有机配体结合从而形成一种具有1D、2D或3D周期性
无线通信现如今早已成为人类社会不可分割的一部分,随着通信行业的快速发展,入网用户以及终端设备的数量已呈现出爆发性增长的趋势,从而导致无线环境中将会充斥着各式各样的
电子产业已成为全球假冒产品市场的主要目标。电子产品应用在整个社会的方方面面,由于电子设备的需求量非常大,没有一个产品设计厂家会从头到尾设计和生产所需要的全部组件,
众所周知,基于稀疏字典的图像超分辨率(Super Resolution,简称SR)方法可有效地从单个低分辨率图像(简称LR,Low Resolution)输入,重建得到高分辨率(简称HR,High Resolution)图
构建社会主义和谐社是我们党以及全国人民的共同奋斗目标,我国在2004年十六届四中全会第一次提出了“构建社会主义和谐社会”,在十六届六中全会上通过的《中共中央关于构建社
对海监视雷达的核心宗旨是对海面目标进行检测,及时作出态势评估。然而海杂波的存在使得检测功能受到限制,海杂波过强时会严重影响海面小目标的检测性能,因此对于海杂波的相