【摘 要】
:
近些年来,随着数据量的快速迭代和爆发式增长,人们对数据的智能化处理要求越来越高,原有的算法和技术框架已经远不能满足人们日益增长的需求,人们急需一种新的数据处理范式,在这样的背景下基于神经网络的人工智能技术应运而生。现如今,人工智能技术正在以各种方式影响着人类生活的方方面面。文本生成作为人工智领域最具挑战性的研究课题之一,在自然语言处理领域占重要的地位。文本生成虽然具有很长的研究历史,但是大多为开放
论文部分内容阅读
近些年来,随着数据量的快速迭代和爆发式增长,人们对数据的智能化处理要求越来越高,原有的算法和技术框架已经远不能满足人们日益增长的需求,人们急需一种新的数据处理范式,在这样的背景下基于神经网络的人工智能技术应运而生。现如今,人工智能技术正在以各种方式影响着人类生活的方方面面。文本生成作为人工智领域最具挑战性的研究课题之一,在自然语言处理领域占重要的地位。文本生成虽然具有很长的研究历史,但是大多为开放式的文本生成,比如机器翻译和短文改写等这类具有较强的对齐属性的任务。对于非开放式文本生成研究较少,中文非开放式文本生成则更少。基于话题的文本生成作为非开放式文本生成任务之一,最终的目标是根据给定的若干个话题生成流畅、可读性强且能够很好而且较为全面表达话题中蕴含的语义。随着深度学习的兴起,基于深度学习的方法为文本生成提供了许多新的思路。作为一个新兴的研究课题,基于话题的文本生成仍然存在诸多问题,由于本任务刚提出不久虽然有公开的语料库,但是数据的质量不高;现有的文本生成多基于循环神经网络的编码解码框架,循环神经网络每次把之前的信息编码为一个单一的向量,对历史信息的编码能力有限;另外本任务属于非开放式的文本生成,数据集存在一对多的现象;目前的模型生成的文本对话题语义的表达仍然不够准确和全面,需要进一步的改进;基于对数似然的文本生成存在训练和测试的不一致导致的暴露偏差问题。针对以上问题,本文进行了较为深入的思考和探究,并取得了以下研究成果:(1)本文设计并实现了融合全局历史信息基于话题生成文本方法HTM,其中包括:一个话题注意力编码模块,这个模块通过计算当前解码器的隐藏状态对话题的注意力权重,实现对输入的话题信息进行信息的编码;一个历史记忆模块,此模块显式地记录之前已经生成的词信息,以向量的形式存放在这个历史记忆模块当中,并且使用一个新的注意力机制得到一个全局历史向量来指导模型的生成。(2)在历史记忆模块的基础之上,本文提出了一种矫正注意力模型HTMC,引入丰富度来量化生成的文本对话题语义的表达程度,本文使用余弦相似度来定义语义丰富度,并且将语义丰富度作为矫正系数来调节注意力权重,避免话题被生成的文本重复的表达和表达不全的情况。通过增大之前语义表达比较少的话题的注意力权重,减小之前语义表达表较多的话题注意力权重来实现这种调节。(3)在全局历史信息模块的基础上,本文引入了基于强化学习和对抗神经网络的训练框架,包括:引入强化学习的观点,将序列生成文本形式化为序列决策问题,将之前的对数似然的目标修改为判别器惩罚信号的期望,使用一个多目标判别器的惩罚信号来引导生成器的生成,使得生成器更加符合给定话题的语义,生成器的进化反过来促进判别器的进化。对于以上改进本文均设计了相关的实验进行验证,并且和类似的模型进行公平的对比,实验结果表明本文模型生成的文本具有更高的流畅度并且更加符合给定话题的语义。
其他文献
“化学平衡”是高中化学的重要学习内容,在新高考改革的背景下,本研究采用文献分析、文本研究、统计分析等方法,选取2020年高考全国卷Ⅰ、Ⅱ、Ⅲ、浙江卷、北京卷、山东卷、天津卷、海南卷、江苏卷的化学平衡类试题为研究对象,从试卷基本情况、考查视角、试题分析三个方面,对化学平衡类试题进行比较研究。研究结果显示:(1)化学平衡类试题在2020年高考试题中所占比重较大,试题的结构和比例相对一致,考查内容更侧重
X射线偏振卫星是天文物理的重要研究手段。低能X射线偏振卫星的探测系统包括两部分,微结构气体探测器和具有传感与读出功能的硅像素芯片。华中师范大学研发的Topmetal硅像素芯片是低能X射线偏振卫星的备选芯片之一。目前,国内外有许多针对硅像素传感器的读出电子学方案,有用于大型实验的通用数据读出系统,也有针对小型实验的专用读出系统。大部分读出方案都是读出所有数据然后进行离线数据处理。但是空间X射线偏振卫
信息技术目前已经成为高中数学课堂中常见的教学手段之一,具有十分重要的教学价值。在数学课堂中科学合理的应用信息技术,能充分调动学生的学习积极性,提升课堂教学效果。然而信息技术在高中数学课堂教学中的应用效果,受到多种因素的综合影响,如:学生需求差异化、传统教学模式惯性思维、对信息技术应用的重视程度不足等。本文立足于宜春市第九中学的实际教学情况,分析信息技术在高中数学课堂应用中存在的问题和成因,并提出一
普通高中物理课程标准充分关注物理学科对提高学生核心素养的独特作用,强调对学生科学思维能力的培养。思维导图是一种能够将思维可视化表达与呈现的工具,运用大脑的联想、发散性思维等方式,思维导图可以有效地提高工作和学习的效率,已被越来越多的人所接受和应用。鉴于此,笔者尝试将思维导图引入高中物理教学,并以一些多媒体技术将物理课堂进行可视化地呈现,希望能够运用基于思维导图的方式,逐步提高学生的科学思维能力,同
随着社会发展与生活水平的逐步提高,超重和肥胖已经成为全球性问题,由肥胖引起的脂肪肝、癌症以及代谢类疾病已经严重威胁人类健康。为了对人体肥胖及其程度进行精准的定量研究和综合分析,人体全身脂肪组织和肝脏图像分割就尤为重要。然而,目前大多数全身脂肪和肝脏图像分割算法存在分割效率较低及分割效果较差的缺陷。因此针对此类分割算法存在的问题,本文以全身脂肪及肝脏磁共振(Magnetic Resonance,MR
用户群中的关系影响用户的情绪,是广泛存在于社交网络情绪传播中的现象,研究用户群的情感倾向有利于从影响情绪传播、情绪感染的几个节点切入,可以帮助调控网络空间的健康发展,也可以帮助减少负面情绪的大规模聚集,减少社会突发性事件的发生。因此,本文从以下几个方面展开研究:第一,针对现有的文本情感倾向性分析中存在着用户群关系逻辑的整体缺位以及被忽略的情况,本文通过提出用户群的社交可供性概念,即可连接性——用户
医学药物名识别是药物相关任务中关系抽取,事件抽取等的基础工作,在生物医学领域具有重要的研究意义。现有的药物识别方法大多是基于有指导的机器学习方法,该方法往往需要大量人工标注的数据作为训练数据,但由于人工标注数据有限,新药层出不穷,从而制约了药物名识别模型的性能。本文针对性地分析了药物名的构成特点,提出了基于字符嵌入和药物名前后缀嵌入的神经网络模型来提高药物名的语义表达,同时利用远程监督、部分标注学
为了追求更高质量的精神生活,选择收听歌曲成为大部分人群释放心理压力和享受舒缓生活的一种方式。现在各种音乐在线网站和手机软件层出不穷,基本能满足用户的心理需求,在音乐个性化推荐部分也能给用户带来惊喜感。搜索引擎和推荐模块的相互融合推动了个性化音乐推荐系统的快速发展,随着推荐算法的逐步改进和优化,推荐的结果可以跟随用户的行为动态地更新,方便用户在信息过载的环境中快速找到符合要求的歌曲。当下有许多关于推
随着大数据时代的到来,互联网上数据以指数形式增长,其中大部分都是无结构化数据。信息抽取能够将无结构化数据转换为人们易于理解的结构化数据,其中关系抽取是信息抽取比较重要的一环,它也是机器翻译、机器阅读理解等任务的基础工作,具有重要意义。针对一些复杂的文本,目前的关系抽取模型的性能仍然不高,主要原因在于,人工标注可以使用除文本之外的外部知识(如常识或经验),然而传统的关系抽取只利用了文本信息,无法解决
“互联网+教育”背景下教育与信息技术的不断融合,为在线教育的迅速发展奠定了基础。在线教育也因其跨越时间、空间的优势受到越来越多人的关注,新冠疫情的爆发更是加速推动了在线教育的发展。与传统教育相比,在线教育的教师无法实时监督学生的学习状态,师生之间缺少必要的交互与情感交流,导致学习效果无法得到保证。因此,开展在线学习状态识别研究对于完善在线教学系统的监督手段、提高教学质量具有积极的社会价值。论文提出