基于深度学习的中文文本纠错方法研究

来源 :北方工业大学 | 被引量 : 0次 | 上传用户:yangshaoj2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在日常生活中,文本错误随处可见,主要的文本错误分为两种,一种是同音字错误,另一种的同型字错误。文本错误的出现会导致网页存在别字影响用户阅读、音频识别不准确等问题,如何对错误文本进行合理纠错是一个亟待解决的重要课题。目前的现有技术中,基于统计的纠错方法最为成熟,如黑马校对系统,但是随着深度学习技术的发展,基于深度学习的纠错方法也在如雨后春笋一般逐渐涌出,科大讯飞与哈工大合作开发的校对系统就是其中之一。在自然语言处理领域,众多学者曾提出不同的文本纠错方案,起到了一定的效果,但往往还不能达到令人满意的结果,至今未形成较为成熟的文本纠错解决方案。随着深度学习技术的发展,文本纠错任务同样开始尝试结合深度学习技术对已有任务进行处理,比较常用的模型有序列到序列模型,该模型将文本纠错任务转化为文本生成任务来处理,利用深度学习优秀的拟合能力在训练中提高纠正文本错误的能力。但仅使用序列模型来处理文本纠错任务往往效果不佳,需要在序列模型基础上加以改进。本文主要在以下两个方面做了尝试:(1)对LSTM和Transformer两种序列到序列模型的结构进行优化。LSTM模型擅长提取时间序列特征,如文本信息,而Transformer模型完全采用注意力机制,避免了RNN模型在较长序列上进行编码所造成的梯度消失和梯度爆炸的问题,可以对更长的文本进行建模,并且该模型的结构支持并行计算,计算效率上要更高。本文在上述两种模型的基础上对与纠错相关的结构做出了多方面的优化,并设计了多组对照实验来验证在各种优化场景下模型的有效性。(2)对预训练模型BERT的结构、训练方式进行优化。本文采用Softmask BERT作为基础模型,对该模型结构进行了优化。另外分析了BERT模型的具体训练方式,并以纠错任务需求为主要目标对其做出了适应性的修改,使模型更加适合文本纠错。最后本文设计了不同的实验,验证了模型结构和改进训练方式的合理性以及有效性。
其他文献
辐射盘管为一种新型节能的供暖/制冷末端形式,其工作原理是通过冷媒(热媒)在盘管中的对流换热降低(升高)建筑物内一个或多个辐射板的温度,辐射板主要以辐射换热的形式满足室内热环境的需求,系统因其热舒适性高、节能效果好、占用建筑面积少等优点受到业内人士的重视。尤其在冬季采暖方面,已在我国北方地区得到极大推广;但在夏季供冷方面,由于系统有控制辐射板结露的需求,供水温度不能过低,这就导致系统供冷能力可能出现
框架桥下穿方案能够提高城市中土地资源的利用效率,且施工工期较短,因而在穿越铁路线工程中被广泛应用。随着技术的发展与工程的需要,框架桥跨度越来越大,若单纯的使用钢筋混凝土来修建框架桥,桥体的截面尺寸通常较大,使得框架桥的自重过大,会增加顶进时的路基变形。本文将预应力技术应用于大跨度框架桥中,建立数值模型对预应力框架桥的结构特点和路基变形的控制措施进行了研究。对大跨度框架桥进行了预应力的设计,计算了预
在现代社会中,人类一生绝大部分的时间都是在室内,办公或是日常生活,那么室内环境品质的高低会直接影响人们在室内一天的工作或休息状态。适宜的室内热环境会使人们保持心情舒畅,同时也有助于提高其工作效率,使其最大化。本文以北京市某高校一间教师办公室为实验场所,搭建实验台模拟办公环境并招募被试人员,采用了实验研究、理论分析和搭建控制系统的研究方法,探究了办公室内人员的工作效率与人体热感觉指标PMV的关系,并
科学技术的应用对竞技体育的影响越发深远,开展冰刀减阻理论的研究,对提高滑冰运动项目的比赛成绩,具有重要的意义。目前学者们普遍认为冰面的水润滑膜对降低冰面摩擦因数起着至关重要的作用,但水润滑膜的形成过程尚不明确,这极大的限制了冰刀减阻理论研究的发展。本文通过ANSYS对冰刀的滑动摩擦过程进行有限元仿真模拟,分别在滑冰工况相同冰刀物性参数不同、冰刀物性参数相同滑冰工况不同的条件下,分析冰刀、冰面局部温
社会经济的发展推动着人们对食品质量安全的关注水涨船高,特别是近些年来频发的粮食安全问题,不光给社会经济发展带来了一些损失,而且也损害了消费者的身体健康,乃至影响了整个社会的稳定。中央和地方政府因此对粮食安全的问题十分重视,认为必须实施严格产品质量安全准入制度,加大产品监督和管理力度,利用现代化的信息检测手段,建立粮食安全评价标准,基于粮食数据分析,便于后续的专家决策。本论文通过研究基于粮食安全的智
随着微机电系统(MEMS,Micro Electro Mechanical Systems)制造技术的快速发展,基于智能材料致动器的微型机器鱼的研究逐渐增多。相比使用电机、液压驱动等传统致动方式的机器鱼,基于智能材料致动器的微型机器鱼具有噪音小、重量轻、功率密度高的优点,更适合管道侦察、环境保护过程中的非结构化环境,在军用和民用领域都具有广阔的应用前景。本文针对压电致动器(PZT,Piezoele
北斗二号卫星导航系统(BD2)作为我国“三步走”战略的关键一步,经过8年艰苦卓绝的建设,于2012年12月27日成功开通运行,为亚太地区的用户提供区域导航、定位、授时服务。星载原子钟作为卫星导航系统的关键设备,为卫星提供高精度的时间基准。随着BD2平稳精准地运行了近十年时间,部分在轨卫星已达到或接近设计寿命。对进入寿命末期的卫星开展相应的研究,是一项具有理论意义和实用价值的研究课题,同时对于掌握B
无机闪烁体探测器目前被广泛运用于医疗诊断、安全检查、高能物理等领域。无机闪烁体具有高密度、高光产额、高透过率等优良的闪烁性能,以及稳定的物化特性,与光电探测器耦合成为高能物理核物理实验中的核心探测器之一。近些年来,掺杂Ce3+的硅酸钇镥(LYSO:Ce)和钆镓铝石榴石(GAGG:Ce)在核探测领域中引起了广泛关注。LYSO:Ce光产额很高可达到30000 ph/Me V,其衰减时间很快(<40 n
随着我国城市化发展,城市中高楼大厦巍然耸立,各种宏伟建筑纷纷呈现在大众面前,由此也带动了建材业的快速发展。而建材质量决定了建筑安全问题,目前工程质量问题屡见报端,引发建材行业质量安全受到了广泛的关注,因此,建立有效的建材质量追溯管理系统,构建完整的建材生产到使用全链条监管体系,是解决建材质量安全问题的重要途径。本文从原材料生产加工到使用全流程的质量追溯管理机制为研究对象,以供应链管理理论、产业组织
氟化铝添加量和出铝量作为影响铝电解过程热平衡和物料平衡的两个非常关键性指标,对其取值的准确与否将直接影响到实际生产能否安全、稳定、高效地运行。因此,研究一种准确有效地获得氟化铝添加量和出铝量的决策值的方法具有重要的研究价值。而目前虽然电解铝生产自动化水平已经取得了较大的进步,但一些关键参数设置对生产管理人员的经验依赖度仍然较高,生产效益较容易受到主观因素的影响,因此,利用数据挖掘技术依据历史数据对