论文部分内容阅读
如何快速精准的明确当前所遇问题对应的刑事罪名是用户求助法律援助的关键问题之一。目前的解决方案通常是人工标注数据进行监督学习,然而对于特定的任务,收集足够的数据进行标注通常需要耗费大量的人力、物力。为了充分利用之前已有的标注数据,亟需设计出一种算法以减少在人工标记上的消耗。迁移学习能够从相关领域中迁移标注数据或者知识结构、完成或改进目标领域或任务的学习效果。针对上述所提的问题,本文首先探究了基于语言模型的微调迁移算法。在微调方法中,本文以多种不同的预训练语言模型为基准,针对在迁移过程中可能出现的灾难性遗忘问题,研究了不同学习率对该问题的影响;由于语言模型不同的隐藏层包含了不同的语义信息,因此本文也探究了不同隐藏层对迁移性能的影响。考虑到微调方法在数据样本不足时会出现过拟合现象,本文提出了一种以语言模型为特征抽取器的共享对抗领域适配算法。在共享对抗领域适配算法中,本文以裁判文书网中的刑事领域案情判决文本为源域数据。该数据集的数据存在不平衡且类别数目远多于目标域的类别。为了解决数据不平衡且存在类别不完全匹配的问题,本文提出了基于共享对抗和层叠知识树的深度迁移模型。该模型与传统的领域适配算法相比,具有两个创新点,即使用条件对抗的方式进行领域适配以及用层叠知识树来降低数量较少的类别出现的过拟合问题。本文使用预训练语言模型为网络的特征抽取器,对源域训练数据(刑事判决文书)和目标域训练数据(法律问答社区数据)抽取的高维特征进行对抗训练,以提取交叉域的不变特征,同时使用层叠知识树对数据进行分类,以克服不平衡训练数据带来的过度拟合问题。最后,本文将提出的模型与目前已有的领域适配方案进行了对比实验,验证了该模型的准确性和可行性,实验结果表明在源域的数据不均衡及域差异的情况下目标域文本的罪名分类准确率达92.5%。