论文部分内容阅读
随着司法领域内案件文本数量逐年增多,人工处理的需求量也越来越大。对海量的法律文书进行智能分析和处理,对重要的信息要素进行提取,进而辅助司法办案人员更方便地理解案情,已成为智慧司法领域研究的重要内容。其中,法律文本中命名实体的准确识别和实体间关系的抽取是要素提取的基本任务,也是对文本进一步进行句法、语义等分析与理解处理的重要基础。本文基于深度学习方法对面向中文法律文本的要素提取技术开展研究,主要工作为以下:(1)构建以涉毒类刑事案件法律文书为主体的司法命名实体标注数据集。为解决训练数据方面的问题,构建一个由法律文书组成的司法命名实体标注语料集。分析刑事案件涉毒类案件文本的书写规范特点,设计合适的实体标注规范,制作对应的语料标注工具。(2)涉毒类刑事案件中提及的毒品和具体毒品的重量,会影响量刑和定罪结果,因此毒品的信息在案情理解中至关重要。在实体识别任务中,针对刑事案件设定5类实体,即时间、地点、人物、毒品以及重量(毒品),考虑司法办案人员理解刑事案件案情的实际需求定制深度学习训练方案,采用Bi-LSTM+Attention的组合进行基于法律文书的命名实体识别。在命名实体识别结果的基础之上完善法律文书中提取出的实体(重量)与毒品实体的对应关系。加入关系抽取的研究,即在标注数据集中的两种实体:毒品和重量之间加入关系标签,经过训练好的BERT模型预测后得出两种实体关系概率,由此判定重量是否能对应上毒品。实验结果表明,利用Bi-LSTM+Attention模型进行识别的F1值达到88.34%,利用BERT进行关系抽取的F1值达到82.39%。(3)为了解决司法办案人员审阅案件时提出的类案检索需求,结合以上实验中的算法模型搭建案件信息检索系统。涉毒类案件检索系统的功能不仅有针对单一案件的信息抽取,还可以对库中已有的档案进行查询检索。司法办案人员可在系统的搜索栏按毒品和重量输入查询条件,得到检索结果后根据所需信息浏览各案件。由此满足在量刑阶段浏览相似案例是如何处理的需求。此系统可以减轻司法办案人员审阅大文本量类型案件的负担,从而更有力辅助办案人员了解案情。