论文部分内容阅读
近年来,深度学习、自然语言处理等人工智能技术发展迅速,智慧法院建设受到国家、学术界和产业界的广泛关注。本文所研究的命名实体识别(NER)是自然语言处理的基础任务之一,在司法领域案例集上进行NER研究,对人工智能技术在电子证据收集、案例分析、法律文件阅读等智慧法院相关应用的实现方面具有促进作用。为此,进行面向司法领域文本的命名实体识别研究,完成了以下工作:(1)自然语言处理任务的基础是训练语料的构建,而目前并没有大规模的司法命名实体标注语料,为解决领域标注语料缺乏的问题,进行司法领域命名实体识别标注语料构建。利用互联网信息采集技术,从中国裁判文书网获取各级法院公开的刑事案件完整判决书,通过制定相应实体标注规范,最终标注1.2万余件判决书的事实描述文本,共计310.4万余字,采用O-S-B-I-E标注形式,标注实体21.2万余个,形成中文司法领域命名实体识别标注语料CJNER_Fact。(2)在刑事案件中是否携带、使用凶器,会影响刑罚裁量(简称量刑),甚至影响犯罪认定(又称定罪),凶器信息在司法及刑侦案件处理上至关重要。在实体类别上,针对司法领域设定四类实体,除了传统的人名、地名、机构名实体外,从司法领域应用场景中对刑事审判量刑的实际需求出发,首次提出“凶器”实体识别任务,拓展已有实体识别体系,将自然语言处理技术与行业知识深度融合。(3)为更好地解决司法领域命名实体识别问题,首先训练了三种类型的词向量:Word2Vec字向量,Word2Vec词向量及LDA模型主题向量。采用不同的词向量制定深度学习训练方案,进行Bi-LSTM+CRF模型、基于词向量与主题向量结合的Bi-LSTM-CRF模型(WL-Bi-LSTM-CRF),并提出基于字符与词切分组合下的LDA+层叠Bi-LSTM-CRF模型(WL-bi-BiLSTM-CRF)。本文使用自主开发的司法命名实体标注数据集CJNER_Fact,对不同的训练目标、不同的特征表示进行实验分析。实验结果表明,通过基于字符切分的BiLSTM-CRF模型、基于词切分的Bi-LSTM-CRF模型的训练,获得字符数较少的人名实体在基于字符级切分的模型中效果相对较好,字符数较多的机构名实体在基于单词级切分的模型效果相对较好的特点,应用于层叠模型WL-biBiLSTM-CRF的提出。WL-BiLSTM-CRF模型利用主题词向量的全局特性与词向量的语义特性,并经过Bi-LSTM对序列的学习,模型有效地将数据中数量较少的标签成功预测,可以提高模型准确率和召回率,解决样本标签的不均衡问题。WL-bi-Bi-LSTM-CRF层叠模型的司法领域实体识别,模型将识别分为两个层次,首先低层级模型基于字符级文本切分进行识别,识别出人名实体,并将识别的结果构成特征传入高层模型;在高层基于词切分进行建模,识别凶器、机构名、地名等。实验结果显示本模型对本文的“凶器”实体类别表现较好,且与文献对比“人名”、“机构名”类别优于当下司法领域文献数据结果。本文模型综合微平均F1-Micro值最高达89.86%,凶器识别F1值取得了90.76%的效果。