面向司法领域的命名实体识别研究

来源 :云南财经大学 | 被引量 : 0次 | 上传用户:poiuytrewq10
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度学习、自然语言处理等人工智能技术发展迅速,智慧法院建设受到国家、学术界和产业界的广泛关注。本文所研究的命名实体识别(NER)是自然语言处理的基础任务之一,在司法领域案例集上进行NER研究,对人工智能技术在电子证据收集、案例分析、法律文件阅读等智慧法院相关应用的实现方面具有促进作用。为此,进行面向司法领域文本的命名实体识别研究,完成了以下工作:(1)自然语言处理任务的基础是训练语料的构建,而目前并没有大规模的司法命名实体标注语料,为解决领域标注语料缺乏的问题,进行司法领域命名实体识别标注语料构建。利用互联网信息采集技术,从中国裁判文书网获取各级法院公开的刑事案件完整判决书,通过制定相应实体标注规范,最终标注1.2万余件判决书的事实描述文本,共计310.4万余字,采用O-S-B-I-E标注形式,标注实体21.2万余个,形成中文司法领域命名实体识别标注语料CJNER_Fact。(2)在刑事案件中是否携带、使用凶器,会影响刑罚裁量(简称量刑),甚至影响犯罪认定(又称定罪),凶器信息在司法及刑侦案件处理上至关重要。在实体类别上,针对司法领域设定四类实体,除了传统的人名、地名、机构名实体外,从司法领域应用场景中对刑事审判量刑的实际需求出发,首次提出“凶器”实体识别任务,拓展已有实体识别体系,将自然语言处理技术与行业知识深度融合。(3)为更好地解决司法领域命名实体识别问题,首先训练了三种类型的词向量:Word2Vec字向量,Word2Vec词向量及LDA模型主题向量。采用不同的词向量制定深度学习训练方案,进行Bi-LSTM+CRF模型、基于词向量与主题向量结合的Bi-LSTM-CRF模型(WL-Bi-LSTM-CRF),并提出基于字符与词切分组合下的LDA+层叠Bi-LSTM-CRF模型(WL-bi-BiLSTM-CRF)。本文使用自主开发的司法命名实体标注数据集CJNER_Fact,对不同的训练目标、不同的特征表示进行实验分析。实验结果表明,通过基于字符切分的BiLSTM-CRF模型、基于词切分的Bi-LSTM-CRF模型的训练,获得字符数较少的人名实体在基于字符级切分的模型中效果相对较好,字符数较多的机构名实体在基于单词级切分的模型效果相对较好的特点,应用于层叠模型WL-biBiLSTM-CRF的提出。WL-BiLSTM-CRF模型利用主题词向量的全局特性与词向量的语义特性,并经过Bi-LSTM对序列的学习,模型有效地将数据中数量较少的标签成功预测,可以提高模型准确率和召回率,解决样本标签的不均衡问题。WL-bi-Bi-LSTM-CRF层叠模型的司法领域实体识别,模型将识别分为两个层次,首先低层级模型基于字符级文本切分进行识别,识别出人名实体,并将识别的结果构成特征传入高层模型;在高层基于词切分进行建模,识别凶器、机构名、地名等。实验结果显示本模型对本文的“凶器”实体类别表现较好,且与文献对比“人名”、“机构名”类别优于当下司法领域文献数据结果。本文模型综合微平均F1-Micro值最高达89.86%,凶器识别F1值取得了90.76%的效果。
其他文献
中国古代法律文献颇多,法律文献是一个时代法律实践的记载,从古代法律文献中可以总结当时的法理精神。家族是古代社会中的一个重要组织,家族案件的处理必须…维护家族的稳定为目
为揭示Al2O3/(W,Ti)C陶瓷刀具断续车削淬硬钢时的切削力、刀具温度以及刀具应力的变化规律及相互关系,采用有限元方法进行金属切削仿真。仿真结果表明,断续车削过程中,刀具承受
随着医学信息技术的快速发展,非结构化的医学文本信息日益丰富。从临床电子病历、医学文献等医学文本中提取出有价值的信息是推进医学智能化研究的重要基础。信息抽取能够对
城市雕塑是城市的形象产品,提升了城市公共空间品质。优秀的城市雕塑必须依附于它的历史文化,赋有深厚的文化底蕴。城市雕塑的文化底蕴不仅对城市文化的发展和形成有很大的促进
<辞源>初版于1915年,<辞海>初版于1936年,几十年来,二书多次修订,多次再版,至今各发行积数百万部之多,然而,"郧县”"郧”二词条中的错误,相沿已久,误人子弟,今特指明,希望编
缸套是一种典型的圆筒薄壁零件,在加工中有一定难度.本文对T7216镗床刀具部分进行重新设计,对主轴部件进行改造,从而提高加工质量和加工效率.
在播音主持这一实践性和灵活性都很强的专业中,要如何构建和谐的师生关系无疑成为了一个重要的课题。针对这一问题的解决办法,我们在下面的文章中,站在教师的角度上,主要从平等的
不断加强教学方法的改革,全面进行考试方法的改革,是提高大学生计算机运用能力的重要途径.
分析了普通机床数控化改造中的成本构成及影响成本的各种因素,指出了取得合理成本的方法和判断标准.
近年降水量的减少以及全球气候变暖的影响导致我国华北区域干旱程度加剧,影响植被生长状况,使得区域生态环境恶化。基于华北地区2001-2014年的TRMM及MODIS数据,以归一化植被指数