【摘 要】
:
司法要素抽取是司法智能化辅助应用的重要基础,其目的是判别裁判文书涉及的关键案情要素.以往司法要素抽取通常采用多标签分类方法进行建模,模型主要依赖于裁判文书文本特征,忽略了要素标签的语义信息.同时,由于司法数据集存在样本分布不均衡的情况,分类方法会因负例过多而导致模型性能不佳.针对上述问题,提出基于BERT阅读理解框架的司法要素抽取方法.该方法引入标签信息和法律先验知识构造辅助问句,利用BERT机器阅读理解模型建立辅助问句和裁判文书之间的语义联系.同时,在问句中标签所在位置前后增加特殊标识符以增强模型的学习
【机 构】
:
贵州大学计算机科学与技术学院,贵州 贵阳 550025;贵州大学计算机科学与技术学院,贵州 贵阳 550025;公共大数据国家重点实验室,贵州 贵阳 550025
论文部分内容阅读
司法要素抽取是司法智能化辅助应用的重要基础,其目的是判别裁判文书涉及的关键案情要素.以往司法要素抽取通常采用多标签分类方法进行建模,模型主要依赖于裁判文书文本特征,忽略了要素标签的语义信息.同时,由于司法数据集存在样本分布不均衡的情况,分类方法会因负例过多而导致模型性能不佳.针对上述问题,提出基于BERT阅读理解框架的司法要素抽取方法.该方法引入标签信息和法律先验知识构造辅助问句,利用BERT机器阅读理解模型建立辅助问句和裁判文书之间的语义联系.同时,在问句中标签所在位置前后增加特殊标识符以增强模型的学习能力.实验结果表明,该方法在CAIL2019要素抽取公开数据集上性能得到显著提升,在婚姻家庭、劳动争议、借款合同3种案由上分别提升F1值2.7%、11.3%、5.6%.
其他文献
一团、一按、一拨,不过几秒,面团上便出现人物的眉眼.在辽宁沈阳于氏面人制作技艺传承人于启全手里,短短十几分钟,一个活灵活现的面人就能制作完成.rn今年53岁的于启全8岁起就学习面塑.“最初只是做着玩,没想到越做越入迷.”于启全说.
很多年轻人结伴出去游玩或者就餐的时候,“AA制”是大家比较推崇的一种结账方式.“AA制”的意思是按人头平均分摊所需费用,在朋友聚会,一起出游等共同消费的场合中,“AA制”使用的频率很高.这个理念来源于西方,但是这个词却是我们中国人才会用的.“AA”这个词的起源,有人认为是“Algebraic Average”(代数平均,平均到单位人数上,分摊)的缩写.在香港,也有许多人认为“AA”是“All Apart”(全部分开)的缩写.那么问题来了,“AA制”用英语怎么说呢?
《宫娥》与《蒙娜丽莎》一样,同属于世界三大名画.论知名度,这幅画也许争不过“队友”《蒙娜丽莎》,但要论神秘感,绝对不相上下.因为几乎所有人一眼就能看出,《蒙娜丽莎》的主角是谁;而《宫娥》的主角,估计大多数人会认为是位于画面“C位”的小女孩,但其实这幅画里暗藏乾坤.
生理学或医学奖更贴近生活rn作为今年诺贝尔奖的首揭奖项,生理学或医学奖在10月4日揭晓之前,很多人都以为这一奖项会颁给mRNA新冠疫苗背后的科学家.然而,2021年的诺贝尔医学奖没有授予这一“热门”,而是给了两位发现人类如何感受身体疼痛和愉悦的美国科学家戴维·朱利叶斯和阿德姆·帕塔普蒂安.
材料辐照效应的数值模拟计算是认识核材料服役性能的重要手段,基于超级计算机的大规模、高保真材料数值模拟计算会产生海量数值计算数据,如何针对数值计算大数据的特点,在实现其高效存储的基础上,通过挖掘总结辐照损伤机理和性能演化规律,对于核材料设计研发、核安全等具有重要意义.论述了材料数值计算大数据的定义及其本质特征,综述了近年来的相关工作.以自主研发的材料辐照效应分子动力学软件MISA-MD和随机团簇动力学软件MISA-SCD在国产超级计算机上的实际算例为基础,提出了一种适用于材料数值计算大数据的、多尺度关联与耦
作为主流的信息检索方法,局部敏感哈希往往需要生成较长的哈希码才能达到检索要求.然而,长哈希码需要消耗巨大的存储空间且携带大量的冗余哈希位.为了解决此问题,采用特征工程中10种简单高效的选择算法从长局部敏感哈希码中选择信息量丰富的哈希位,去除冗余、无效的哈希位.这10种选择算法使用不同的方式来刻画每一个哈希位的性能或两个哈希位之间的相关性,如方差、汉明距离等.通过去除长哈希码中性能较差或具有高相关性的哈希位进行哈希位的选择.将选择后的哈希码与原哈希码的性能进行比较.在4个常用数据集上的实验结果表明,去除冗余
通信网络中存在海量垃圾和不良信息,这些信息需要被阅读和理解,以便对其进行有效的特征提取和拦截封堵.基于人工分析的方法已经无法达到目的,需要使用基于大数据的认知计算技术代替人工进行海量的数据分析和理解,帮助人们制订内容安全管控策略.针对电信诈骗治理、不良消息治理、变体消息治理和不良网站治理4个方面遇到的实际问题,分别提出了大数据认知计算的解决方案,并给出了创新性实践的效果.实践表明,提出的解决方案能够快速发现不良信息,有效地提升内容管控质量.
海量的网络文本给情感分析任务带来了巨大的机遇和挑战,传统基于规则的方法已经很难胜任这类文本的分析工作,现有的深度学习方法存在一些不足,一方面模型的输入只包括文本嵌入矩阵,缺乏其他特征的使用;另一方面,词嵌入算法会导致文本结构信息缺失,进而影响分析效果.在对基于规则的情感分析方法中的句法规则进行研究的基础上,提出了一种结合MCNN、LSTM和全连接神经网络的多输入模型.同时在深度学习模型中构建了句法特征提取器来提取句法特征.在3个公开数据集上进行了实验,结果表明,构建的模型较其他模型拥有更好的分类性能,且句
针对传统电力征信平台稳定性不足、测试准确性低等缺点,研究设计了一个电力征信大数据平台.使用联机分析法对电力大数据进行分析,并将其分为用户行为、费用细则、用户价值与个人信用四大类.以模块化结构为基础,分别对数据采集模块、数据分析模块、用户交互模块进行优化设计,采用KNN算法和交叉验证法对用电数据进行分类与决策处理,得出区域的用电规律,以此设计和调整配电方案.最后将提出的平台与传统电力征信平台进行对比,实验结果表明,提出的平台的稳定性和准确性都有所提升,在测试过程中准确性高达98.9%.
水环境模型内部结构复杂且计算耗时,造成参数率定、多情景分析及决策优化过程中面临高负荷计算难题,这极大地限制了其应用价值的发挥.如何融合水环境模型和大数据技术,深入挖掘模型应用潜力和充分发挥其应用价值是一个研究热点.总结了水环境模型在实际应用过程中面临的瓶颈,分析了大数据技术在解决这些问题上具有的潜力.基于现有成熟的大数据技术,提出了水环境模型与大数据技术融合框架,解决了水环境模型规模计算、规模存储和应用分析问题.阐述了模型与大数据技术融合过程中面临的问题,提出了具体的实现技术思路.通过SWAT模型率定应用