【摘 要】
:
互联网正越来越多地渗透到人们生活的方方面面,记录和储存了各个领域不断产生的大量数据。其中在法律领域,由最高法院所设立的中国裁判文书网统一公布各级人民法院的生效裁判文书。近年来,随着国家法治体系的完善和公民维权意识的增强,各类诉讼案件的数量不断增加,每日新增的裁判文书的数目也迅速增长。一篇裁判文书的字数通常在两千字左右,对于相关从业人员或有查阅需求的普通公民而言,完全依靠人工方式阅读大量这种篇幅的文
论文部分内容阅读
互联网正越来越多地渗透到人们生活的方方面面,记录和储存了各个领域不断产生的大量数据。其中在法律领域,由最高法院所设立的中国裁判文书网统一公布各级人民法院的生效裁判文书。近年来,随着国家法治体系的完善和公民维权意识的增强,各类诉讼案件的数量不断增加,每日新增的裁判文书的数目也迅速增长。一篇裁判文书的字数通常在两千字左右,对于相关从业人员或有查阅需求的普通公民而言,完全依靠人工方式阅读大量这种篇幅的文字无疑是耗费时间和精力的。为了降低裁判文书的阅读成本,提高相关工作人员或普通查阅者的工作效率,将摘要自动生成技术应用于裁判文书已经成为了一种迫切的需求。深度学习网络是目前非常流行的一种摘要生成的方法,近年来很多工作将深度学习网络应用在包括新闻在内的各种文本类型的摘要生成任务中,并取得了很好的训练成果。然而,直接将这些摘要生成模型应用于中文裁判文书摘要生成任务并不能取得令人满意的效果。这首先是因为裁判文书通常包括数千个词汇,远远超出了大多数模型的处理能力,基于注意力机制的模型虽然可以通过自注意力模块捕捉远距离上下文信息,但由于注意力计算的复杂程度与序列长度的二次方成正比,导致处理长文本的代价变得非常高昂;其次是因为词表的限制导致裁判文书中许多和人名、地名相关的词汇都无法正常映射,导致输入序列中出现<UNK>标签,模型生成的摘要中也无法包含这些重要词汇。为了解决上述问题,本文提出一种新的裁判文书摘要生成模型Judgformer Ptr。Judgformer Ptr采用多任务模式,首先由一个关键句抽取模型读取输入序列中的句子并完成关键句抽取。之后使用关键句编码器以抽取的重要句子为输入,叠加多层自注意力计算完成对原文的编码工作。在解码阶段,Judgformer Ptr引入指针生成网络,在每一时间步自由切换词汇生成和词汇复制ii两种方式,当生成的摘要中需要包含人名、地名等词汇时,就可以突破词表的限制,直接从原文中获取。为了帮助指针生成网络更好地关注到原文中的重要词汇,我们通过自下而上的注意力步骤对指针生成网络的复制词汇进行约束。我们在法研杯司法人工智能挑战赛司法摘要任务的公开数据集上对比了Judgformer Ptr和基线方法的表现,并通过变体实验验证了Judgformer Ptr各个模块的有效性。我们在小数据集上训练Judgformer Ptr,观察它对于样本数量的敏感程度。实验证明Judgformer Ptr可以很好地自动生成中文裁判文书摘要,输出结果的BLEU、ROUGE-1、ROUGE-2、ROUGE-L指标分别达到了0.550、0.601、0.351和0.526。最后我们结合Flask框架,实现了一个Web原型系统用于中文裁判文书摘要的在线生成和展示。
其他文献
2020年11月,东盟10国、中国、韩国、日本、澳大利亚以及新西兰共15个亚太国家正式签署了《区域全面经济伙伴关系协定》(RCEP)。作为全球最大的综合性自贸区协定,RCEP将对区域内外的经济和法律产生深刻影响。知识产权是RCEP谈判和签署的焦点之一,药品专利权是其中是重要章节,药品专利权条款的达成为区域内专利药品的开发与保护提供了统一的标准和合作目标。RCEP药品专利权条款在借鉴TRIPS协定中
购买价金担保权制度与我国前民法典时代的担保物权受偿顺位规则产生冲突,民法典416条与“登记在前,权利在先”的规则相反,登记在后仍具有优先顺位。购买价金担保权的正当性有三。一、其前身为价金担保物的所有权。“瞬时保有”理论为契约与抵押同时发生的房地产交易提供了解释思路,为何买受人拥有的动产所有权利会劣后于抵押权人。因为抵押权人系事实上的出卖人,在抵押权满足之前,所有权人的地位没有降级为担保权人的充分理
经过最近十几年互联网技术的大幅提升,人类已经跨入了数据时代。数据本身已然成为了当今社会最重要的无形社会资源甚至国家战略资源之一,数据的身影几乎无处不在,人们的生活与数据已经无法被割裂开来,但是这其中也潜伏着重重危机,其中就包括国家数据安全问题,这本质关乎于一国主权。于是,在国际社会所倡导的数据主权这一概念背景下,出于保护国家自身的网络安全和数据安全的考量,美国、英国、欧盟等主要的发达国家率先在激烈
面对越来越多的自动化决策或辅助化决策,算法在经济活动中扮演的角色让传统的竞争发生显著变化,算法共谋在市场交易中造成限制竞争的效果也已经被证明。无论是对市场经济的影响、原有共谋理论的冲击还是现有制度框架的挑战,都是不可忽视的社会问题,而且随着算法技术的不断精进,其对于竞争领域将会有更为深层次的介入和影响。国内学者也越来越关注这一问题,相关的案例在国外已经有多起发生,域外的一些国家也都纷纷出台相应的应
近年来,非法集资活动与金融科技结合,推高非法集资的破坏力度,造成地方金融风险频发。地方金融监管是保障地方金融安全防范系统性金融风险发生的重要屏障。相较中央政府固有的垂直监管,地方政府处于防范和处置非法集资的第一线,能迅速地应对非法集资带来的金融风险。为此,中央政府近年来屡屡强调压实地方的金融监管责任,强调地方政府属地监管的区位优势,明确地方政府应当对非法集资的监管负总责,意图将非法集资引发的金融风
文化是一个城市葆有生命力的根本所在,而历史文化街区是城市历史与文化记忆的见证。目前历史文化街区旅游开发面临“千街一面”的现实问题,但街区本身具有的可意象、可识别的文化是彼此间构成差异化的关键因素。因此,在文旅融合背景下全方位挖掘街区文化内涵,推动传统文化创造性呈现具有迫切性。历史文化街区作为城市旅游的核心吸引物是新时代游客体验文化旅游的优先选择,从需求视角探究增强游客获得感的影响机理不仅有助于为旅
人工智能时代的到来给现行法律制度带来巨大冲击。为了解决人工智能是否应该被赋予法律人格的问题以及如何构建人工智能法律人格制度。通过对实践中发生的个案进行分析,发现人工智能带来如下问题,人工智能运行过程中造成侵权事故时由谁承担责任、人工智能是否享有自然人的某些权利、人工智能的产出物如何认定等问题。面对人工智能带来的这些法律问题,需要从法律的角度来思考人工智能的性质。是否打破传统的民事主体制度,赋予人工
数据是当今社会生活中生产和竞争的重要因素,数据经营者为取得竞争优势,纷纷采取各种措施攫取数据资源,有的是通过运营自身的软件产品,吸引用户获取数据,有的是利用数据抓取手段,抓取网络上已有的数据。前者往往成本较高、时间长,后者成本低,短期内就可以获取大量数据。通过技术手段抓取网络上的数据已成为近年来各大数据经营者获取数据资源的主要方式。这使得以数据抓取行为为根源的不正当竞争纠纷层出不穷。面对此种高效获
个人信息蕴含人格属性,直接关系到公民的人格尊严、人身自由,理应受到法律的妥善保护。而人脸识别技术作为信息时代的代表性技术,凭借其技术优势,获得了广泛的应用,同时也对于个人信息的保护提出了新的挑战。现实生活中人脸识别技术擅自采集人脸信息,违法处理,过度分析个人信息的现象屡见不鲜。伴随着人脸识别技术对个人信息侵犯程度的不断加深,社会大众对个人信息被妥善处理的要求不断增强,甚至对人脸识别技术的应用产生抵
从文化与旅游部组建以来,我国各地文旅融合发展不断深入。不论是A类旅游景区、度假旅游目的地,还是各级文化、体育场馆等,都开始注重挖掘其自身的文化因素。文化氛围是旅游目的地最直接的文化表现,是形成项目特色优势的重要组成部分。侨乡是华侨华人的家乡,侨乡侨文化独具特色,如中西合璧的建筑文化、异国风情的美食和歌舞表演、爱国华侨事迹等,吸引游客前来观光旅游。但是,由于开发不当,一些侨乡旅游地面临着文化氛围相近