论文部分内容阅读
伴随着我国法制化进程的不断深入,司法案件的审理更加透明。其中,裁判文书的网上公开便是一个很好的例子。人们在解决纠纷时更多的选择了法律武器,而律师又在当中起着重要的作用。互联网技术的发展,使得更多的律师信息出现在互联网上。然而,现有的技术并没有提供一种有效的推荐律师的方法,人们面对互联网上铺面而来的信息,很难迅速而有效的找到自己满意的律师。针对以上问题,本文设计并实现了一种基于文本挖掘的律师推荐方法。该方法以公布在各地方法院网站的裁判文书为数据来源,通过文本挖掘技术获得律师在案件中的表现信息,利用这些信息实现对律师的排名,然后根据用户的浏览历史,并结合裁判文书的特点,向用户推荐律师。为了实现该方法,本文主要的研究内容分为以下几点:首先,为了获取各地区法院公开的裁判文书,本文基于静态模板,研究了多线程爬虫的实现。为了方便用户查询,本文针对大规模的裁判文书文本集实现了全文索引的功能。针对裁判文书中分类信息缺失的问题,研究了文本分类的相关方法,并对KNN分类算法的相关改进进行了研究。然后,基于现有的信息抽取技术,结合裁判文书的结构特征,设计了基于规则匹配的方法从裁判文书中提取信息。裁判文书可以分为民事、刑事和行政三大类,每一类都对应了不同的提取信息。因此,针对不同类型的裁判文书文本,设计了不同的提取规则。最后,根据信息抽取得到的信息,对律师进行排名。由于信息抽取得到的大部分都是文本信息,无法用于计算。因此,要将这些信息转换为可以计算的数值信息。然后,我们要根据提取信息对于律师排名的重要性,给每一个信息赋予不同权重,根据每一个信息的权重综合得到律师的评分。最后,将每个律师的评分进行排序,得到最终的排名结果。利用排名的结果和用户浏览记录,提出了一种基于裁判文书中法律角色关系向用户推荐律师的方法,并通过与传统的推荐算法比较,验证了该方法的准确率与可行性。