相似案件智能检索方法研究文献综述
2020-04-14 19:58:58
1.1目的及意义
在网络的海量空间中,法律信息资源占有重要的一席之地。各种法律文书,如诉状,协议,判决书等,是经济活动,审判工作,诉讼行为中不可缺少的文本,有其固定的格式。大部分的律师,尤其是诉讼律师,都会在办理实际案例的过程中,通过检索裁判文书来为自己当下办理的案件提供办案思路。然而,案例检索是一项繁杂,系统而且往往非常耗时的工作,要在数以千万计的裁判文书中找到真正想要了解的内容,并非一件容易的事情。因此,如何在保持精度的情况下快速检索相似法律文书,获取对应判决,是一项值得探讨的问题。
文档相似度计算是法律案例检索的一个重要环节,旨在比较文档对的相似程度。对文档相似度计算的研究可以应用到很多自然语言处理任务中,例如信息检索,机器翻译,自动问答,复述问题以及对话系统等。在一定程度上,这些自然语言处理任务都可以抽象为文档相似度计算问题。例如,信息检索可以归结为查询项与数据库中文档的相似度计算问题。
与普通的文档相比,法律案例文本具有特殊性。法律案例文本设计法律行业用语,例如盗窃罪,过失犯罪,故意犯罪等。相比普通文本,法律案例文本对文本预处理要求更高。传统的文档相似度计算方法依据特定的研究任务,需要大量的人工定义和抽取特征,所以我们不能简单的将其他任务的文档相似度计算的传统方法引入到法律案例文本相似度中。但是神经网络模型可以自动从训练数据中抽取特征,也就是说抽取特征是模型的一部分,从而使用神经网络模型计算案例文本相似度我们可以忽视案例文本的特殊性。
如若同时采用传统的文本相似度计算策略和融合深度学习的法律文书的相似度计算策略,在保持较高精度的模式下,选取具有最高精度的相似度计算模型,则可以更快的查询相似案例,降低时间成本和人力成本,提高效率。
1.2 国内外现状研究。
信息检索是研究如何从大规模原始信息中快速准确全面的获取用户所需信息的一门学科,最初起源于图书馆的文献查找需求,现在已经扩展到各种信息处理领域,成为了一门跨学科,跨领域的交叉学科,对信息检索技术的研究也达到了前所未有的高潮。以顶级学术国际会议为例,现在包括SIGKDD,ICDM,WWW,SIGMOD,NIPS,VLDB,ACL,IJCAL,AAAI,EMNLP,CIKM等等在内的各领域的顶级会议都收入了不少有关信息检索研究的论文。
目前,相关学者也提出了一些与法律相关的信息检索技术,包括传统方法和深度学习模型。
传统方法主要分为基于大规模文本统计的文档相似计算方法和基于语义计算的文档相似度计算方法。Lau等开发了一个运用信息检索和结构信息匹配进行法规相关分析的系统,其中结构信息匹配采用的是向量空间模型。Ashley等研究纠纷判决的信息检索方法,并提供在线纠纷解决平台,案例见的文档相似度计算方法采用基于关键特征的最近邻算法。Carneiro等研究从法律案例文档中检索出与论据有关的信息,其中涉及案例文档相似度的计算,采用基于词频的贝叶斯统计法。