当前位置:网站首页>Re8:读论文 Hier-SPCNet: A Legal Statute Hierarchy-based Heterogeneous Network for Computing Legal Case
Re8:读论文 Hier-SPCNet: A Legal Statute Hierarchy-based Heterogeneous Network for Computing Legal Case
2022-07-26 15:59:00 【诸神缄默不语】
论文名称:Hier-SPCNet: A Legal Statute Hierarchy-based Heterogeneous Network for Computing Legal Case Document Similarity
论文ArXiv下载地址:https://arxiv.org/abs/2007.03225
论文官方ACM下载地址:https://dl.acm.org/doi/abs/10.1145/3397271.3401191(该网站还有SIGIR会议上讲论文的视频,本文除论文配图外的图片都截自该视频)
本文是2020年SIGIR短文,做的是印度法律文书相似性任务(属于法律信息检索 Legal IR领域)。数据和代码都没有公开。
法律信息检索包括推荐系统和先例搜索,旨在从海量先例中搜索与给定场景或案例匹配的案例。
本文是基于图的相似性计算范式,第一个结合了法律知识(法条信息)来做法律文书相似性的工作:将法律文书和法条(结合了其层次信息)做成异构图,通过异构图嵌入方法node2vec1和metapath2vec2获得节点表征,通过余弦相似度计算节点相似性,即为文书相似性。
除此以外,本文还提出,基于文本的方法和基于图的方法可以结合起来(求最大值或求平均),来互相补充,得到更好的效果。
用计算得到的相似性与人工标记的数据计算皮尔逊相关系数来作为模型指标。
这一篇我特别无语就它的指标还没有2017年的纯基于文本的baseline效果好,然后跟基于文本的baseline做了个跟投票似的hybrid就硬把指标刷上去了。我无语了!这种文章也能上SIGIR!彼可取而代之,我也想上SIGIR!
本文是做印度法律文书法条抽取任务的LeSICiN3论文的重要参考论文之一,本博文中有些在LeSICiN中已有的内容将会略写,请参考对应博文。
1. Background & Motivation
有监督学习方法不适用于法律文书相似性任务,因为没有足够的标记数据。
法律文书相似性没有严格定义,主要靠专家。法律文书相似性问题需要可解释性。
法律文档相似性任务常用基于文本和基于网络的两种方法。
基于文本:Measuring Similarity among Legal Court Case Documents
基于网络:4和5
hybrid:Finding Similar Legal Judgements under Common Law System
模型原理:引用相同法条或先例,或引用不同法条或先例、但在网络结构上相似的文档相似。
普通法系的法律知识来源有两部分:成文法和先例。

以前的基于网络的相似度计算方法仅考虑案例文书之间援引关系形成的 precedent citation network (PCNet),这会导致一个重要的法律知识来源丢失:法条的层级关系。
以前的PCNet用以衡量法律文档相似性的指标:
- Bibliographic Coupling4:precedent citations (out-citations)集合的Jaccard similarity index
- Co-citation4: 类似Bibliographic Coupling,但是用in-citations
- Dispersion5:衡量文档的out-neighbours (out-citation documents)的相似性,即是否存在于同一社区/簇中。NetworkX最新版的实现函数:https://networkx.org/documentation/stable/reference/algorithms/generated/networkx.algorithms.centrality.dispersion.html(我没看懂,如果需要的话我再仔细了解吧)
2. Hier-SPCNet 图的构建
全称:Hierarchical Statute and Precedent Citation Network

节点:
案例
法条(5种)
关系:
文书引用法条(可以引用任一级别的法条)
文书互引
法条互引
法条之间存在层级关系(这个类似LeSICiN的,但是有点区别):Act → Part → Chapter → Topic → Section/Article(不一定每个都有所有级别)
3. 节点的表征
node2vec1:通过随机游走(BFS或DFS)生成节点表征。
实现工具是aditya-grover/node2vec,128维,其他超参都是默认值。
由于node2vec假设网络同质,因此Hier-SPCNet也被视作同质图来处理。
metapath2vec2:基于user-defined metapaths
本文定义了14个以文书为起始的metapath,与法系相关。metapath邻居关系暗示某种相似性。
实现工具是stellargraph · PyPI
跟LeSICiN类似,Hier-SPCNet中的metapath也是起始都是同一类节点。但是本文就是只需要做文书表征来着
然后最离谱的是这里省略了10种metapath的定义,我真是无语了!
4. 实验
4.1 数据集
数据收集自印度最高法院,爬取自Thomson Reuters Westlaw India,仅使用了公开数据。
从文本中抽取引用关系:基于正则表达式的模式,如 < [section or article number] of the [Act] >
共有1806个案例文书,128个acts(及其层级结构,至少被一个文书引用)。Hier-SPCNet中共有22566个节点,31309条边。PCNet中有同样的1806个案例文书节点和542条引用边。
文书相似性标签是专家标注的100对文书,细节略。
4.2 主实验结果
评估指标是皮尔逊相关系数。
co-citation的值相同是因为in-citations相同(因为法条不会引用文书)。
其他分析略。

average和max分别是对两种相似性得分求平均或最大值
5. 代码复现
等我服务器好了再说。
边栏推荐
猜你喜欢

The "nuclear bomb level" log4j vulnerability is still widespread and has a continuing impact

13年资深开发者分享一年学习Rust经历:从必备书目到代码练习一网打尽

我们被一个 kong 的性能 bug 折腾了一个通宵

2022 latest Beijing Construction Safety Officer simulation question bank and answers

Finally, someone explained the red blue confrontation clearly

bucher齿轮泵QX81-400R301

Parker pump pv140r1k1t1pmmc

SAP ABAP 守护进程的实现方式

Test cases should never be used casually, recording the thinking caused by the exception of a test case

2022 test questions and answers for the latest national fire facility operator (senior fire facility operator)
随机推荐
初识OpenGL (4)链接着色器
操作系统迁移实战之在openEuler上部署MySQL数据库
hawe螺旋插装式单向阀RK4
Class initialization mechanism of JVM
“核弹级” Log4j 漏洞仍普遍存在,并造成持续影响
Jointly discuss the opening of public data, and the "digital document scheme" appeared at the digital China Construction Summit
Jmeter快速上手之接口测试
博途PLC顺序开关机功能块(SCL)
Robot hand eye calibration ax=xb (eye to hand and eye in hand) and plane nine point calibration
Research and application of the whole configuration of large humanoid robot
请问一下各位大佬,mysql-cdc建表如何指定表的字符集呢,在官网没找到相应的连接器参数。我读一个
Is it safe for Guoyuan futures to open an account online? What is the account opening process?
PAT甲级 1046 Shortest Distance
《From SICP to Lisp》视频回播
Google Earth engine - merra-2 m2t1nxlv: 1980 present global pressure, temperature, wind and other data sets
哪本书才是编程领域的“九阴真经”
We were tossed all night by a Kong performance bug
阿里云DMS MySQL云数据库建表报错,求解!!
2021年软件测试工具趋势
辨析 Ruby 中的 Method 与 Proc