当前位置:网站首页>Re8:读论文 Hier-SPCNet: A Legal Statute Hierarchy-based Heterogeneous Network for Computing Legal Case
Re8:读论文 Hier-SPCNet: A Legal Statute Hierarchy-based Heterogeneous Network for Computing Legal Case
2022-07-26 15:59:00 【诸神缄默不语】
论文名称:Hier-SPCNet: A Legal Statute Hierarchy-based Heterogeneous Network for Computing Legal Case Document Similarity
论文ArXiv下载地址:https://arxiv.org/abs/2007.03225
论文官方ACM下载地址:https://dl.acm.org/doi/abs/10.1145/3397271.3401191(该网站还有SIGIR会议上讲论文的视频,本文除论文配图外的图片都截自该视频)
本文是2020年SIGIR短文,做的是印度法律文书相似性任务(属于法律信息检索 Legal IR领域)。数据和代码都没有公开。
法律信息检索包括推荐系统和先例搜索,旨在从海量先例中搜索与给定场景或案例匹配的案例。
本文是基于图的相似性计算范式,第一个结合了法律知识(法条信息)来做法律文书相似性的工作:将法律文书和法条(结合了其层次信息)做成异构图,通过异构图嵌入方法node2vec1和metapath2vec2获得节点表征,通过余弦相似度计算节点相似性,即为文书相似性。
除此以外,本文还提出,基于文本的方法和基于图的方法可以结合起来(求最大值或求平均),来互相补充,得到更好的效果。
用计算得到的相似性与人工标记的数据计算皮尔逊相关系数来作为模型指标。
这一篇我特别无语就它的指标还没有2017年的纯基于文本的baseline效果好,然后跟基于文本的baseline做了个跟投票似的hybrid就硬把指标刷上去了。我无语了!这种文章也能上SIGIR!彼可取而代之,我也想上SIGIR!
本文是做印度法律文书法条抽取任务的LeSICiN3论文的重要参考论文之一,本博文中有些在LeSICiN中已有的内容将会略写,请参考对应博文。
1. Background & Motivation
有监督学习方法不适用于法律文书相似性任务,因为没有足够的标记数据。
法律文书相似性没有严格定义,主要靠专家。法律文书相似性问题需要可解释性。
法律文档相似性任务常用基于文本和基于网络的两种方法。
基于文本:Measuring Similarity among Legal Court Case Documents
基于网络:4和5
hybrid:Finding Similar Legal Judgements under Common Law System
模型原理:引用相同法条或先例,或引用不同法条或先例、但在网络结构上相似的文档相似。
普通法系的法律知识来源有两部分:成文法和先例。

以前的基于网络的相似度计算方法仅考虑案例文书之间援引关系形成的 precedent citation network (PCNet),这会导致一个重要的法律知识来源丢失:法条的层级关系。
以前的PCNet用以衡量法律文档相似性的指标:
- Bibliographic Coupling4:precedent citations (out-citations)集合的Jaccard similarity index
- Co-citation4: 类似Bibliographic Coupling,但是用in-citations
- Dispersion5:衡量文档的out-neighbours (out-citation documents)的相似性,即是否存在于同一社区/簇中。NetworkX最新版的实现函数:https://networkx.org/documentation/stable/reference/algorithms/generated/networkx.algorithms.centrality.dispersion.html(我没看懂,如果需要的话我再仔细了解吧)
2. Hier-SPCNet 图的构建
全称:Hierarchical Statute and Precedent Citation Network

节点:
案例
法条(5种)
关系:
文书引用法条(可以引用任一级别的法条)
文书互引
法条互引
法条之间存在层级关系(这个类似LeSICiN的,但是有点区别):Act → Part → Chapter → Topic → Section/Article(不一定每个都有所有级别)
3. 节点的表征
node2vec1:通过随机游走(BFS或DFS)生成节点表征。
实现工具是aditya-grover/node2vec,128维,其他超参都是默认值。
由于node2vec假设网络同质,因此Hier-SPCNet也被视作同质图来处理。
metapath2vec2:基于user-defined metapaths
本文定义了14个以文书为起始的metapath,与法系相关。metapath邻居关系暗示某种相似性。
实现工具是stellargraph · PyPI
跟LeSICiN类似,Hier-SPCNet中的metapath也是起始都是同一类节点。但是本文就是只需要做文书表征来着
然后最离谱的是这里省略了10种metapath的定义,我真是无语了!
4. 实验
4.1 数据集
数据收集自印度最高法院,爬取自Thomson Reuters Westlaw India,仅使用了公开数据。
从文本中抽取引用关系:基于正则表达式的模式,如 < [section or article number] of the [Act] >
共有1806个案例文书,128个acts(及其层级结构,至少被一个文书引用)。Hier-SPCNet中共有22566个节点,31309条边。PCNet中有同样的1806个案例文书节点和542条引用边。
文书相似性标签是专家标注的100对文书,细节略。
4.2 主实验结果
评估指标是皮尔逊相关系数。
co-citation的值相同是因为in-citations相同(因为法条不会引用文书)。
其他分析略。

average和max分别是对两种相似性得分求平均或最大值
5. 代码复现
等我服务器好了再说。
边栏推荐
- [physical simulation] ultra simple shape matching simulates rigid body motion
- Pat class a 1047 student list for course
- Clojure Web Development -- ring user guide
- 想让照片中的云飘起来?视频编辑服务一键动效3步就能实现
- Pat grade a 1045 favorite color stripe
- Pandora IOT development board learning (RT thread) - Experiment 17 esp8266 experiment (learning notes)
- Operating system migration practice: deploying MySQL database on openeuler
- Bucher gear pump qx81-400r301
- Interface test for quick start of JMeter
- spark-streaming状态流之mapWithState
猜你喜欢

小哥自创AI防拖延系统,一玩手机就被“闪瞎” | Reddit高热
![[RCTF2015]EasySQL](/img/68/328ee5cffc8b267b6b0f284eb8db2c.png)
[RCTF2015]EasySQL

德国EMG易安基推动器ED301/6 HS

We were tossed all night by a Kong performance bug

Yushenle's learning record: the first project of SOC FPGA -hello world

潘多拉 IOT 开发板学习(RT-Thread)—— 实验17 ESP8266 实验(学习笔记)

13年资深开发者分享一年学习Rust经历:从必备书目到代码练习一网打尽

SQL statement -- single line comment and multi line comment

PAT甲级1048 Find Coins

Bugku login2
随机推荐
C# 给Word每一页设置不同文字水印
6种方法帮你搞定SimpleDateFormat类不是线程安全的问题
How to configure tke cluster node Max pod
[tool sharing] automatic generation of file directory structure tool mddir
SAP ABAP 守护进程的实现方式
Bugku login1
Clojure 运行原理之字节码生成篇
Parker solenoid valve d1vw020dnypz5
初识OpenGL (3)片段着色器(Fragment Shader)
2022年最新西藏建筑施工架子工(建筑特种作业)模拟考试试题及答案
提问征集丨快来向NLLB作者提问啦!(智源Live第24期)
德国emg电动执行器EB800-60II
Development and implementation of campus epidemic prevention and control management system based on SSM
13 years of senior developers share a year of learning rust experience: from the necessary bibliography to code practice
Paper: all models are wrong, but many are useful: all models are wrong, but many are useful: understand the importance of variables by studying a whole class of prediction models at the same time
parker电磁阀D1VW020DNYPZ5
Operating system migration practice: deploying MySQL database on openeuler
Technology vane | interpretation of cloud native technology architecture maturity model
Jointly discuss the opening of public data, and the "digital document scheme" appeared at the digital China Construction Summit
zabbix 6.2.0部署