当前位置:网站首页>DGraph: 大规模动态图数据集

DGraph: 大规模动态图数据集

2022-07-04 12:48:00 PaperWeekly

47cbcebb1c33f08829d214aeda336e41.gif

近日,浙江大学杨洋老师科研小组(yangy.org)和信也科技联合发布大规模动态图数据集 DGraph,旨在服务图神经网络、图挖掘、社交网络、异常检测等方向的研究人员,为之提供真实场景的大规模数据。DGraph 一方面可以作为验证相关图模型性能的标准数据,另一方面也可用于开展用户画像、网络分析等研究工作。

b4d28f49cc26fa4f17f6fdb9a569c025.png

数据集主页:

https://dgraph.xinye.com/

Github:

https://github.com/DGraphXinye/

相关论文:

DGraph: A Large-Scale Financial Dataset for Graph Anomaly Detection. Xuanwen Huang, Yang Yang*, Yang Wang, Chunping Wang, Zhisheng Zhang, Jiarong Xu, and Lei Chen. Preprint, 2022. (http://yangy.org/works/dgraph/dgraph_2022.pdf)

a41dfc3d00c312f8e07c72932a33682f.png

数据集描述

DGraph 的源数据由信也科技提供。DGraph 是一个有向无权的动态图,包含超过 370 万个节点以及 430 万条动态边。如下图所示,DGraph 中的节点表示信也科技服务的金融借贷用户,有向边表示紧急联系人关系,每个节点包含脱敏后的属性特征,以及表示是否为金融诈骗用户的标签。

62ca67a8ca491a196733f57749b0b70a.png

b8cc1a21d65137ecec1c33134ed2fc77.png

数据特色


场景真实

DGraph 来源于真实的金融业务场景,其构建逻辑贴近工业落地,为数据集的使用者提供了探索如何将图模型扩展到金融领域落地应用的机会。具体而言,DGraph 中的异常与正常用户比例约为 1:100,其“标签不平衡”的特点符合现实场景,支持异常检测、不平衡节点分类等研究。

结构动态

DGraph 中的用户关系采样自横跨 27 个月的业务场景,且网络结构会随着时间发生演化,为当前的动态图模型与挖掘研究提供了数据支持。

规模庞大

DGraph 包含 370 万名经过脱敏处理的真实金融借贷用户和 430 万条动态关系,其规模约为金融领域当前最大的动态图数据 Elliptic 的 17 倍,支持大规模图模型的研究与评估。此外,DGraph 中包含 60% 的“背景节点”,即并非分类或分析对象但实际存在、对业务逻辑有间接影响的节点。这些节点对于维持网络的连通性有着重要作用,在工业界广泛存在。合理处理背景节点可以在大规模数据场景下有效提升数据的存储空间和模型的运行效率。DGraph 中包含超过 200 万个背景节点,可以支持研究者深入探索背景节点的性质。


c6db9d674dd4bcb7c9f0eaf9d1355adc.png

开源社区维护


排行榜

DGraph 提供了用户可随时递交、刷新的性能排行榜(leaderboard),以跟踪最新图模型的研究进展。该榜提供统一的评估流程,所有结果公开透明。

科研成果

DGraph 的特点丰富,支持多个方向的图研究工作。


算法大赛

信也科技围绕 DGraph 举办了第七届信也科技杯图算法大赛,任务与 DGraph 中的诈骗用户识别一致。大赛面向全社会开放,国内外高等院校、科研院所、互联网企业等均可报名参赛,奖金池丰厚,共计 31 万人民币。

欢迎感兴趣的同仁光顾 DGraph 公开数据网站,一起致力为人工智能领域提供丰富的应用数据,携手共建开放的数字生态。

7c4ae72dea0b7a4bf96c1ccec6b7ed96.png

合作平台

432511e49d36df4e400dc7064ced0a9b.png

eb474c54cf3101c10bbd60154123331f.png

37488107670c8af2de9d86bb832e3a62.png

更多阅读

f7200a2ced2d26b2ccdcfa4aeeb8db8a.png

8471a03934817313523833774d085181.png

dcf6f9cf20a17442ef9d67abe95e3ea2.png

e04f6c9ab1909ca68da5736160497b03.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

c925b4306d61ad7a65e73ee153a583db.png

△长按添加PaperWeekly小编

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

1c3f2650a8122d671c717c9793a8a25a.jpeg

原网站

版权声明
本文为[PaperWeekly]所创,转载请带上原文链接,感谢
https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/125591858