当前位置:网站首页>DGraph: 大规模动态图数据集
DGraph: 大规模动态图数据集
2022-07-02 13:38:00 【AITIME论道】
点击蓝字

关注我们
AI TIME欢迎每一位AI爱好者的加入!

Webpage: https://dgraph.xinye.com/
GitHub: https://github.com/DGraphXinye/

近日,浙江大学杨洋老师科研小组(yangy.org)和信也科技联合发布大规模动态图数据集DGraph,旨在服务图神经网络、图挖掘、社交网络、异常检测等方向的研究人员,为之提供真实场景的大规模数据。DGraph一方面可以作为验证相关图模型性能的标准数据,另一方面也可用于开展用户画像、网络分析等研究工作。
数据集描述
DGraph的源数据由信也科技提供。DGraph 是一个有向无权的动态图,包含超过370万个节点以及430万条动态边。如下图所示,DGraph中的节点表示信也科技服务的金融借贷用户,有向边表示紧急联系人关系,每个节点包含脱敏后的属性特征,以及表示是否为金融诈骗用户的标签。

数据特色
场景真实
DGraph来源于真实的金融业务场景,其构建逻辑贴近工业落地,为数据集的使用者提供了探索如何将图模型扩展到金融领域落地应用的机会。具体而言,DGraph中的异常与正常用户比例约为1:100,其“标签不平衡”的特点符合现实场景,支持异常检测、不平衡节点分类等研究。
结构动态
DGraph中的用户关系采样自横跨27个月的业务场景,且网络结构会随着时间发生演化,为当前的动态图模型与挖掘研究提供了数据支持。
规模庞大
DGraph包含370万名经过脱敏处理的真实金融借贷用户和430万条动态关系,其规模约为金融领域当前最大的动态图数据Elliptic的17倍,支持大规模图模型的研究与评估。此外,DGraph中包含60%的“背景节点”,即并非分类或分析对象但实际存在、对业务逻辑有间接影响的节点。这些节点对于维持网络的连通性有着重要作用,在工业界广泛存在。合理处理背景节点可以在大规模数据场景下有效提升数据的存储空间和模型的运行效率。DGraph中包含超过200万个背景节点,可以支持研究者深入探索背景节点的性质。
开源社区维护
排行榜
DGraph提供了用户可随时递交、刷新的性能排行榜(leaderboard),以跟踪最新图模型的研究进展。该榜提供统一的评估流程,所有结果公开透明。
科研成果
DGraph的特点丰富,支持多个方向的图研究工作。
算法大赛
信也科技围绕DGraph举办了第七届信也科技杯图算法大赛,任务与DGraph中的诈骗用户识别一致。大赛面向全社会开放,国内外高等院校、科研院所、互联网企业等均可报名参赛,奖金池丰厚,共计31万人民币。
欢迎感兴趣的同仁「扫描下方二维码」光顾DGraph公开数据网站,一起致力为人工智能领域提供丰富的应用数据,携手共建开放的数字生态。

数据集主页

比赛链接
提
醒
相关论文:
DGraph: A Large-Scale Financial Dataset for Graph Anomaly Detection. Xuanwen Huang, Yang Yang*, Yang Wang, Chunping Wang, Zhisheng Zhang, Jiarong Xu, and Lei Chen. Preprint.
论文链接:
http://yangy.org/works/dgraph/dgraph_2022.pdf
合作平台


往期精彩文章推荐
记得关注我们呀!每天都有新知识!
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了600多位海内外讲者,举办了逾300场活动,超210万人次观看。

我知道你
在看
哦
~

点击 阅读原文 报名参赛!
边栏推荐
- Aujourd'hui dans l'histoire: Alipay lance le paiement par code à barres; La naissance du père du système de partage du temps; La première publicité télévisée au monde...
- Seal Library - installation and introduction
- Student course selection system (curriculum design of Shandong Agricultural University)
- Sqlserver queries which indexes are underutilized
- Interview summary of large factories
- PWM控制舵机
- 基于Impala的高性能数仓实践之执行引擎模块
- Data security industry series Salon (III) | data security industry standard system construction theme Salon
- 618深度复盘:海尔智家的制胜方法论
- How to use stustr function in Oracle view
猜你喜欢

Download blender on Alibaba cloud image station

Rock PI Development Notes (II): start with rock PI 4B plus (based on Ruixing micro rk3399) board and make system operation

Yyds dry inventory company stipulates that all interfaces use post requests. Why?

The login box of unity hub becomes too narrow to log in

Multi task prompt learning: how to train a large language model?

基于Impala的高性能数仓实践之执行引擎模块

How to use stustr function in Oracle view

How to choose the right kubernetes storage plug-in? (09)
![john爆破出现Using default input encoding: UTF-8 Loaded 1 password hash (bcrypt [Blowfish 32/64 X3])](/img/4c/ddf7f8085257d0eb8766dbec251345.png)
john爆破出现Using default input encoding: UTF-8 Loaded 1 password hash (bcrypt [Blowfish 32/64 X3])

电脑设备打印机驱动安装失败如何解决
随机推荐
机器学习-感知机模型
AcWing 300. Task arrangement
Recalling the college entrance examination and becoming a programmer, do you regret it?
PWM控制舵机
ROW_ NUMBER()、RANK()、DENSE_ Rank difference
Kubernetes family container housekeeper pod online Q & A?
OSPF - detailed explanation of NSSA area and full NSSA area (including configuration command), LSA type 7 lsa-7
Seal Library - installation and introduction
基于多元时间序列对高考预测分析案例
Global and Chinese market of desktop hot melt equipment 2022-2028: Research Report on technology, participants, trends, market size and share
Yyds dry inventory executor package (parameter processing function)
⌈ 2022 ⌋ how to use webp gracefully in projects
Where can I open computer administrator permissions
Yyds dry inventory method of deleting expired documents in batch
电脑设备打印机驱动安装失败如何解决
Yyds dry goods inventory # look up at the sky | talk about the way and principle of capturing packets on the mobile terminal and how to prevent mitm
Sqlserver queries which indexes are underutilized
Privacy computing technology innovation and industry practice seminar: Learning
[fluent] dart data type string type (string definition | string splicing | string API call)
Interview summary of large factories
