当前位置:网站首页>DGraph: 大规模动态图数据集
DGraph: 大规模动态图数据集
2022-07-04 12:34:00 【智源社区】
近日,浙江大学杨洋老师科研小组(yangy.org)和信也科技联合发布大规模动态图数据集 DGraph,旨在服务图神经网络、图挖掘、社交网络、异常检测等方向的研究人员,为之提供真实场景的大规模数据。DGraph 一方面可以作为验证相关图模型性能的标准数据,另一方面也可用于开展用户画像、网络分析等研究工作。
数据集主页:https://dgraph.xinye.com/
Github:
https://github.com/DGraphXinye/
相关论文:
DGraph: A Large-Scale Financial Dataset for Graph Anomaly Detection. Xuanwen Huang, Yang Yang*, Yang Wang, Chunping Wang, Zhisheng Zhang, Jiarong Xu, and Lei Chen. Preprint, 2022. (http://yangy.org/works/dgraph/dgraph_2022.pdf)
数据集描述
DGraph 的源数据由信也科技提供。DGraph 是一个有向无权的动态图,包含超过 370 万个节点以及 430 万条动态边。如下图所示,DGraph 中的节点表示信也科技服务的金融借贷用户,有向边表示紧急联系人关系,每个节点包含脱敏后的属性特征,以及表示是否为金融诈骗用户的标签。
数据特色
场景真实
DGraph 来源于真实的金融业务场景,其构建逻辑贴近工业落地,为数据集的使用者提供了探索如何将图模型扩展到金融领域落地应用的机会。具体而言,DGraph 中的异常与正常用户比例约为 1:100,其“标签不平衡”的特点符合现实场景,支持异常检测、不平衡节点分类等研究。
结构动态
DGraph 中的用户关系采样自横跨 27 个月的业务场景,且网络结构会随着时间发生演化,为当前的动态图模型与挖掘研究提供了数据支持。
规模庞大
DGraph 包含 370 万名经过脱敏处理的真实金融借贷用户和 430 万条动态关系,其规模约为金融领域当前最大的动态图数据 Elliptic 的 17 倍,支持大规模图模型的研究与评估。此外,DGraph 中包含 60% 的“背景节点”,即并非分类或分析对象但实际存在、对业务逻辑有间接影响的节点。这些节点对于维持网络的连通性有着重要作用,在工业界广泛存在。合理处理背景节点可以在大规模数据场景下有效提升数据的存储空间和模型的运行效率。DGraph 中包含超过 200 万个背景节点,可以支持研究者深入探索背景节点的性质。
开源社区维护
排行榜
DGraph 提供了用户可随时递交、刷新的性能排行榜(leaderboard),以跟踪最新图模型的研究进展。该榜提供统一的评估流程,所有结果公开透明。
科研成果
DGraph 的特点丰富,支持多个方向的图研究工作。
算法大赛
信也科技围绕 DGraph 举办了第七届信也科技杯图算法大赛,任务与 DGraph 中的诈骗用户识别一致。大赛面向全社会开放,国内外高等院校、科研院所、互联网企业等均可报名参赛,奖金池丰厚,共计 31 万人民币。
欢迎感兴趣的同仁光顾 DGraph 公开数据网站,一起致力为人工智能领域提供丰富的应用数据,携手共建开放的数字生态。
边栏推荐
- 昨天的事情想说一下
- Global and Chinese markets for soluble suture 2022-2028: Research Report on technology, participants, trends, market size and share
- 0x15 string
- A taste of node JS (V), detailed explanation of express module
- Peak detection of measured signal
- IIS error, unable to start debugging on the webserver
- 6 分钟看完 BGP 协议。
- Iterm tab switching order
- runc hang 导致 Kubernetes 节点 NotReady
- 【数据聚类】第四章第一节3:DBSCAN性能分析、优缺点和参数选择方法
猜你喜欢
Etcd 存储,Watch 以及过期机制
CTF竞赛题解之stm32逆向入门
When synchronized encounters this thing, there is a big hole, pay attention!
R language -- readr package reads and writes data
I want to talk about yesterday
Introduction to the button control elevatedbutton of the fleet tutorial (the tutorial includes the source code)
Cann operator: using iterators to efficiently realize tensor data cutting and blocking processing
A taste of node JS (V), detailed explanation of express module
16. Memory usage and segmentation
干货整理!ERP在制造业的发展趋势如何,看这一篇就够了
随机推荐
Introduction to random and threadlocalrandom analysis
七、软件包管理
A treasure open source software, cross platform terminal artifact tabby
17.内存分区与分页
Valentine's Day confession code
Jetson TX2配置Tensorflow、Pytorch等常用库
Cadence physical library lef file syntax learning [continuous update]
It's hard to hear C language? Why don't you take a look at this (V) pointer
A taste of node JS (V), detailed explanation of express module
二分查找的简单理解
Sort merge sort
C language: find the palindrome number whose 100-999 is a multiple of 7
7、 Software package management
Unity performance optimization reading notes - Introduction (1)
Alibaba cloud award winning experience: build a highly available system with polardb-x
数据库锁表?别慌,本文教你如何解决
Fly tutorial 02 advanced functions of elevatedbutton (tutorial includes source code) (tutorial includes source code)
mm_ Cognition of struct structure
Understand bloomfilter in one article
Master the use of auto analyze in data warehouse