当前位置:网站首页>DGraph: 大规模动态图数据集
DGraph: 大规模动态图数据集
2022-07-04 12:34:00 【智源社区】
近日,浙江大学杨洋老师科研小组(yangy.org)和信也科技联合发布大规模动态图数据集 DGraph,旨在服务图神经网络、图挖掘、社交网络、异常检测等方向的研究人员,为之提供真实场景的大规模数据。DGraph 一方面可以作为验证相关图模型性能的标准数据,另一方面也可用于开展用户画像、网络分析等研究工作。
数据集主页:https://dgraph.xinye.com/
Github:
https://github.com/DGraphXinye/
相关论文:
DGraph: A Large-Scale Financial Dataset for Graph Anomaly Detection. Xuanwen Huang, Yang Yang*, Yang Wang, Chunping Wang, Zhisheng Zhang, Jiarong Xu, and Lei Chen. Preprint, 2022. (http://yangy.org/works/dgraph/dgraph_2022.pdf)
数据集描述

DGraph 的源数据由信也科技提供。DGraph 是一个有向无权的动态图,包含超过 370 万个节点以及 430 万条动态边。如下图所示,DGraph 中的节点表示信也科技服务的金融借贷用户,有向边表示紧急联系人关系,每个节点包含脱敏后的属性特征,以及表示是否为金融诈骗用户的标签。
数据特色
场景真实
DGraph 来源于真实的金融业务场景,其构建逻辑贴近工业落地,为数据集的使用者提供了探索如何将图模型扩展到金融领域落地应用的机会。具体而言,DGraph 中的异常与正常用户比例约为 1:100,其“标签不平衡”的特点符合现实场景,支持异常检测、不平衡节点分类等研究。
结构动态
DGraph 中的用户关系采样自横跨 27 个月的业务场景,且网络结构会随着时间发生演化,为当前的动态图模型与挖掘研究提供了数据支持。
规模庞大
DGraph 包含 370 万名经过脱敏处理的真实金融借贷用户和 430 万条动态关系,其规模约为金融领域当前最大的动态图数据 Elliptic 的 17 倍,支持大规模图模型的研究与评估。此外,DGraph 中包含 60% 的“背景节点”,即并非分类或分析对象但实际存在、对业务逻辑有间接影响的节点。这些节点对于维持网络的连通性有着重要作用,在工业界广泛存在。合理处理背景节点可以在大规模数据场景下有效提升数据的存储空间和模型的运行效率。DGraph 中包含超过 200 万个背景节点,可以支持研究者深入探索背景节点的性质。
开源社区维护
排行榜
DGraph 提供了用户可随时递交、刷新的性能排行榜(leaderboard),以跟踪最新图模型的研究进展。该榜提供统一的评估流程,所有结果公开透明。
科研成果
DGraph 的特点丰富,支持多个方向的图研究工作。
算法大赛
信也科技围绕 DGraph 举办了第七届信也科技杯图算法大赛,任务与 DGraph 中的诈骗用户识别一致。大赛面向全社会开放,国内外高等院校、科研院所、互联网企业等均可报名参赛,奖金池丰厚,共计 31 万人民币。
欢迎感兴趣的同仁光顾 DGraph 公开数据网站,一起致力为人工智能领域提供丰富的应用数据,携手共建开放的数字生态。

边栏推荐
- 分布式事务相关概念与理论
- Fastlane one click package / release app - usage record and stepping on pit
- Why can the implementation class of abstractdispatcherservletinitializer be called when initializing the web container
- 6 分钟看完 BGP 协议。
- ArgMiner:一个用于对论点挖掘数据集进行处理、增强、训练和推理的 PyTorch 的包
- CTF竞赛题解之stm32逆向入门
- Can Console. Clear be used to only clear a line instead of whole console?
- Read the BGP agreement in 6 minutes.
- Global and Chinese market of dental elevators 2022-2028: Research Report on technology, participants, trends, market size and share
- Two dimensional code coding theory
猜你喜欢

After installing vscode, the program runs (an include error is detected, please update the includepath, which has been solved for this translation unit (waveform curve is disabled) and (the source fil

Transformer principle and code elaboration (tensorflow)

Ml and NLP are still developing rapidly in 2021. Deepmind scientists recently summarized 15 bright research directions in the past year. Come and see which direction is suitable for your new pit

《天天数学》连载57:二月二十六日

Master the use of auto analyze in data warehouse

面试官:Redis 过期删除策略和内存淘汰策略有什么区别?

Introduction to random and threadlocalrandom analysis

强化学习-学习笔记1 | 基础概念

DC-5靶机

Communication tutorial | overview of the first, second and third generation can bus
随机推荐
BCD code Baidu Encyclopedia
面向个性化需求的在线云数据库混合调优系统 | SIGMOD 2022入选论文解读
众昂矿业:为保障萤石足量供应,开源节流势在必行
昨天的事情想说一下
Unity performance optimization reading notes - explore performance issues -profiler (2.1)
Global and Chinese markets for soluble suture 2022-2028: Research Report on technology, participants, trends, market size and share
Fly tutorial 02 advanced functions of elevatedbutton (tutorial includes source code) (tutorial includes source code)
DVWA range exercise 4
WPF double slider control and forced capture of mouse event focus
Runc hang causes the kubernetes node notready
Is there an elegant way to remove nulls while transforming a Collection using Guava?
PostgreSQL 9.1 soaring Road
强化学习-学习笔记1 | 基础概念
C#/VB.NET 给PDF文档添加文本/图像水印
Read the BGP agreement in 6 minutes.
6 分钟看完 BGP 协议。
Cann operator: using iterators to efficiently realize tensor data cutting and blocking processing
Dry goods sorting! How about the development trend of ERP in the manufacturing industry? It's enough to read this article
面试官:Redis 过期删除策略和内存淘汰策略有什么区别?
Abnormal mode of ARM processor