推荐一个超赞的动态图数据及DGraph!

DGraph: 大规模动态图数据集

近日,浙江大学杨洋老师科研小组(yangy.org)和信也科技联合发布大规模动态图数据集 DGraph,旨在服务图神经网络、图挖掘、社交网络、异常检测等方向的研究人员,为之提供真实场景的大规模数据。DGraph 一方面可以作为验证相关图模型性能的标准数据,另一方面也可用于开展用户画像、网络分析等研究工作。

 

数据集主页:https://dgraph.xinye.com/

Github:

https://github.com/DGraphXinye/

相关论文:

DGraph: A Large-Scale Financial Dataset for Graph Anomaly Detection. Xuanwen Huang, Yang Yang*, Yang Wang, Chunping Wang, Zhisheng Zhang, Jiarong Xu, and Lei Chen. Preprint, 2022. (http://yangy.org/works/dgraph/dgraph_2022.pdf)

 

01数据集描述


DGraph 的源数据由信也科技提供。DGraph 是一个有向无权的动态图,包含超过 370 万个节点以及 430 万条动态边。如下图所示,DGraph 中的节点表示信也科技服务的金融借贷用户,有向边表示紧急联系人关系,每个节点包含脱敏后的属性特征,以及表示是否为金融诈骗用户的标签。

  

02数据特色 

场景真实

 

DGraph 来源于真实的金融业务场景,其构建逻辑贴近工业落地,为数据集的使用者提供了探索如何将图模型扩展到金融领域落地应用的机会。具体而言,DGraph 中的异常与正常用户比例约为 1:100,其“标签不平衡”的特点符合现实场景,支持异常检测、不平衡节点分类等研究。

 

结构动态

 

DGraph 中的用户关系采样自横跨 27 个月的业务场景,且网络结构会随着时间发生演化,为当前的动态图模型与挖掘研究提供了数据支持。

 

规模庞大

 

DGraph 包含 370 万名经过脱敏处理的真实金融借贷用户和 430 万条动态关系,其规模约为金融领域当前最大的动态图数据 Elliptic 的 17 倍,支持大规模图模型的研究与评估。此外,DGraph 中包含 60% 的“背景节点”,即并非分类或分析对象但实际存在、对业务逻辑有间接影响的节点。这些节点对于维持网络的连通性有着重要作用,在工业界广泛存在。合理处理背景节点可以在大规模数据场景下有效提升数据的存储空间和模型的运行效率。DGraph 中包含超过 200 万个背景节点,可以支持研究者深入探索背景节点的性质。

 

 

03 开源社区维护

 排行榜


DGraph 提供了用户可随时递交、刷新的性能排行榜(leaderboard),以跟踪最新图模型的研究进展。该榜提供统一的评估流程,所有结果公开透明。

科研成果

DGraph 的特点丰富,支持多个方向的图研究工作。

 

算法大赛


信也科技围绕DGraph 举办了第七届信也科技杯图算法大赛,任务与 DGraph 中的诈骗用户识别一致。大赛面向全社会开放,国内外高等院校、科研院所、互联网企业等均可报名参赛,奖金池丰厚,共计 31 万人民币。

欢迎感兴趣的同仁光顾DGraph 公开数据网站,一起致力为人工智能领域提供丰富的应用数据,携手共建开放的数字生态。

 

 

合作平台

 

全部评论
这个太有用了,感谢楼主啊
点赞
送花
回复
分享
发布于 2022-07-16 12:57

相关推荐

感觉这一周太梦幻了,就像一个梦,很不真实~~~感觉这个暑期,我的运气占了99成,实力只有百分之一4.15上午 腾讯csig 腾讯云部门,面完秒进入复试状态4.16下午 美团优选供应链部门,4.18上午发二面4.17晚上 阿里国际一面,纯拷打,面完我都玉玉了4.18下午 阿里国际二面,是我们leader面的我,很轻松~~4.18晚上 约了hr面4.19上午 hr面,下午两点口头oc4.19晚上 意向书说起来我的暑期好像一次都没挂过~~~~~难道我是天生面试圣体?----------------------------------------------------------------------六个月前,我还是0项目0刷题,当时想的是先把论文发出来再去找实习。结果一次组会,老师打破了我的幻想(不让投B会,只让投刊或者A)我拿头投啊!!!然后就开始物色着找实习,顺便做完了mit的6.s081,但是基本上还是没刷过题目-----------------------------------------------------------------------11月  一次偶然的机会,面进了某个耳机厂的手环部门,大概是做嵌入式的,用的是CPP。12月 莫名其妙拿到了国创的面试机会,0基础四天速成java基础!居然也给我面过了hhhhh,可能是面试没写题吧入职国创后的几个月,一直没活,天天搁那看剧,都快忘了还有暑期实习这回事了~~~~命运的齿轮在2.26开始转动,因为这一天美团开了,我开始慌了,因为那时的我什么都不会。lc,八股,sql全部是0进度。然后就开始了女娲补天,上班刷题,下班继续做之前的开源,顺便学一学八股。3月到现在,lc也刷到快200了,一天最多提交了47次~~~~~~~~~~八股根据别人的面经总结和博客,写了快十万字的笔记~~~~~~~~~~简历上的实习经历和开源,也努力去深挖了,写了几万字的记录~~~~~~所以面试的时候,基本上都能cover了,面试官问到的基础基本都会,不基础的我就把他往我会的地方引。结果好像还不错,基本上每个面试官评价都挺好的emmmmmmmm
投递阿里巴巴等公司10个岗位
点赞 评论 收藏
转发
点赞 收藏 评论
分享
牛客网
牛客企业服务