2021年世界互联网领先科技成果盘点之大规模图计算系统GeaGraph

2021-10-29
来源:世界互联网大会
分享

  大规模图计算系统GeaGraph由蚂蚁集团联合清华大学共同研发,是基于图模型的新型数据分析系统。系统解决了图数据分析面临的大数据量、高吞吐率和低延迟等重大挑战,实现了对复杂金融场景下海量交易数据的高效分析,能够快速识别和防范日益隐蔽多样的欺诈、洗钱等恶意金融行为。系统在金融、电信、公共卫生等领域具有广泛应用前景,对于降低人民财产损失、防范金融风险具有重要作用和社会意义。

  成果名称:大规模图计算系统 GeaGraph

  成果发布单位:

  蚂蚁科技集团股份有限公司

  清华大学

  GeaGraph在图存储、离线图计算、图处理等技术上有重大创新。主要包括以下四个方面:

  1. 高性能图存储技术

  提出了基于完美哈希的实时读写图存储技术,与业界常用的LSMT结构相比,在实现写性能与LSMT相当的情况下,图读取性能达到O(1)复杂度。在单机存储千亿级KV的前提下,无缓存随机单点读查询可以达到150万次/秒,批量读查询可以达到230万次/秒。

  2. 分布式高性能离线图计算技术

  提出了分布式自适应双模式图计算技术和图块式划分等技术,实现了分布式图计算系统,可处理70万亿边的超大图,每轮PageRank仅需35秒,创下了文献中图处理规模的世界纪录,并入围2018年ACM Gordon Bell Prize Finalist(国际计算机学会“戈登·贝尔奖”提名,2018)。

  3. 高效混合图事务/分析处理数据结构

  针对需要同时要求高性能事务处理和分析处理能力的场景,提出了事务边表的数据结构,基于该数据结构实现的图数据库可提供快照隔离级别的事务,并在简单子图查询和更新、复杂迭代式分析等方面均性能出色。系统通过了图数据库国际标准LDBC SNB官方审计测试,是目前该测试的世界纪录保持者,整体性能是第二名的 7.6 倍。

  4. 完整、内聚和高性能的图计算技术栈

  构建了一套完整、内聚、高性能的全栈图计算技术体系,实现了完整的离线、近线和在线图计算能力。技术栈支持面向静态、动态、时序图进行各种计算复杂度的子图和全图分析,涵盖了从邻居查询、子图匹配、迭代式计算和深度学习的全场景图计算应用,可以实现从原始数据进行构图探索。具有从使用历史数据进行初步探索、模拟仿真,到最终线上提供服务的完整研发链路。技术栈单集群可以支撑万亿边规模的图数据,写入和查询吞吐量超过百万次/秒,超过99.9% 的查询和写入延时小于20ms。

  GeaGraph 历时多年研发完成,已在金融、能源、智能制造等领域规模化应用。GeaGraph 在蚂蚁集团支付、数字金融的核心金融业务场景落地,为风险控制、反洗钱、反套现等业务提供稳定的决策能力,支付业务犯罪风险行为识别能力提高近百倍,审理分析效率提升 90%。

  来源 | 世界互联网大会官网 央视财经