在约十年前互联网高速发展的时代,随着业务的快速扩展,数据量也在迅速增长。许多数据可以很自然地建模为图,众多业务开始有了图计算的需求,例如:
图遍历(Graph Traversal)是在线和交互式图查询应用中的关键原语,是一种从图中的一个或者若干顶点出发,按照一定的规则沿着边遍历图中其他顶点的操作,常见的应用场景包括:
Gremlin 是图遍历中最常用的查询语言,允许对各种图操作进行高层次和声明性的编程。
环检测:在图中查找从一个顶点出发最后又回到这个顶点的路径,从而形成一个环。
g.V().has('name','tom').as('a').repeat(out().simplePath()) .times(LENGTH).where(out().as('a')).path()
Gremlin
查询的编译如环检测示例所示,一个 Gremlin 查询可以是迭代和嵌套操作的任意组合。
g.V().has('firstname','Tom').as('a') .repeat(out().simplePath()).times(k) .where(out().eq('a')).path()
实体分析: 识别和链接在不同数据集中的同一实体。这并非易事,挑战包括:
我们在阿里巴巴曾经致力于一个采用以顶点中心的编程模型的图系统 ODPSGraph,并行化地执行实体解析算法。然而,多年来随着业务的增长也显示出该系统的一些局限性。
我们在 SIGMOD'2017 上提出了 PIE 和 GRAPE,并在 Github 开源。
https://github.com/alibaba/libgrape-lite
给定一个查询 Q 和一个图 G,要计算 Q(G),用户只需提供 3 个函数。
SIGMOD'2017
最佳论文奖(Best Paper Award)
VLDB'2017
最佳演示奖(Best Demo Award)
SIGMOD'2018
研究亮点(Research Highlight)
基于 GNN 的推荐
在 VLDB'2019 上提出,并在
https://github.com/alibaba/graph-learn
开源。它已经成功应用于阿里巴巴内外的许多场景。
在图模式匹配、图挖掘及其应用等方面,我们也做了一系列的工作:
VLDB'2020
Best Paper (Runner-up)
一个简化的电商平台欺诈检测工作流:
我们在 VLDB'2021 上提出了 GraphScope,并在 Github 开源。
https://github.com/alibaba/graphscope
pip install graphscope
与 NetworkX 兼容的图操作算子和算法 API
我们在 SIGMOD'2023 上提出了 Vineyard,并在
https://github.com/v6d-io/v6d 开源,现在 Vineyard 也是一个 CNCF
沙盒(Sandbox)项目。
为什么需要 Vineyard?
Vineyard 提供:
这张图展示了现实世界中的图计算任务,它有如下特点:
即使是同一数据集,也可以根据其特定需求以不同的方式建模。
图查询
图分析
图学习
图存储是多样的,计算引擎访问数据的需求也不同。
在 https://github.com/graphscope/GRIN 上开源
GRIN 是 GraphScope Flex 提出的标准图访问接口,其目标是将不同计算引擎和存储引擎之间的集成从 M * N 简化为 M + N。
作为 Apache 孵化项目开源
https://github.com/apache/GraphAr
GraphAr("Graph Archive" 的缩写)是一个旨在让各种应用程序和系统能够更加方便和高效地构建、访问和共享图数据的项目。
问题:通过检查每个订单与已知欺诈行为的关联关系,识别电子商务中的可疑交易。
该问题可以通过部署带有这些模块的 GraphScope Flex 来解决。
问题:识别公司的实控人,即拥有超过 51% 股份的自然人。
通过 GraphScope Flex 图分析组件,使用基于标签传播的图分析算法来解决该问题。
欢迎加入我们!
参考文献
Copyrights