图数据库 Nebula Graph 的数据模型和系统架构设计

原创

NebulaGraph

技术干货

2019/07/24 15:01

阅读数 5.7K

Nebula Graph：一个开源的分布式图数据库。作为唯一能够存储万亿个带属性的节点和边的在线图数据库，Nebula Graph 不仅能够在高并发场景下满足毫秒级的低时延查询要求，还能够实现服务高可用且保障数据安全性。

本篇主要介绍 Nebula Graph 的数据模型和系统架构设计。

有向属性图 DirectedPropertyGraph

Nebula Graph 采用易理解的有向属性图来建模，也就是说，在逻辑上，图由两种图元素构成：顶点和边。

顶点 Vertex

在 Nebula Graph 中顶点由标签 tag 和对应 tag 的属性组构成， tag 代表顶点的类型，属性组代表 tag 拥有的一种或多种属性。一个顶点必须至少有一种类型，即标签，也可以有多种类型。每种标签有一组相对应的属性，我们称之为 schema 。

如上图所示，有两种 tag 顶点：player 和 team。player 的 schema 有三种属性 ID （vid），Name （sting）和 Age （int）；team 的 schema 有两种属性 ID （vid）和 Name （string）。

和 Mysql 一样，Nebula Graph 是一种强 schema 的数据库，属性的名称和数据类型都是在数据写入前确定的。

边 Edge

在 Nebula Graph 中边由类型和边属性构成，而 Nebula Graph 中边均是有向边，有向边表明一个顶点（起点 src ）指向另一个顶点（终点 dst ）的关联关系。此外，在 Nebula Graph 中我们将边类型称为 edgetype ，每一条边只有一种edgetype ，每种 edgetype 相应定义了这种边上属性的 schema 。

回到上面的图例，图中有两种类型的边，一种为 player 指向 player 的 like 关系，属性为 likeness (double)；另一种为 player 指向 team 的 serve 关系，两个属性分别为 start_year (int) 和 end_year (int)。

需要说明的是，起点1 和终点2 之间，可以同时存在多条相同或者不同类型的边。

图分割 GraphPartition

由于超大规模关系网络的节点数量高达百亿到千亿，而边的数量更会高达万亿，即使仅存储点和边两者也远大于一般服务器的容量。因此需要有方法将图元素切割，并存储在不同逻辑分片 partition 上。Nebula Graph 采用边分割的方式，默认的分片策略为哈希散列，partition 数量为静态设置并不可更改。

数据模型 DataModel

在 Nebula Graph 中，每个顶点被建模为一个 key-value ，根据其 vertexID（或简称 vid）哈希散列后，存储到对应的 partition 上。

一条逻辑意义上的边，在 Nebula Graph 中将会被建模为两个独立的 key-value ，分别称为 out-key 和 in-key 。out-key 与这条边所对应的起点存储在同一个 partition 上，in-key 与这条边所对应的终点存储在同一个 partition 上。

关于数据模型的详细设计会在后续的系列文章中介绍。

系统架构 Architecture

Nebula Graph 包括四个主要的功能模块，分别是存储层、元数据服务、计算层和客户端。

存储层 Storage

在 Nebula Graph 中存储层对应进程是 nebula-storaged ，其核心为基于 Raft（用来管理日志复制的一致性算法）协议的分布式 Key-valueStorage 。目前支持的主要存储引擎为「Rocksdb」和「HBase」。Raft 协议通过 leader/follower 的方式，来保持数据之间的一致性。Nebula Storage 主要增加了以下功能和优化：

Parallel Raft：允许多台机器上的相同 partiton-id 组成一个 Raft group 。通过多组 Raft group 实现并发操作。
Write Path & batch：Raft 协议的多机器间同步依赖于日志 id 顺序性，这样的吞吐量 throughput 较低。通过批量和乱序提交的方式可以实现更高的吞吐量。
Learner：基于异步复制的 learner。当集群中增加新的机器时，可以将其先标记为 learner，并异步从 leader/follower 拉取数据。当该 learner 追上 leader 后，再标记为 follower，参与 Raft 协议。
Load-balance：对于部分访问压力较大的机器，将其所服务的 partition 迁移到较冷的机器上，以实现更好的负载均衡。

元数据服务层 Metaservice

Metaservice 对应的进程是 nebula-metad ，其主要的功能有：

用户管理：Nebula Graph 的用户体系包括 Goduser ， Admin ， User ， Guest 四种。每种用户的操作权限不一。
集群配置管理：支持上线、下线新的服务器。
图空间管理：增持增加、删除图空间，修改图空间配置（Raft副本数）
Schema 管理：Nebula Graph 为强 schema 设计。

通过 Metaservice 记录 Tag 和 Edge 的属性的各字段的类型。支持的类型有：整型 int, 双精度类型 double, 时间数据类型 timestamp, 列表类型 list等；
多版本管理，支持增加、修改和删除 schema，并记录其版本号
TTL 管理，通过标识到期回收 time-to-live 字段，支持数据的自动删除和空间回收

MetaService 层为有状态的服务，其状态持久化方法与 Storage 层一样通过 KVStore 方式存储。

计算层 Query Engine & Query Language(nGQL)

计算层对应的进程是 nebula-graphd ，它由完全对等无状态无关联的计算节点组成，计算节点之间相互无通信。**Query Engine **层的主要功能，是解析客户端发送 nGQL 文本，通过词法解析 Lexer 和语法解析 Parser 生成执行计划，并通过优化后将执行计划交由执行引擎，执行引擎通过 MetaService 获取图点和边的 schema，并通过存储引擎层获取点和边的数据。Query Engine 层的主要优化有：

异步和并发执行：由于 IO 和网络均为长时延操作，需采用异步及并发操作。此外，为避免单个长 query 影响后续 query，Query Engine 为每个 query 设置单独的资源池以保证服务质量 QoS。
计算下沉：为避免存储层将过多数据回传到计算层占用宝贵的带宽，条件过滤 where 等算子会随查询条件一同下发到存储层节点。
执行计划优化：虽然在关系数据库 SQL 中执行计划优化已经经历了长时间的发展，但业界对图查询语言的优化研究较少。Nebula Graph 对图查询的执行计划优化进行了一定的探索，包括执行计划缓存和上下文无关语句并发执行。

客户端 API & Console

Nebula Graph 提供 C++、Java、Golang 三种语言的客户端，与服务器之间的通信方式为 RPC，采用的通信协议为 Facebook-Thrift。用户也可通过 Linux 上 console 实现对 Nebula Graph 操作。Web 访问方式目前在开发过程中。

Nebula Graph：一个开源的分布式图数据库。

GitHub：https://github.com/vesoft-inc/nebula

官方博客：https://nebula-graph.io/cn/posts/

微博：https://weibo.com/nebulagraph

fasiondog 2024-09-14 17:26

👍

yh2216 2024-09-14 10:24

wps确实做的很棒，比微软的office好用，比libreoffice好用很多。wps加油，鸿蒙做的不错，继续加油，支持生态建设。

fastfail 2024-09-15 08:37

捞钱捞到手抽筋

Tobyee 2024-07-09 11:04

没GMS是借口，本质还是不想适配国内的手机系统，等鸿蒙Next出来，看微软拥抱不拥抱就知道了

songdragon 2024-08-14 13:11

这个对比的条件还存在好几个问题。 1. solon使用的是smart-http，spring使用的是undertow 2. solon启动本身的自动配置少于spring 这两点就决定了对比的维度不同，性能更好的原因大概率是web服务器、应用配置依赖导致的。如果要拉齐，需要使用同样的web服务器，spring应用排除掉所有的自动配置，只保留web必须的，才能说明框架的性能差距。现在这个结果，无法说明solon本身性能好。

Francesca 2024-09-15 17:30

会不会是你用的版本比较老，新版本应该没问题

liming0101 2024-09-10 09:09

什么纳吉东西，还碰瓷黑神话

infoworld 2024-09-11 18:00

感谢，正是有你们这些先驱做的实事，才能避免被国外的系统和应用垄断。

Kevin586 2024-09-14 16:00

vagrant什么时候支持7.1我才更

天

天1天1天 2024-09-14 16:56

文章写的也没错，至于是不是steam的功劳，也无所谓，反正能玩了。

来开源啊 2024-09-14 15:07

25× 23.1 √

烈冰 2024-07-22 08:41

不如说国内90%的电脑都没安装CrowdStrike软件

平波 2024-09-14 19:01

你了做过为为的项目啊；😂

Yanlongli 2024-07-11 17:28

降低了视觉复杂性，增高了操作复杂性。

osc_566335 2024-08-01 15:05

“虽然两人只有大专学历”—— 大专也算高等教育，现在这些媒体口中已经文盲一个级别的感觉了吗？

智布道 2024-08-13 12:02

不管是谁在打平安县城，我三五八团一定帮帮场子！

zb79463626 2024-09-15 12:07

纯血鸿蒙不再是用android改的了，DevEco什么时候也纯血脱离Eclipse啊？😄

RustDesk 2024-09-16 11:20

惨淡

osc_566335 2024-08-05 10:48

os是媾粉聚集地还不了解吗？只要碰到国产、华子相关报道，必然评论区乌烟瘴气口伏声难止。还能期待啥有深度发言？大佬敢发这些，那还给搞前端什么都懂的“程序员”粪死？

大后锋 2024-07-10 14:03

然后交警找责任方，打过去是牛逼高大上的生成式AI的客服

osc_50722289 2024-09-06 13:51

如果苹果不让步，微信也不让步那就好看了！微信在中国深入寻常百姓家！支付社交微信根本离不开，如果微信不在IOS上更新，苹果“不用混了”

Artrener 2024-07-21 15:12

可以看他不爽，看360不爽，但人家说的是事实。比如说航空业的业内人士也这么说的。

0day 2024-07-21 11:52

一个流氓也配谈安全？

fzn0268 2024-09-04 14:26

这是那个做代码生成器的老哥起的吧

Ask_x_Seek 2024-09-14 15:19

支持

浪_客 2024-09-15 12:54

继续用vm吧，ensp不让用新版vbox😂

平波 2024-07-07 16:54

吃完就砸锅，好像那个啥纯血，吃完了，就想把小米，oppo、vivo的锅咂了；😂

叨

叨叨颠颠 2024-09-14 16:17

代码这东西就和女人穿不同衣服一样，包装不同，就可以换个人样儿，其实里面还是。字符串替换--变量名改改、方法名改改、文件名改改，方法return的改为void，值参改形参，一个类改几个拼接，一个结构体改几个组合，一个方法改几代继承。哪个敢说这是抄，百分之百纯自研，原生态。

平波 2024-09-14 15:46

你真是行家里手啊，😂；这个本质是数学建模，就像初中数学中的板据两点确定一条直线，然后可以根据任意x,预测y值啊，其实就这么简单啊

HalLi 2024-09-09 01:10

普通用户不懂就算了，怎么连程序员都不懂？苹果是全平台30%，国产是渠道服50%。微信、抖音这种大app哪来的渠道服，除了游戏，哪个app带渠道服。

黑人牙膏 2024-07-21 12:12

真的人不要脸则无敌，只要他不尴尬，尴尬的是别人。

279778325 2024-08-16 16:22

好不容易有个国产开发平台，没有鼓励只有贬低，就算宣传夸大怎么了？那么较真干什么？遍地都是夸大的广告宣传怎么不一个一个去找厂家？批判的同时想想自己能搞一个吗？为什么加上国产俩字就非要这么较真？

无尽的拉格朗日 2024-09-14 12:56

底层代码大部分估计都能共用反正都是c/c++，上层界面层重写吧

开源中国首席路人王 2024-09-15 15:47

ipv6 tomcat需要改什么支持吗

Kevin586 2024-07-29 17:09

真降低成本还是得换go，java太吃内存了

简洛-默 2024-08-12 19:31

你是家里才通网吗? 龙芯早都弃用MIPS了，现在是自研的LoongArch。自己好好看看吧：https://loongarch.dev/zh-cn/posts/20210501-loongarch-manual/

我要探索宇宙 2024-09-16 14:43

3.5.2版本，队列redis能用集群模式的redis吗？

呼呼南风 2024-09-14 11:18

幸好我把自己电脑换成win10了。

阳光满地 2024-09-15 00:25

加个证书那么简单的事，为什么还要等下一步再优化呢？

Azeroth008 2024-07-09 10:43

有自研操作系统挺好的啊，那些乱喷的人是什么心态？

奶奶灰 2024-09-15 20:28

换kvm 了

CloudShi83 2024-07-06 17:13

感谢祖师爷赏饭吃，给你磕一个

深夜49 2024-09-14 14:36

免费版只能用30分钟，太坑了吧。

zb79463626 2024-08-26 15:51

IBM中国哪有什么研发? 全部都是测试！所谓的搞研发的都是去养老混日子的！

高排量低炭烧 2024-09-14 23:34

牛逼🤬

优秀良民 2024-07-10 16:17

明明能躺平，明明可以割韭菜，还花钱研发？为了找骂？说这个能割韭菜？你被割了？你买了吗？是谁年年换mac，是谁年年换iphone？华为的用户好像没有那么干的吧？真让我一个小米用户都看不下去了！

kushu001 2024-08-14 15:24

为什么一定要强调“国产”？是开源的项目么？如果开源，是不是不接受国外开发者的贡献？我只是好奇，不带“国产”，是宣传不了了么😀

开源博客 2024-09-14 22:13

Virtualbox新管网使用vw布局单位，高分屏上使用浏览器的缩放没效果，字体仍老大==

blue_think 2024-08-26 11:00

别光喷华为啊，说点你自己的能力，到了什么程度，有什么成就，这样好歹有点说服力吧

kakai 2024-09-07 10:39

微信咋得罪你了？不管怎么样，微信此举哪怕从自身商业利益出发，让苹果降低中国税率这是利于中国人的，这个税率可不仅仅是针对微信的，还苹果大功一件，这是多么愚蠢、可耻的言论！

vb2005xu 2024-09-14 10:17

这数据有1%真吗

dwingo 2024-07-18 10:12

不是不让用jni和unsafe啊, 只是做了"限制", 只要加命令行参数就能继续用, 目的是为了让使用者考量程序的安全性.

字节跳动开源 2024-09-14 16:05

可以的，可以看看发布的一些用户案例

平波 2024-09-14 15:57

我倒是觉得好用，像真人就行；我可不希望它是真正的智慧生物；深度这些东东，本质就是曲面建模和贝叶斯/马尔科夫链这种概率建模；只要知识量够大，算力够强，机器就越像人；它有没有意识，并不重要；因为人的意思，估计也是伪命题；

longzz 2024-09-14 11:04

🤣65岁还在写代码吗？

我有我可以 2024-07-09 11:40

喷子们之所以喷，其本质是为自己的阴暗和自卑找理由罢了。

加百列Gabriel 2024-09-14 13:50

各位不要急着更新, 更新完之后linux虚拟机不支持3D加速了

封神梦 2024-09-14 17:53

反正wps就是各种vip广告，挺恶心人的

Binx 2024-09-07 08:28

最好提高苹果税到80%，不然怎么彰显尊贵的苹果用户身份

yh2216 2024-09-14 10:26

猜测：c++部分应该是切换了鸿蒙的系统api，UI则仅仅是使用鸿蒙的UI框架而已。

图数据库 Nebula Graph 的数据模型和系统架构设计

有向属性图 DirectedPropertyGraph

顶点 Vertex

边 Edge

图分割 GraphPartition

数据模型 DataModel

系统架构 Architecture

存储层 Storage

元数据服务层 Metaservice

计算层 Query Engine & Query Language(nGQL)

客户端 API & Console

热门内容

全站热门评论

关于作者

作者的专辑

作者的其它热门文章

热门资讯

热门软件

OSCHINA 社区

在线工具

攻略

QQ群

公众号

视频号

图数据库 Nebula Graph 的数据模型和系统架构设计

有向属性图 DirectedPropertyGraph

顶点 Vertex

边 Edge

图分割 GraphPartition

数据模型 DataModel

系统架构 Architecture

存储层 Storage

元数据服务层 Metaservice

计算层 Query Engine & Query Language(nGQL)

客户端 API & Console

热门内容

全站热门评论

关于作者

作者的专辑

作者的其它热门文章

热门资讯

推荐关注

热门软件

OSCHINA 社区

在线工具

攻略

QQ群

公众号

视频号