高手问答第 306 期 —— 聊聊 LLM 与知识图谱、图数据库的关系

小白兔爱吃大灰狼 发布于 2023/09/05 10:42
阅读 14K+
收藏 2

自从今年初 ChatGPT 横空出世并风靡全球之后,我们也迎来了一个并不陌生的名词:LLM,即大语言模型。随后,众多与 LLM 相关的项目如火如荼,这项新技术点燃了人们对科技未来的无限想象。

半年过去了,人们开始冷静地审视 LLM,思考它到底能为我们带来怎样的实际效益。与此同时,在过去的半年里,图数据库 NebulaGraph 研发人员也在探索这个问题,他们结合图技术和知识图谱,进行了自己的研究和尝试。

OSCHINA 本期高手问答 (9 月 6 日 - 9 月 12 日) 我们请来@wey 和 @xctylist 与大家一起讨论 LLM 到底能为广大图技术从业者带来什么。

大家可以从"LLM + 图数据库"、"LLM + 知识图谱"等方向提出问题。除了以上提问范围,你还可以扩展讨论的范围,涵盖图数据库、LLM 相关领域的内容,包括 LLM 的应用、图的应用场景等等:

* LLM 和知识图谱的结合应用
* 快速上手使用 LLM
* 利用 LLM 生成图查询语句
* ...

* 图数据库:一种专门用于存储和查询图数据的数据库系统。它们被设计用于处理大规模的图结构数据,提供高效的图遍历和复杂的图查询功能。图数据库能够有效地存储和处理知识图谱数据,并支持复杂的查询和推理操作。
* 知识图谱:一个结构化的知识表示形式,用于存储和组织实体、属性和它们之间的关系。它以图的形式呈现,其中实体表示为节点,关系表示为边。知识图谱旨在捕捉世界的语义关系,并提供一种有效的方式来查询和推理关于实体之间关系的知识。

嘉宾介绍:

* 古思为:NebulaGraph 布道师,他是首个在 LlamaIndex 社区提出 Graph + RAG 概念的人;


* 程训焘:NebulaGraph 核心开发者,从事图数据库的开发工作,目前致力于更好地将图数据库与 LLM 结合。

为了鼓励踊跃提问, NebulaGraph 会在问答结束后从提问者中抽取 5 名幸运会员,赠予礼盒 3 件套(内含:T恤 * 1、吉祥物 * 1、 不可背锅钥匙扣* 1)。
 

OSChina 高手问答一贯的风格,不欢迎任何与主题无关的讨论和喷子。

下面欢迎大家就“LLM + 图数据库、LLM + 知识图谱”相关问题向 古思为、程训焘老师 提问,直接回帖提问既可。

加载中
1
小白兔爱吃大灰狼
小白兔爱吃大灰狼

高手问答第 306 期 —— 聊聊 LLM 与知识图谱、图数据库的关系 

@拉裤兜兜子  @南小山程序员 @八一菜刀  @Elven_Xu  @梦梦阁 

恭喜以上5位网友分别获得礼盒 3 件套一套。

请于2023年9月21日前登陆账号, 私信  @小白兔爱吃大灰狼   告知快递信息(格式:姓名+电话+地址),过期视为自动放弃哦~

3
iman123
iman123

@NebulaGraph 你好,现在LLM很火,我理解的LLM他其实是基于已有的知识、数据,汇聚起来可以给你一些非创造性的答案、建议,例如你无法让他去发现、创造未知的科学,不知道我的理解对不对。LLM其实未来可以代替一些重复性的人工客服工作以及提高一些工作效率,程序员可能不能完全代替,要是可以自己写代码、调试代码、运行代码那就真像黑客帝国里面的一样了 😁

另外图数据库我之前接触过neo4j,NebulaGraph相比而言有哪些优缺点呢?

iman123
iman123
回复 @wey-gu : 谢谢,有机会我也尝试用用
wey-gu
wey-gu
关于 NebulaGraph neo4j,来说,NebulaGraph 可以说有一些后发优势。 后者是我们创始团队在多年的图存储系统积累之上,用新的存储工程方法和实践,面向分布式、超大规模数据设计的。所以对于大图,高可用,高并发的场景,或者说业务上图在膨胀的场景,用 NebulaGraph 就自然 scale 就好了。 其次 NebulaGraph 是开源的(apache 2.0)。
wey-gu
wey-gu
的确呢,不过,写代码的分析、调试借助 copilot 和 cursor 这样的工具,已经可以做到比想象中更智能、流畅了,这有一个例子是 @xtcyclist 提了一个 NebulaGraph 内核改动,我用这些辅助工具,几分钟就找到在 NebulaGraph 哪里修改,怎么做修改的的例子,生成测试代码 https://vimeo.com/858182792 1/n
2
拉裤兜兜子
拉裤兜兜子

@NebulaGraph 老师好,想请教学习下:1.大语言模型LLM是否可以协助提取分析数据关键信息生成图数据吗?怎么落地?2.图数据库和大数据框架计算引擎的结合,效率或者图算法的优势互补怎么更好发挥?

拉裤兜兜子
拉裤兜兜子
回复 @WeyGu : 感谢老师的分享解答
wey-gu
wey-gu
2(续续),另外一个例子就是,GNN 在全图上训练得到 inductive 的模型,然后在线上业务中,实时从 NebulaGraph 抽取相关新插入点的子图(比如3000个点),然后作为 input 给模型去推理得到预测结果,也是典型的 GNN + 图库的结合案例,例子项目在这里 https://github.com/wey-gu/NebulaGraph-Fraud-Detection-GNN/
wey-gu
wey-gu
2(续). 比如用 NebulaGraph 企业版本的 explorer + nebulagraph analytics,我们可以用 API 或者 浏览器里的所见即所得界面任意规划图上的复杂计算任务 pipeline,它在底层,我们可以按需选择基于图库的查询,亦或者绕过查询层直接从数据库底层扫全图进行图计算任务。
wey-gu
wey-gu
2. 图库的优势是实时性,和图查询、少量计算的灵活表达,劣势在于它不擅长涉及到全图或者部分全图数据量的运算。图计算平台相反,适合全图量的访问以及迭代、计算任务,但是默认来说图计算平台数据的实时性是一个短板(常常是从数仓拉数据)。结合的例子就是计算平台作为计算层,存储层按需选择图库。像 NebulaGraph 这样的存算分离架构,图计算平台就算是集群内部的异构计算、查询层,结合起来就非常顺滑了。
wey-gu
wey-gu
1. 可以的,利用 LLM 做提取,KG的构建,这里有 demo https://www.siwei.io/demos/text2cypher/ ,https://www.siwei.io/demo-dumps/kg-llm/KG_Building.ipynb ,更进一步,我们还能结合 LLM + NLP 模型一起做这个事儿,比如 rebel ,未来我会给出 demo/文章 哈。
2
clearsky1991
clearsky1991

@NebulaGraph 你好,llm现在很火,可以部署一些在本地自己使用么,对电脑配置都有什么要求,有哪些类似于chatgpt 4的个人本地使用的开源免费项目推荐么?

clearsky1991
clearsky1991
回复 @wey-gu : 谢谢 😀
wey-gu
wey-gu
可以呀,比如 ChatGLM2-6B,量化之后可以跑在 CPU 上呢。 这里有我用 ChatGLM2-6B 和本地 embedding 模型做 LLM + Graph 的例子,文章还拖着没发,可以先尝鲜。 https://www.siwei.io/demo-dumps/local-llm/Graph_RAG_Local.html
0
crf1111
crf1111

@NebulaGraph

你好,图数据库目前业界有没有将其应用到CAE领域,能否举几个案例啊?

谢谢!

crf1111
crf1111
回复 @xtcyclist : 谢谢。
x
xtcyclist
搜到一篇论文:A Graph-based Approach to Manage CAE Data in a Data Lake
0
l
lvxb

@NebulaGraph您好,LLM能应运在短文本分类识别判断?有没有什么实际的案例?

l
lvxb
回复 @xtcyclist : 现在比较好的模型库有那些?
x
xtcyclist
当然可以啊,文本处理类那当然是大语言模型最擅长的地方了。我博士的组最近做了一个“美投365”的公众号,他们用LLM分析美股数据和财经消息,有长有短,然后生成评论文章,里面包括了对文本的分类。
0
xiaour
xiaour

@NebulaGraph 图数据库几年前我在做AI Music APP的时候用到过,但是我发现,对于寻求极致性能和效率,市面上的图数据库都是有些瓶颈的,往往需要投入大量资源,或者用户忍受响应延迟;我们该怎么处理对于图数据库方面投入成本和收益的冲突呢?

wey-gu
wey-gu
不过总体来说,如果 ROI 在场景中说得通,非常推荐试试把图库加进来,这样可以打开很多潜在的可能性。 试想实时在图上获得多跳关联,带有一定的可视化洞察能力,在图上做一些算法获得新的 feature 和结论等等
wey-gu
wey-gu
可以来 NebulaGraph 社区聊聊你的瓶颈,这个项目比较擅长线上高并发的场景,很多国内的社交、生活类大厂在用呢,分布式的设计使得数据量上来了也不用太操心 scale 的问题。 图库作为一个新的系统,一定是有一定的人才投入成本的,不过,这个 ROI 的情况在有了 LLM 之后有了一些质的变化: 1. 构建 KG 变容易了 2. 查询 KG(无论是人还是机器)都可能变得非常容易
0
谐云harmonycloud
谐云harmonycloud

LLM(Language-Modeling Multi-task)是一种基于语言模型的多任务学习方法,用于处理自然语言处理任务。而知识图谱和图数据库则是用于存储和管理结构化数据的技术。

知识图谱是一种用于表示和组织知识的图结构。它通过实体、属性和关系来描述现实世界中的事物和它们之间的关联。知识图谱可以用于存储和查询各种领域的知识,例如实体关系、语义信息等。

图数据库是一种专门用于处理图结构数据的数据库系统。它提供了高效的图查询和图遍历功能,以支持复杂的图分析和数据关联。图数据库通常使用图结构来表示和存储数据,并提供了灵活的图操作接口。

LLM与知识图谱和图数据库的关系在以下几个方面体现:

  1. 知识图谱作为数据源:LLM可以利用知识图谱中的结构化数据作为输入,通过学习和理解这些数据,提供更好的语言模型和语义理解能力。

  2. 知识图谱的查询与推理:LLM可以与知识图谱结合,通过查询和推理来获取相关的知识和信息。LLM可以根据用户的查询意图,从知识图谱中提取相关的实体、属性和关系,并生成相应的回答或结果。

  3. 图数据库的存储与管理:LLM可以与图数据库结合,将图数据库作为知识图谱的存储和管理引擎。LLM可以通过图数据库的高效查询和遍历功能,快速检索和处理知识图谱中的数据。

总之,LLM与知识图谱和图数据库有着密切的关系。LLM可以借助知识图谱提供的结构化数据进行学习和推理,同时也可以与图数据库结合,以便高效地存储、查询和分析知识图谱中的数据。这种结合可以提供更强大的语言理解和知识推理能力,为自然语言处理任务带来更好的性能和效果。

OSCHINA
登录后可查看更多优质内容
返回顶部
顶部