Neo4j 推出向量嵌入存储功能,为图与LLL整合找到出路
大语言模型和图数据库的整合充满了可能性。图数据库供应商Neo4j在8月22日宣布推出向量嵌入存储功能,使其能够充当GPT等大语言模型的长期存储器。
虽然图数据库和大型语言模型(LLM)处于数据频谱的两端,但在人类如何与它们交互并将它们用作知识库方面,它们却有一些相似之处。
像 Neo4j 这样的属性图数据库是结构化数据存储的一个极端例子。节点和边的图结构擅长帮助用户探索有关实体(定义为节点)及其与其他实体的关系(定义为边)的知识。在运行时,属性图可以通过快速遍历与其他节点的预定义连接来找到问题的答案,这比在关系数据库中运行 SQL 连接更有效率。
另一方面,LLM 是非结构化数据存储的一个极端例子。LLM 的核心是一个神经网络,它主要是根据大量人类生成的文本进行训练。在运行时,LLM 会以与训练过程中遇到的单词最匹配的方式,一个词一个词地生成句子,从而回答问题。
图数据库中的知识包含在标注节点之间的连接中,而 LLM 中的知识则包含在人类生成的文本中。因此,虽然图和 LLM 可能被用来回答类似的知识相关问题,但它们的工作方式却完全不同。
图片来自Neo4j
从结构化数据的两个方面来应对这些类型的知识挑战可能会带来好处。“我们认为,将向量揭示的隐式关系与图形揭示的显式事实关系和模式结合起来很有价值。”Neo4j 联合创始人兼首席执行官 Emil Eifrem 在新闻发布会上说。
Neo4j 首席科学家Jim Webber认为,客户可以采用三种模式来整合图形数据库和 LLM。
第一种是将 LLM 用作与图数据库交互的便捷接口。第二种是从 LLM 创建图数据库。第三种是直接从图形数据库训练 LLM。“目前,这三种情况似乎非常普遍。”"Webber说。
这些集成如何在现实世界中发挥作用?对于第一种情况,Webber 以查询“给我看一部我最喜欢的演员的电影”为例。LLM 不需要提示 LLM 使用大量的文本来解释谁是你最喜欢的演员,而是会生成一个针对图数据库的查询,在这个查询中,答案 “迈克尔-道格拉斯”可以很容易地从图的结构中推导出来,从而简化了交互过程。
对于第二个用例,Weber 分享了 BioCypher 目前正在开展的一些工作。该组织正在使用 LLMs建立一个基于大型数据语料库的药物相互作用模型。然后,它使用 LLM 中的概率连接来建立一个图数据库,可以以更加确定的方式进行查询。
Weber说,BioCypher之所以使用LLM,是因为LLM“能处理自然语言方面的难题”。“但他们不能做的是查询大语言模型以获得见解或答案,因为它不透明,可能会产生幻觉,他们不喜欢这样。因为在监管环境下,说'因为这个随机盒子告诉我们是这样的'是不够好的。”
Weber分享了最后一个使用案例--根据知识图谱中的策划数据训练 LLM。Weber说,他最近会见了一家印度尼西亚公司的老板,这家公司正在根据Neo4j知识图谱中的数据构建定制聊天机器人。
“你可以问它关于最新赛季英超联赛的问题,它根本不知道你在说什么。”店主告诉他,“但是,如果你问的是关于我的产品的问题,它就会回答得非常准确,我的客户满意度直线上升。”
Neo4j 首席产品官 Sudhir Hasbe 在今天的一篇博文中说,LLM 与图的整合将帮助客户加强欺诈检测,提供更好、更个性化的推荐,并发现新的答案。“……[向量]搜索提供了一种快速查找上下文相关信息的简单方法,进而帮助团队发现隐藏的关系。”他写道,“以 Neo4j 知识图谱为基础的 LLM 通过将事实性回答(显式)和与上下文相关的回答(隐式)引入 LLM,提高了准确性、上下文和可解释性。”
Webber 说,知识图谱和 LLM 之间存在互助关系。在某些情况下,LLM 是最合适的工具。但在另一些情况下,比如需要更高的透明度和确定性,那么将结构化数据堆栈升级为完整的知识图谱将是更好的解决方案。
“目前,这三种情况似乎非常普遍,”他说。“但如果我们一年后再进行一次对话……老实说,我不知道这将走向何方,这对我来说很奇怪,因为我在 IT 行业摸爬滚打了一段时间,我通常对事情的走向有很好的判断,但在知识图谱和 LLM 的交叉点上,我感觉未来还没有想好。”
作者:Alex Woodie
栏目分类
- STARL中文网
- Ctomorrow Platform中文网
你的位置:STARL中文网 > Ctomorrow Platform中文网 >