7 月初,微软正式向公众开源了 GraphRAG 技术。GraphRAG 结合了知识图谱和图机器学习,让大语言模型在处理私有数据和复杂语义问题时更加高效。
与传统的 RAG 方法相比,GraphRAG 能够跨越海量信息,将零散的知识点串联起来,回答基于关键字和向量搜索机制难以解决的问题。无论是跨多个文档的全局性问题,还是涉及多个主题的复杂问题,GraphRAG 都能处理。
这次开源为企业在私有数据分析和复杂信息处理领域提供了新的工具。详细的介绍和教程现已上线,开发者们可以在 GitHub 和官方文档中查阅。
GraphRAG 的核心在于利用大语言模型(LLM)从文本文档集合中自动提取知识图谱,再通过图机器学习技术处理,让模型更好地理解和回答复杂问题。传统的 RAG 方法主要依靠向量相似性搜索,把文档分割成片段并嵌入到向量空间中。这种方法在处理需要全局理解的海量数据查询时有局限,因为它过度依赖局部文本片段的检索,无法捕捉到整个数据集的全貌。GraphRAG 则通过构建知识图谱,把文本中的实体、人物、地点、概念等进行结构化表示,从而更全面地理解和回答问题。
GraphRAG 的功能包括:
问答性能:利用知识图谱和图机器学习技术,GraphRAG 能在私有数据集上进行问答。
跨数据集推理:GraphRAG 具备连点成线的能力,可以处理跨大型数据集的复杂语义问题。
结构化信息检索:相比传统 RAG 方法,GraphRAG 提供了更结构化的信息检索和响应生成。
GraphRAG 提供了完整的 Index 和 Query 工具链。在 Index 阶段,系统将输入数据切成小的文本块,并使用 LLM 提取三元组和实体关系,形成层级社区。在 Query 阶段,系统分为 Global 和 Local 搜索,分别利用社区摘要进行全局搜索和特定实体的局部搜索。
GraphRAG 还具备 Graph Prompt 调优能力,通过自动调整 LLM 提取提示以适应不同的问题领域,减少了定制提示词和创建示例的前期工作量。这种调优能力让 GraphRAG 能在不同的应用场景中保持性能。
具体实现步骤和技术细节:
数据预处理:将输入数据切成小的文本块。
知识图谱构建:使用 LLM 提取实体和关系,构建知识图谱。
图机器学习处理:利用图机器学习技术对知识图谱进行处理和优化。
社区检测和摘要:通过社区检测算法识别图谱中的模块化社区,并生成社区摘要。
查询处理:在查询阶段,利用社区摘要进行全局和局部搜索,生成最终答案。
微软在大规模播客和新闻数据集上对 GraphRAG 进行了评估,结果显示 GraphRAG 在全面性、多样性和赋权性方面均优于传统的 RAG 方法。具体来看,GraphRAG 在 70-80% 的测试中表现优异,即使使用低级别的社区摘要,也优于普通的 top k 召回。此外,GraphRAG 的代币使用效率更高,每次查询的代币成本显著降低。
如果你想了解更多关于 GraphRAG 的技术细节和应用场景,可以参考以下资源:
[GraphRAG GitHub 项目](https://github.com/microsoft/graphrag)
[微软研究博客](https://www.microsoft.com/en-us/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/)