Retrieval-Augmented Generation (RAG)은 생성형 AI의 정답률을 높이기 위한 대표적인 접근 방식입니다. LLM이 답변을 생성하기 전에, 외부 지식이나 문서에서 관련 정보를 검색해 와서 응답에 반영하는 방식인데요. RAG는 텍스트의 유사성을 바탕으로 작동하며, 최근 많은 실무 환경에 도입되고 있습니다.

하지만 단순 텍스트가 아닌 데이터를 다룰 때는 어떻게 하면 좋을까요?

사용자, 아이템, 행동이 연결된 추천 시스템
논문, 저자, 인용 구조가 얽힌 문서 그래프
유전자, 단백질, 약물, 질병 등이 엮인 생명과학 데이터
조직 구조, API 호출 흐름, 금융 네트워크

이처럼 관계와 구조를 이해해야 하는 데이터는 기존 RAG로 처리하기엔 한계가 있는데요. 이를 해결해 줄 개념, GraphRAG를 살펴보겠습니다.

GraphRAG의 기본

GraphRAG는 다음과 같은 문제의식에서 출발했습니다:

그래프는 복잡한 관계형 정보를 담을 수 있는 강력한 구조지만,
기존 RAG는 이를 활용할 수 없다.

RAG에 그래프를 통합하려면, 단순한 임베딩 기반 검색을 넘어서 관계 기반 추론, 구조 기반 탐색, 그리고 그래프 구조의 생성을 위한 별도 설계가 필요한데요. 설계 흐름을 다섯 가지 핵심 구성 요소로 정리할 수 있습니다.

Query Processor:
텍스트 질의를 그래프 기반으로 해석하는 단계입니다. 예를 들어, "스티브 잡스의 형은 누구야?"라는 질문에서 '스티브 잡스'라는 엔티티(주제)와 '형제 관계'라는 관계를 추출하고 이를 그래프 탐색이 가능한 형태로 바꿉니다. 엔티티 인식, 관계 추출, 질의(query) 구조화 등이 여기에 포함됩니다.
Retriever:
Query Processor가 분석한 질의에 따라, 그래프 구조 안에서 관련된 노드(개체), 엣지(관계), 그리고 이들과 연결된 서브그래프(부분 구조)를 검색합니다. 단순히 단어 간 유사도를 비교하는 방식이 아니라, 여러 단계를 거쳐 관계를 따라가는 관계 기반 탐색(multi-hop retrieval) 이 핵심입니다.
Organizer:
검색된 결과는 그대로 LLM에 넣기엔 크고 복잡합니다. 이 단계에서는 불필요한 노드/엣지를 제거하거나, 그래프 구조를 압축 및 정제해 모델이 이해할 수 있는 형태로 재구성합니다. LLM의 입력 한계나 주의력 편향도 고려합니다.
Generator:
정제된 그래프 데이터를 바탕으로 실제 텍스트 응답을 생성하는 단계입니다. 단순히 텍스트를 나열하는 것이 아니라, 그래프 구조와 관계의 맥락을 반영해 보다 정확하고 일관된 답변을 도출하지요. 이때 그래프 정보를 LLM이 이해할 수 있도록 프롬프트 형태로 구조화하는 등 다양한 방식으로 통합이 이뤄집니다.
Graph Data Source:
GraphRAG이 동작하기 위해 필요한 데이터 구조입니다. 지식 그래프(Wikidata), 문서 그래프(논문 인용 네트워크), 생물학 그래프(유전자-질병 연결망) 등 다양한 형식이 존재하며, 도메인별로 구축 방식도 상이합니다.

기존 RAG와 비교해 보자

기존 RAG는 텍스트나 이미지처럼 일관된 구조(1D 시퀀스, 2D 그리드)를 전제로 작동합니다. 하지만 GraphRAG은 다양한 형태의 그래프 구조를 다루며, 각각의 도메인에 특화된 복잡한 관계 정보를 함께 처리하지요.

표만 보면 간단해 보이지만, 실제로는 데이터 구조 자체가 다르기 때문에 전혀 다른 방식의 시스템 설계가 요구됩니다. RAG는 모든 데이터를 벡터화하고 유사도를 기반으로 처리할 수 있지만, GraphRAG에서는 탐색 순서, 경로 기반 추론, 구조 유지 등이 중요한 요소가 됩니다.

예를 들어, "EZH2 유전자와 관련된 약물을 알려줘" 같은 질문은 관계성을 파악해야 하기 때문에 단어 유사도만으로 해결되지 않는데요. GraphRAG은 [유전자 → 타깃 관계 → 약물]이라는 경로를 따라가며 지식을 찾아낼 수 있는 구조를 갖추고 있어야 합니다.

RAG와 GraphRAG의 차이. 출처: 논문

GraphRAG가 주목받는 이유

LLM은 자연스러운 문장을 생성하는 데 강점을 가지지만, 최신 정보 부족, 사실 왜곡, 출처 불분명 등의 신뢰성 문제가 여전히 존재합니다. 또한, 앞서 살펴본 것처럼 실제 데이터는 관계 기반으로 복잡하게 구조화된 경우가 많습니다.

GraphRAG는 텍스트 유사도에 기반한 기존 RAG의 한계를 어떻게 보완할까요?

도메인별 그래프 구조(예: 분자, 문서, 소셜 등)를 직접 다룬다.
관계와 구조를 고려해 검색하고 생성한다.
LLM과 통합 가능한 구조 기반 설계를 갖췄다.

특히, 도메인마다 그래프 구조와 관계 특성이 달라 하나의 방식으로 처리하는 데 한계가 있는데요:

분자 그래프는 3D 구조와 화학 결합을 고려해야 하며,
추천 시스템은 사용자 간 관계와 행동 흐름을 반영해야 하고,
문서 그래프는 인용 및 참조 구조를 이해해야 합니다.

GraphRAG은 기존 RAG의 한계를 넘어, 도메인별 구조와 관계 정보를 반영하는 새로운 AI 설계 방식입니다. 복잡한 연결 데이터를 효과적으로 탐색하고 신뢰할 수 있는 응답을 생성하기 위해서는 보다 정교한 프레임워크가 필요한데요. GraphRAG은 그 방향성을 제시합니다.

오늘은 GraphRAG이 무엇이며, 왜 필요한지, 그리고 어떤 구조로 구성되어 있는지를 전체적으로 살펴보았습니다. 2편에서는 GraphRAG에서 핵심 요소 중 하나인 질문 처리(Query Processing)와 검색(Retrieval) 설계에 대해 알아보겠습니다. 텍스트 쿼리를 그래프 탐색으로 어떻게 연결하는지, 또 구조 기반 검색은 어떻게 다른지 살펴볼 예정이니 기대해 주세요!

참고자료

서베이 논문 Retrieval-Augmented Generation with Graphs (GraphRAG)

목록으로 돌아가기