오늘은 GraphRAG 테크 시리즈 2편입니다.

지난 레터에서는 GraphRAG라는 프레임워크가 왜 필요한지, 그리고 어떤 구조로 구성되어 있는지를 살펴보았는데요. 오늘은 GraphRAG 설계 흐름의 다섯 가지 핵심 구성 요소 중 'Query Processor(처리)'와 '그래프 기반 검색(Retrieval)'이 어떻게 작동하는지를 알아보고자 합니다. 이 두 구성 요소는 구조화된 정보를 효과적으로 탐색하기 위한 필수 요소입니다.

왜 중요할까?

기존 RAG는 “스티브 잡스의 형은 누구야?”와 같은 질문을 임베딩한 뒤, 문서 벡터와의 유사도를 계산해 관련 정보를 검색하는 방식이었습니다. 반면, GraphRAG는 단순한 유사성 기반 검색을 넘어, 관계와 구조를 따라 정보를 탐색하지요. 이 과정에서 질문을 어떻게 해석할지, 그리고 그래프 내에서 어떤 방식으로 정보를 찾을지를 결정하는 요소가 바로 Query Processor와 Retriever 단계입니다.

1. Query Processor

GraphRAG에서의 Query Processor는 텍스트 질의를 그래프 탐색에 적합한 형태로 변환하는 역할을 합니다. 단순 키워드 매칭이 아닌, 구조적 질의로의 해석이 필요한데요. Query 처리 과정 속 다섯 가지 주요 기술을 살펴볼까요? 🔎

1. 엔티티 인식 (Named Entity Recognition, NER)

질문 안에 포함된 인물, 장소, 개체명을 식별합니다. 기존 RAG에서는 텍스트 기반 지식베이스에서 엔티티를 추출했다면, GraphRAG에서는 그래프 내 노드로 연결 가능한 엔티티를 식별해야 합니다.

예: “스티브 잡스의 형은 누구야?” → ‘스티브 잡스’라는 노드를 그래프 내에서 찾는 과정

2. 관계 추출 (Relational Extraction)

문장에서 두 엔티티 간의 관계(Relation)를 식별합니다. 그래프에서 엣지(관계)로 표현되는 정보이며, 질의 해석 정확도에 매우 중요합니다.

예: “형은 누구야?” → 형제 관계(sibling_of)를 그래프 내 엣지로 매핑

3. 질의 구조화 (Query Structuration)

자연어 질의를 Cypher, SPARQL, GQL 등 그래프 쿼리 언어 형태로 변환합니다. 이는 복잡한 관계 탐색 시 유용하며, LLM 기반 자동 구조화도 함께 연구되고 있습니다.

4. 질의 분해 (Query Decomposition)

복잡한 질의를 여러 단계의 하위 질의로 분리합니다.

예: “A의 친구 중 B를 좋아하는 사람은 누구야?”와 같이 중첩된 질문에 대해 논리적으로 연결된 탐색 단계로 나누는 작업

5. 질의 확장 (Query Expansion)

질의에 포함되지 않은 잠재적인 관련 노드나 관계를 확장합니다.

예: “그 사람은 어떤 회사를 만들었어?”라는 질문에서 ‘그 사람’이 누구인지를 그래프 상의 이웃 노드를 통해 보완하는 방식

이와 같은 처리 방식은 단독으로 사용되기보다는 복합적으로 조합되어, 질의의 구조화 수준을 높이고 탐색 정확도를 향상시킵니다.

2. Retriever

Query Processor에서 전처리된 질의는 Retriever 단계에서 그래프 기반 탐색으로 이어지는데요. 이때 단순한 텍스트 벡터 유사도 비교를 넘어서, 그래프의 구조를 활용한 탐색 기법이 핵심이 됩니다. 주요 접근 방식들을 살펴보시죠!

1. 그래프 탐색 기반 검색

GraphRAG에서는 질문과 관련된 노드를 중심으로, 그래프 구조 내에서 직접 탐색을 수행할 수 있습니다. 대표적인 방식으로는 BFS(너비 우선 탐색), DFS(깊이 우선 탐색), MCTS(Monte Carlo Tree Search)와 같은 경로 기반 탐색이 사용됩니다. 이때 탐색 범위는 l-hop 이웃, 또는 특정 관계 경로에 따라 설정됩니다.

예를 들어, 질문에 특정 유전자와 질병이 함께 언급되었을 경우, 이 둘 사이를 연결하는 관계 경로를 따라가며 관련 약물 노드를 식별하는 방식입니다.

2. GNN(Graph Neural Network) 기반 임베딩 검색

그래프의 구조적 특징과 노드의 속성 정보를 동시에 고려하려면 GNN 기반 임베딩이 적절합니다. 이 방식은 각 노드의 이웃 정보를 반영해 임베딩을 생성하고, 이를 통해 쿼리-노드 간 유사도를 계산할 수 있도록 합니다.

일부 GraphRAG 시스템(GNN-RAG, REANO 등)에서는 질의 자체를 GNN의 message passing 과정에 포함시켜, 질의에 따라 각 노드의 표현이 달라지도록 임베딩을 조정하는데요. 덕분에 쿼리 맥락을 반영한 더욱 정밀한 검색이 가능해집니다.

3. Hybrid / Adaptive Retrieval

최근에는 규칙 기반 탐색(graph traversal)과 뉴럴 임베딩 기반 검색을 결합한 하이브리드 방식이 활발히 연구되고 있습니다. 예를 들어, 먼저 그래프에서 질의와 관련된 하위 구조를 추출한 뒤, 뉴럴 임베딩으로 세밀한 유사도 판단을 하는 식인데요. 질문의 복잡도에 따라 탐색 깊이(l-hop)나 전략(BFS, GNN 등)을 동적으로 조정하는 적응형 검색(adaptive retrieval) 방식도 있습니다.

이처럼 GraphRAG에서의 검색은 단순한 '관련 문서 찾기'를 넘어서, 구조적 관계 추론과 도메인 지식에 특화된 탐색 전략이 결합된 방식입니다.

선택형(Multi-Choice) 및 b) 개방형(Open-Ended) 질문에 따른 KGARevion과 LLM의 정확도 비교.

지난 레터에서는 GraphRAG의 전반적인 개념과 필요성, 그리고 전체 구조를 소개했습니다. 특히 텍스트 기반 RAG로는 다루기 어려운 복잡한 관계형 데이터를 처리하기 위해, 그래프 구조와 탐색 방식이 왜 중요한지를 살펴봤지요.

오늘은 그 연장선에서, 질문을 구조적으로 해석하고 그래프 탐색으로 연결하는 Query Processor와 Retriever를 알아봤습니다. GraphRAG은 단순히 검색 정확도를 높이는 것을 넘어, ‘질문을 어떻게 구조화하느냐’에서부터 전체 흐름이 달라지는 프레임워크입니다.

다음 편에서는, 검색된 결과를 어떻게 정리하고(Organizer), 이를 생성기(Generator)와 어떻게 연결해 보다 일관성 있는 응답을 도출하는지 살펴볼 예정입니다. 다음주 레터도 기대해 주세요!🚀

참고자료