📌GraphRAG 1. 단순 기법에서 프레임워크로

📌GraphRAG 2. 질문은 어떻게 처리될까?

지난 편에서는 사용자의 질문을 구조적으로 해석하고, 그래프 기반으로 정보를 검색하는 과정인 Query Processor와 Retriever을 살펴보았습니다. 이번 편에서는 그 다음 단계인 Organizer와 Generator를 알아보고자 합니다.

Organizer와 Generator는 단순한 정보 나열이 아닌, 관계 기반 정보를 이해하고 요약하며, 일관성 있고 신뢰할 수 있는 응답으로 변환하는 과정인데요. 검색된 정보를 어떻게 정리하고, 실제 텍스트 응답으로 연결하는지에 대해 알아보겠습니다.

Organizer: 구조화된 정보 정리하기

그래프 검색 결과는 단일 정답이 아닌, 여러 노드와 엣지로 연결된 복잡한 하위 그래프(subgraph)인 경우가 많습니다. 이를 그대로 LLM에 입력하면 효과적인 응답을 얻기 어렵기 때문에, 사전 정리 과정이 필요한데요. 이 역할을 수행하는 구성 요소가 바로 Organizer입니다. 주요 전략을 가볍게 살펴볼까요

1. Graph Pruning (그래프 정제)

너무 많은 노드와 엣지가 포함된 서브그래프는 LLM이 이해하기 어렵고, 오히려 응답 품질을 저해할 수 있습니다. 그래서 다음과 같은 방식으로 불필요한 정보를 제거합니다:

Semantic Pruning: 쿼리와 관련 없는 의미적 요소를 제거
Syntactic Pruning: 파싱 트리 구조 기반으로 중요도가 낮은 노드를 제거
Structure-based Pruning: PageRank 등 구조적 지표로 덜 중요한 경로 제거
Dynamic Pruning: 학습 중 주의(attention) 정보를 기반으로 실시간 필터링

2. Reranking (재정렬)

LLM은 입력 위치에 따라 응답 품질이 달라지는 경향이 있기 때문에, 검색된 정보의 순서를 재조정해 가장 중요한 정보를 앞쪽에 배치합니다.

Cross-encoder나 GNN 기반 리랭커 사용
시간순 재배치(예: 최신 경로 우선)

3. Graph Augmentation (그래프 확장)

정보가 누락된 경우를 보완하기 위해, 그래프를 확장하거나 외부 정보를 추가합니다.

구조 확장: 노드/엣지 추가, 쿼리를 노드로 삽입해 연결성 향상
특성 확장: 노드의 설명, 태그 등 추가 정보 삽입
일부는 노드 삭제(dropout)로 모델의 견고함 향상을 도모하기도 함

4. Verbalization (자연어화)

그래프를 LLM이 이해할 수 있도록 텍스트로 표현합니다. 방식은 다음과 같습니다:

Tuple-based: (A, 관계, B) 형식으로 나열
Template-based: 템플릿 문장으로 변환 (예: “A는 B의 아버지이다”)
Graph-to-text / Summarization: 전체 그래프를 요약 또는 자연어로 서술

가장 빠른 AI 뉴스

가장 빠른 AI 뉴스 구독하기

Generator: 텍스트 응답 생성하기

정리된 정보를 바탕으로 실제 답변을 생성하는 단계입니다. Generator는 단순히 텍스트를 나열하는 수준을 넘어서, 그래프 구조에 담긴 의미와 관계를 반영한 생성을 목표로 하는데요. 이 과정에서 사용되는 3가지 주요 전략을 알아보겠습니다.

1. Discrimination-based Generator

GNN, Graph Transformer를 사용해 노드/엣지 분류, 회귀 등의 태스크 수행
예: GraphSAGE, GAT, RGCN 등 모델이 도메인과 그래프 구조에 따라 사용됨

2. LLM-based Generator

Verbalization을 통해 텍스트로 바뀐 정보를 LLM에 넣어 응답 생성
Embedding-fusion: GNN으로 생성한 그래프 임베딩을 텍스트 임베딩과 결합
- 예: 그래프 임베딩을 LLM self-attention에 삽입하거나 입력 앞에 붙이기
Positional embedding-fusion: 그래프 구조를 위치 정보로 인코딩해 LLM에 전달