정확한 검색을 위한 자료 구조화

정확한 검색을 위한 자료 구조화

효과적으로 데이터를 검색하고 활용하려면 단순히 많은 정보를 찾기보다는 각 정보 간의 연결 관계를 이해해야 합니다.

오늘은 RAG를 위한 데이터 구조화 기술의 핵심인 청킹 자동화와 그래프 기반 데이터 연결을 중심으로, 기존 Document Retrieval 구조의 한계와 이를 극복하기 위한 지식 그래프(Knowledge Graph)에 대해 알아보겠습니다. AI가 단순히 한 페이지에서 답을 찾는 수준을 넘어, 책 전체의 맥락을 이해하고 보다 정확한 답을 제시할 수 있는 방법은 무엇일까요?

RAG를 위한 데이터 구조화 고도화

RAG를 위한 데이터 구조화에서 가장 주목받는 기술은 청킹 자동화그래프 기반 데이터 연결입니다.

  • 청킹 자동화
    • 최신 AI 기술을 활용하면 데이터를 사람이 일일이 나누지 않고도 자동으로 의미 단위로 나눌 수 있습니다.
    • 이러한 기술은 데이터의 양이 많거나 정리가 복잡한 경우에도 빠르게 작업을 수행할 수 있습니다.
  • 그래프 기반 데이터 연결
    • 기존의 단순한 청킹 방식은 데이터 간의 관계를 충분히 반영하지 못하는 경우가 많습니다.
    • 그래프 기반 접근법은 데이터 청크 간의 연관성을 분석하여 더 정확한 검색 결과를 제공합니다.

Document Retrieval 기술과 그 한계

RAG (Retrieval-Augmented Generation)는 대규모 언어 모델(LLM)이 특정 도메인에 대한 질문에 대해 더 정확하고 신뢰할 수 있는 응답을 제공하도록 만드는 기술입니다. 이를 더 심도 있게 이해하기 위해 일반적인 RAG 검색 방식인 ‘Document Retrieval’ 구조에 대해 좀더 알아보겠습니다.

Document Retrieval 기술은 기본적으로 AI가 질문(쿼리)에 맞는 가장 관련성 높은 텍스트 조각(Passage)을 찾는 구조로 설계되어 있습니다.

사용자가 질문(쿼리)을 입력하면, 방대한 데이터에서 질문과 가장 관련성이 높은 상위 k개의 텍스트 조각(Top-k)을 선택한 후, 선택된 텍스트를 기반으로 AI가 답변을 생성하는 순서입니다. 이는 책에서 답을 찾는 과정에 비유할 수 있습니다. 예를 들어보겠습니다.

토익 영어 시험에서 3개의 지문이 나오고, 이 3개의 글을 모두 읽어야 문제를 풀 수 있다고 가정하겠습니다. Document Retrieval 구조는 질문과 직접 관련된 지문만 선택하기 때문에, 답에 필요한 다른 지문은 제외될 가능성이 큽니다. 하지만 답이 되는 정보가 제외된 글에 있으면 어떻게 될까요? 이 경우, 정확한 답변을 하기 어려워지겠지요.

이처럼, Document Retrieval 구조는 단순한 질문에 대한 응답에는 효과적이지만, 복잡한 문제를 해결하는 데는 한계가 있습니다.

왜 이런 문제가 생길까요?

  • Document Retrieval 구조는 질문과 가장 관련 있는 글만 찾아내도록 만들어져 있어요. 글과 글 사이의 연결 관계 즉, Passage 간 관계는 고려하지 않습니다.
  • 선택된 텍스트 조각(Top-k)에 포함되지 않은 지문에 더 중요한 정보가 있을 수 있지만, 이 정보는 AI가 인식하지 못합니다.
  • 그래서 여러 글이 함께 의미를 이루는 문제(3중 지문 문제 같은 상황)는 답변의 정확도가 떨어질 수 있습니다.

지식 그래프 활용의 필요성

Document Retrieval 구조는 AI가 한 권의 책에서 가장 중요한 한 페이지만 보고 답을 찾는 방식입니다. 하지만 그 답은 다른 페이지들에 있는 힌트를 모아야 찾을 수 있는 경우가 많습니다. 따라서 지식 그래프(Knowledge Graph)의 필요성이 강조됩니다.

지식 그래프는 데이터(문서, 텍스트 조각 등) 간의 연결 관계를 시각적으로 표현한 구조입니다. 각각의 데이터는 노드(Node)로, 노드 간의 관계는 엣지(Edge)로 연결됩니다. 이를 통해 AI는 문서 A와 문서 B가 어떤 주제로 연결되어 있는지, 문서 내 특정 정보가 다른 문서의 정보와 어떤 관계를 가지는지를 이해할 수 있습니다.

‘지식 그래프’가 왜 필요할까?

  1. 글 간의 연결성 파악
    • 예를 들어, 첫 번째 지문과 두 번째 지문이 연결되어 있고, 두 번째 지문과 세 번째 지문도 관계가 있다면, AI는 이 세 지문이 하나의 답을 구성하는 데 필요하다는 것을 이해합니다.
  2. 복잡한 문제 해결
    • 여러 텍스트 조각 간의 연관성을 통해 AI가 다양한 정보를 통합하여 더욱 정확한 답변을 생성할 수 있습니다.

Document Retrieval 구조는 책에서 가장 중요한 한 페이지만 보고 답을 찾으려는 것과 같습니다. 반면, 지식 그래프는 책의 여러 페이지가 서로 연결된 지도를 제공하여 AI가 전체 맥락을 이해하고 정확한 답을 찾을 수 있도록 돕습니다. 이를 통해 Document Retrieval 구조의 한계를 보완할 수 있습니다.

Indexing Strategy와 지식 그래프의 시너지

Indexing Strategy는 데이터를 검색하고 활용하기 쉽게 만드는 기술입니다. 이 과정에서 Multi-vector Indexing, Graph-based Chunking, Metadata Filtering과 같은 전략이 중요한 역할을 합니다. 이러한 전략들은 각각 독립적으로 동작하지만, 지식 그래프(Knowledge Graph)와 결합되었을 때 훨씬 더 강력한 도구로 기능합니다.

  1. 지식 그래프는 데이터 간의 연결성을 제공하여 Multi-vector Indexing과 Graph-based Chunking이 생성한 정보를 더 효과적으로 활용할 수 있도록 돕습니다.
  2. Metadata Filtering은 지식 그래프의 계층적 구조를 활용하여, 사용자가 원하는 데이터를 빠르게 검색하고 정확히 응답할 수 있습니다.
  3. 최종적으로, 지식 그래프는 이 모든 과정을 통합된 맥락과 의미로 연결하여, 단순 검색을 넘어선 통합적이고 종합적인 검색 결과를 제공합니다.

데이터 간의 연결 관계를 이해하고 활용하는 것은 더 정교하고 신뢰할 수 있는 AI 응답을 만드는 데 핵심적인 요소입니다. 청킹 자동화와 지식 그래프는 기존 검색 방식의 한계를 보완하며, RAG의 가능성을 한층 더 확장시킵니다. 더 깊이 있는 맥락을 이해하고, 복잡한 문제에도 정확한 답변을 제공하는 LLM이 필요하시다면, 언제든 셀렉트스타를 찾아주세요!

Your AI Data Standard

라이선스 해결된 데이터셋 구매
인공지능 도입 및 데이터 구축
Related Posts