데이터 구조화가 중요한 이유

데이터 구조화가 중요한 이유

데이터 구조화란 무엇일까요?

지난 아티클에서 LLM 학습을 위한 새로운 접근법으로 RAG에 대해 알아보았는데요. RAG는 오픈북 테스트처럼 외부의 데이터를 활용해 모델이 필요한 정보를 찾아 답변을 생성하는 방식입니다. RAG의 성능은 데이터를 얼마나 효과적으로 구조화하느냐에 따라 크게 달라집니다. 데이터 구조화는 모델이 적절한 정보를 빠르고 정확하게 검색하고 활용할 수 있도록 데이터를 정리하는 작업입니다. 좀더 자세히 볼까요?

RAG의 데이터 구조화가 중요한 이유

구조화되지 않은 데이터의 한계


데이터가 정리되지 않은 상태에서는 LLM이 유의미한 결과를 생성하기 어렵습니다. 예를 들어, 회사의 내부 문서가 PDF, 엑셀, 텍스트 파일 등 다양한 형식으로 존재한다면 이를 구조화하지 않고 바로 사용하는 것은 비효율적일 뿐만 아니라 잘못된 답변을 유발할 가능성이 큽니다.

구조화된 데이터의 장점


구조화된 데이터는 질문과 연관된 데이터를 빠르게 찾을 수 있고, 적합한 정보를 선별하여 활용할 수 있기 때문에 정확성이 향상됩니다. 또한, 데이터 업데이트가 필요한 경우에 기존 구조를 유지하면서 변경이 가능하기 때문에 유지보수에도 용이합니다.

데이터 구조화 과정

RAG에서 데이터 구조화는 크게 청킹(Chunking)임베딩(Embedding) 두 단계로 나뉩니다.

  1. 청킹: 데이터를 작은 단위로 쪼개기

    청킹은 문서나 데이터를 의미 단위로 나누어 검색과 활용이 용이하도록 만드는 과정입니다. AI가 이해하기 쉽도록 PDF, 엑셀 등의 형태로 저장된 자료를 작은 조각들로 쪼개는 과정이 필요합니다. 이런 청킹 과정이 잘 수행되어야 검색 정확도와 답변의 품질이 높아질 수 있습니다.

  2. 임베딩: 데이터를 숫자로 변환

    모든 AI 모델은 숫자 데이터를 기반으로 동작하기 때문에, 텍스트 데이터를 숫자로 변환하는 임베딩 과정이 필요합니다. 예를 들면 “에베레스트”라는 텍스트는 [0.23, -0.11, 0.98] 같은 숫자의 묶음(벡터)으로 변환할 수 있습니다. 이렇게 숫자로 바꾼 데이터는 백터 데이터베이스에 저장됩니다.

    • 벡터 데이터베이스와 검색

      질문이 입력되면 질문도 임베딩되어 숫자로 바뀌게 되고, 저장된 벡터와 질문 벡터를 비교해 가장 비슷한 데이터를 찾게 됩니다. 비교는 주로 코사인 유사도 같은 방법으로 이루어지는데, 1에 가까울수록 유사도가 높은 데이터로 해당 벡터를 바탕으로 AI가 답변을 만들게 됩니다.

따라서 데이터 구조화가 잘되어 있을 수록 AI가 더 정확하고 빠르게 답을 해줄수 있답니다.

데이터 구조화 방식에 따른 trade-off

  • 짧은 문단 vs 긴 문단

    • 짧은 문단으로 나누면 질문과 관련된 특정 정보를 더 정확하게 찾을 가능성이 높다는 장점이 있지만, 너무 잘게 나누면 정보를 연결해서 이해하기 어렵거나 시간이 더 걸린다는 단점이 있습니다.
    • 반대로 긴 문단으로 나누면 정보를 통째로 제공할 수 있어 맥락 파악이 쉽다는 장점이 있지만, 질문과 관련 없는 정보도 같이 나와서 정확도가 떨어질 수 있다는 단점도 있습니다.

  • 문서 특성에 맞춘 구조화

    “대출 금리에 영향을 미치는 요소는 무엇인가요?”라는 질문이 들어왔다고 가정해 보겠습니다.

    이때, 문서를 짧게 쪼개서 금리 관련 정보가 여러 조각으로 흩어져 있으면, AI가 중요한 정보를 놓칠 가능성이 있습니다. 반대로, 문서를 하나로 묶어두면 금리와 관련된 모든 정보를 한꺼번에 가져와서 정확한 답을 줄 수 있죠. 이와 같이 문서 내용과 특성에 따라 가장 적합한 구조화 방식이 필요합니다.

  • 구조화의 방식과 컨설팅
    • 구조화 방식은 문서의 특성과 고객사의 필요에 따라 달라지는데, AI를 도입하려는 고객에게 “이 문서는 이렇게 나누는 게 좋아요.” “이 방식으로 구조화하려면 비용이 얼마 정도 들고, 작업 시간은 얼마나 걸릴 거예요.” 등의 맞춤형 컨설팅을 제공이 필요한 이유입니다.

RAG는 단순한 AI 활용을 넘어, 특정 도메인의 전문 지식과 AI를 결합하는 강력한 도구로 자리잡고 있습니다. 그러나 이 모든 과정은 데이터를 얼마나 효과적으로 구조화하느냐에 따라 성패가 갈리죠.

다음 편에서는 RAG를 위한 데이터 청킹 전략과 실제 활용 사례에 대한 내용을 전달해 드릴 예정입니다. 특히, AI 성능을 끌어올리는 Agentic Chunking과 그래프 기반 구조화의 구체적인 접근법을 가지고 돌아오겠습니다.

Your AI Data Standard

라이선스 해결된 데이터셋 구매
인공지능 도입 및 데이터 구축
Related Posts