AI 기술을 개발하는 데 있어 가장 중요한 것은 바로 ‘고품질 학습 데이터’입니다. 아무리 뛰어난 AI 알고리즘을 개발하더라도, 데이터가 부족하거나 정제되지 않았다면 성능이 기대만큼 나오지 않겠죠. 그래서 많은 기업들이 AI 도입의 첫 단계에서 ‘데이터’ 문제로 고민합니다. “어떤 데이터를, 어떻게 구축해야 하지?”...
AI 기술을 도입하고 싶은 기업이라면, 가장 먼저 고민하는 것이 ‘데이터 구축 비용’입니다. AI 모델을 개발하려면 방대한 학습 데이터가 필요한데, 고품질 데이터를 수집하고 정제하는 데 드는 비용과 시간은 결코 만만치 않죠. 하지만 다행히도 기업이 AI 학습 데이터를 무료로 확보할 수 있는...
지난 10일, 오픈AI의 샘 올트먼이 <Three Observations(세 가지 관찰)>라는 제목으로 블로그 글을 올렸습니다. 올트먼은 AGI(Artificial General Intelligence, 범용 인공지능)에 가까워지는 시대에 대해 이야기하며 AGI가 가져올 경제적, 사회적 변화에 대해 이야기합니다. 올트먼이 말하는 AGI 올트먼은 아래 문장으로 글을 시작합니다. Out mission is...
임베딩 튜닝이란? RAG는 데이터를 기반으로 AI가 사용자 질문에 맞는 적절한 답변을 생성이 가능하지만 기본적인 RAG 알고리즘만으로는 질문과 답변 청크 간 매칭 문제가 발생할 수 있습니다. 이는 특히 질문이 짧고, 답변 청크가 길 경우 더욱 두드러지게 나타납니다. 이를 해결하기 위해 임베딩...
설 연휴 동안 전 세계를 뒤흔든 뉴스가 있습니다. 바로 중국의 AI 스타트업 DeepSeek(딥시크)가 출시한 LLM 모델인 R1의 출시 소식인데요. R1은 단지 성능이 뛰어난 것뿐만 아니라, 경쟁사들에 비해 낮은 비용으로 개발되었습니다. 게다가 무료로 공개되었지요. 샘 올트만은 경쟁을 의식한 듯, R1은 ‘특히나...
문서 검색에서 Dense Passage Retrieval(DPR) 방식은 오랜 기간 동안 효과적인 검색 메커니즘으로 자리 잡아 왔습니다. 하지만 복잡한 질문이나 대규모 문서 데이터셋에서는 그 한계가 분명하게 나타납니다. 이러한 한계를 해결하기 위해 등장한 것이 RAPTOR (Recursive Abstractive Processing for Tree-Organized Retrieval) 방식입니다. RAPTOR와...
효과적으로 데이터를 검색하고 활용하려면 단순히 많은 정보를 찾기보다는 각 정보 간의 연결 관계를 이해해야 합니다. 오늘은 RAG를 위한 데이터 구조화 기술의 핵심인 청킹 자동화와 그래프 기반 데이터 연결을 중심으로, 기존 Document Retrieval 구조의 한계와 이를 극복하기 위한 지식 그래프(Knowledge Graph)에 대해...
전 세계적으로 의과대학은 왜 유독 과정이 길까요? 아마도 공부해야 할 양이 상당하기 때문일 텐데요. 의료는 복잡한 관계와 수많은 변수를 다루며, 그 안에서 정확하고 신뢰할 수 있는 결정(decision)을 내려야 합니다. 게다가 의료 정보는 방대할 뿐만 아니라 서로 다른 논문과 데이터베이스에 흩어져...
청킹된 데이터를 효과적으로 검색하기 위해서는 인덱싱(Indexing)이 필수입니다. 인덱싱이란 청킹한 데이터를 효율적으로 검색할 수 있도록 데이터베이스에 저장하는 과정을 말합니다. 인덱싱된 데이터는 검색 쿼리와의 유사도를 계산해 적절한 데이터를 빠르게 검색하는 데 도움을 주고, 복잡한 검색 요청에도 정확하고 신속하게 답변할 수 있는 인프라를...
RAG (Retrieval-Augmented Generation)는 AI의 더욱 정교한 응답을 가능하게 하는 중요한 기술로 자리 잡았습니다. 특정 도메인의 전문 지식을 활용해 맞춤형 응답을 생성하는 데 탁월하기 때문인데요. 이 과정에서 가장 중요한 점은 데이터를 구조화하고 효율적으로 검색하는 것입니다. 이번 글에서는 RAG의 데이터 구조화에 필수적인...