DS-STAR, 데이터 사이언티스트 AI

DS-STAR, 데이터 사이언티스트 AI

데이터와 자유롭게 대화할 수 있다면 어떨까요?

AI가 데이터 뭉치를 자유롭게 검색하고 분석해, 복잡한 인사이트도 알아서 도출해 자연어로 답변해 줄 수 있다면요. 구글 클라우드와 KAIST 공동 연구팀은 최신 논문 〈DS-STAR: Data Science Agent via Iterative Planning and Verification〉에서 데이터 사이언티스트 역할을 노리는 LLM 기반 에이전트를 소개합니다. 물론 아직 발전이 더 필요하지만, 기존 모델 성능을 모두 이기는 SOTA를 달성했는데요. 함께 알아볼까요? 🚀

데이터 분석, LLM만으론 부족한가?

최신 챗GPT나 제미나이, 클로드 등이 뛰어난 성능을 자랑하고 있지만, 데이터 과학은 여전히 AI가 가장 어려워하는 영역입니다. CSV, JSON, 텍스트, 마크다운 등 이질적인 데이터 형식을 동시에 다뤄야 하고, 탐색→정제→시각화→모델링이라는 논리적 절차를 거쳐야 하며, 결과의 의미를 해석해야 하기 때문이지요.

데이터 사이언티스트의 전반적인 업무. 출처: 구글.

데이터 사이언티스트의 전반적인 업무. 출처: 구글.

기존에도 AutoGen이나 Data Interpreter와 같은 데이터 분석 에이전트는 존재했는데요. 대부분 아래 한계를 넘지 못했습니다.

  1. 정형 데이터에 한정: JSON·텍스트·마크다운 등 비정형 데이터 미처리
  2. 결과 검증 부재: <코드 실행 성공=정답>으로 단순 판정
  3. 실패 시 재계획 불가: 오류 발생 시 바로 종료

결과적으로 정확도는 30~40%대에 머물렀고, AI가 실제로 데이터를 '이해하며 일한다'고 보기는 어려웠습니다.

오늘의 스타, DS-STAR 등장

DS-STAR는 반복적인 계획과 검증을 통해 다양한 데이터 소스를 포함하는 복잡한 분석을 안정적으로 수행하는 것을 목표로 합니다. 이를 위해 연구진은 LLM 하나가 모든 일을 처리하는 대신, 여러 개의 전문 에이전트가 역할을 분담해 협업하는 구조를 도입했습니다. 가창력이 뛰어난 가수끼리 모여 노래 부르는 영상에 '교수님들끼리 조별 과제한다'는 댓글, 종종 보셨지요? DS-STAR도 각 분야 '교수님'들이 모여 데이터를 분석한다고 생각할 수 있습니다. 

DS-STAR 개요. 각 에이전트가 하는 일과 흐름을 볼 수 있다. 출처: 구글.

DS-STAR 개요. 각 에이전트가 하는 일과 흐름을 볼 수 있다. 출처: 구글.

<분석 / 계획 / 실행 / 검증 / 개선 🔁>

DS-STAR는 원하는 결과가 나올 때까지 위 루프를 반복해서 돕니다. 실패했다고 끝나지 않고, 부족하면 다시 처음으로 돌아가서 더 나은 계획을 짜지요. 협업 순서대로, 각 에이전트의 역할을 간단하게 살펴볼까요?

  • 데이터 리서처(Analyzer):
    모든 데이터 파일을 샅샅이 뒤져서 데이터를 분석하고 이해한다.
  • 기획자(Planner):
    데이터 리서처가 정리한 정보를 보고, 분석 계획을 짠다.
  • 엔지니어(Coder):
    수립된 계획에 따라 실제 코드를 작성해 문제를 해결한다.
  • QA 담당자(Verifier):
    결과물에 질문을 던져, 정말 유효한 답인지 확인한다. 만약 문제가 해결되지 않았다면?
  • 감독관(Router):
    새로운 단계를 추가하거나, 이전 단계를 수정하는 등, 문제를 해결하기 위한 개선점을 찾는다.

결과가 불충분할 때, Router를 거치는 루프는 최대 20회까지 반복되는데요. 이 구조가 바로 DS-STAR를 다른 에이전트와 차별화시키는, '계획·검증 반복 루프' 입니다. DS-STAR는 평균적으로 쉬운 과제는 3회, 어려운 과제는 5.6회 반복한 끝에 수렴했는데요. 반복이 늘어날수록 정확도는 선형적으로 증가했습니다.

반복(Refinement) 횟수에 따른 성능 변화. 출처: 구글.

반복(Refinement) 횟수에 따른 성능 변화. 출처: 구글.

가장 빠른 AI 뉴스

시험 기준과 결과를 알아보자

연구진은 DS-STAR를 DABStep, KramaBench, DA-Code, 세 가지 대표 벤치마크에서 검증했습니다. 각 벤치마크를 간단하게 살펴보겠습니다.

DABStep(Data Analysis Benchmark with Stepwise Evaluation)


AI가 여러 개의 데이터 파일을 단계적으로 분석해 실제 과제의 답을 낼 수 있는지를 평가하는 벤치마크입니다. 단계별 추론을 요구하지요. 각 문제는 3~7개의 서로 다른 형식의 파일(CSV, JSON, Markdown, TXT 등)로 이루어져 있는데요. 파일 안에는 통계 데이터, 로그, 설명 문서 등이 섞여 있어서 단순 SQL 질의나 한 줄 코드로는 해결이 불가능합니다.

DABStep 벤치마크로 테스트한 결과. 출처: 구글.

KramaBench


AI 에이전트가 ‘어떤 파일이 문제 해결에 필요한가’를 스스로 찾아낼 수 있는지를 평가하는 벤치마크입니다. 거래내역, 고객정보, 정책 문서 등 실제 기업이나 산업 데이터를 모방한 파일이 최대 1,500여 개까지 존재하는 디렉토리를 주고, AI가 찾게 만드는 테스트지요. 질문에 대한 정답은 여러 파일 중 3~4개 안에만 존재해, 에이전트의 데이터 탐색 능력을 확인할 수 있습니다.

DA-Code(Data Analysis – Code Benchmark)


단순히 데이터를 요약하거나 집계하는 수준을 넘어, ‘AI가 코드를 이용해 하나의 완전한 분석 파이프라인을 짤 수 있는가?’를 평가합니다. 주어진 데이터는 대부분 CSV나 JSON 등 정형 데이터이고, 각 문제에는 명확한 분석 목표가 주어집니다. 예를 들면 이렇게 말이지요:

►house.csv 데이터를 이용해 주택 가격을 예측하는 회귀(regression) 모델을 만들어라.
►customer.csv 데이터를 분석해 구매 패턴을 시각화하고, 주요 인사이트를 설명하라.
►sales.csv의 변수들 간 상관관계 히트맵(correlation heatmap) 을 그려라.

각 벤치마크에서, DS-STAR는 어떤 결과를 보였을까요?

DS-STAR 벤치마크 결과

DS-STAR는 세 벤치마크 모두에서 SOTA를 달성했습니다! 그 중에서도 KramaBench에서 정확도가 39.8%에서 44.7%로 4.9% 상승하며 가장 큰 향상폭을 기록했는데요. 다중 파일과 비정형 데이터를 포함한 DABStep Hard 과제에서도 4.2% 개선을 보였습니다. 

DS-STAR의 핵심 요소

DS-STAR가 성능에 가장 큰 영향을 미친 요소는 무엇이었을까요? 

연구진은 각 모듈을 제거하거나 교체해 보며 어떤 요소가 성능을 결정하는지 실험했는데요. 결과를 살펴보겠습니다.

DS-STAR 제거 테스트 결과. 출처: 구글.

DS-STAR는 DABStep 벤치마크 기준, 어려운 과제에서 45.24% 정확도로 문제를 해결했는데요. Analyzer를 제거하자, 어려운 과제 정확도가 45.24%에서 26.98%로, 18% 하락했습니다. 데이터 파일을 요약하고 분석해 Planner에 전달하는 과정이 빠지자, DS-STAR가 파일 구조를 이해하지 못하고 엉뚱한 코드를 생성했지요.

이번에는 Router를 제거하자, 성능이 5% 하락했는데요. 결과가 만족스럽지 않아도 Router가 없으면 단계를 삭제하지 못하고 계속 추가만 하게 되어, 루프가 점차 무너진 탓입니다.

바로 위 제거 테스트 결과를 보면, DS-STAR의 기반 LLM을 GPT-5로 교체했을 때 성능은 기존과 크게 차이가 나지 않습니다. DS-STAR의 성능은 모델의 능력보다는 Analyzer와 Router 구조에서 기인한다고 볼 수 있는데요. 가지고 있는 능력보다 분석하고 개선하는 습관이 더 중요한 영향을 미친다니, 어쩐지 삶에 대한 태도를 돌아보게 만듭니다. 

 

✋🏼잠깐, 셀렉트스타도 AI 에이전트를 활용하고 있어요!

AI 에이전트 활용한 AI 평가

셀렉트스타는 AI 안전성 평가 플랫폼인 다투모 이밸에 AI 에이전트를 활용했습니다. 덕분에 안전한 AI인지 테스트하기 위한 평가용 데이터를 자동으로 생성하고 있는데요. 원하는 지표에 맞춰 원하는대로, 원하는만큼 AI를 테스트하고 결과를 분석하고 싶다면 셀렉트스타를 찾아주세요! 

 
🚀신뢰성 컨설팅 알아보기

Your AI Data Standard

라이선스 해결된 데이터셋 구매
인공지능 도입 및 데이터 구축
Related Posts