AI 초지능을 향하는 마이크로소프트

AI 초지능을 향하는 마이크로소프트

AI 개발이 본격적으로 대두되기 시작하면서, ‘AI가 의사를 대체할까?’라는 질문은 항상 존재했습니다. 하지만 본질은 단순 직업 교체가 아닙니다. 실제 우리가 답이 필요한 질문은 바로,

AI가 실제 임상 환경에서 의사보다 더 정확하고 효율적으로 진단을 내릴 수 있을까?

마이크로소프트 초지능

출처: 마이크로소프트

마이크로소프트 AI 팀은 최근 이 질문에 대해 확실하게 “예"라고 대답하는데요. 그 중심에는 두 가지 핵심 기술이 있습니다.

  1. SDBench (Sequential Diagnosis Benchmark)
  2. MAI-DxO (Microsoft AI Diagnostic Orchestrator)

마이크로소프트는 SDBench와 MAI-DxO를 결합해, 실제 진료처럼 사고하고 판단하는 AI 진단 시스템을 구성했습니다. 이 시스템은 인간 전문가를 능가하는 성과를 내며, ‘좁은 의미의 초지능*(narrow superintelligence)’이 어떻게 현실화될 수 있는지를 보여주는 첫 실험적 구현이라고 볼 수 있습니다.

*초지능은 인간 전문가를 능가하는 문제 해결 능력을 가진 AI를 뜻한다.

SDBench: 진단을 ‘진짜처럼’ 평가하다

최근까지 대부분의 의료 AI 연구는 미국 의사 면허 시험이나 다분야 지식 평가 AI 벤치마크인 MMLU 같은 객관식 기반 정적(static) 벤치마크에 의존했습니다. 이러한 문제는 기억 기반 지식에 유리하지만, 진짜 임상에서 벌어지는 순차적 추론 과정과는 거리가 멀지요.

실제 진단은 정해진 답변이 있는 게 아니라, 환자의 초기 증상에서 출발해,

  • 질문을 던지고,
  • 검사 결과를 받고,
  • 정보를 업데이트하며
  • 점진적으로 진단에 도달하는,
 
비선형적 추론 과정인데요. 이 현실을 반영한 벤치마크가 바로 SDBench입니다. 마이크로소프트는 세계 최고 의학 저널인 New England Journal of Medicine(NEJM)의 사례 304건을 바탕으로, 단계적 진단 시뮬레이션 벤치마크를 구축했습니다.

SDBench는 기존과 달리 다음과 같은 구조를 갖는데요:

  • 정보는 질문하거나 검사를 요청해야만 얻을 수 있다.
  • 모든 검사와 방문에는 가상의 비용이 부과된다.
  • 진단 정확도뿐 아니라 ‘비용 효율성’도 평가된다.
 

실제 임상처럼, AI와 의사 모두 제한된 정보 속에서 능동적으로 추론, 선택, 판단을 해야 했습니다. 이러한 시뮬레이션은 내부적으로 세 개의 AI 에이전트(Gatekeeper, Diagnostic, Judge)가 상호작용하면서 이루어지는데요. 각자 어떤 역할을 하는 걸까요?

SDBench

LLM의 다양한 표현에 따른 모습과, 그를 바라보는 인간. 출처: 조앤의 블로그

  • Gatekeeper agent: 진료 상황을 조율하는 중재자로서, Diagnostic agent의 질문이나 검사 요청에 대해 어떤 정보를 얼마만큼 제공할지를 결정
  • Diagnostic agent: 실제로 진단 추론을 수행하며, MAI-DxO 시스템이 연결되는 주요 실행 주체
  • Judge agent: 최종 진단 결과가 NEJM 사례의 정답과 일치하는지를 평가

SDBench는 정답 비교와 더불어, 정보 접근의 제약, 추론의 과정성, 채점의 공정성을 모두 반영한 임상적 평가 프레임워크로 작동합니다.

가장 빠른 AI 뉴스

MAI-DxO: 오케스트레이션 기반 의료 AI의 등장

SDBench 위에서 작동하는 MAI-DxO는 단일 모델이 아닙니다. 마이크로소프트는 하나의 언어 모델을 다섯 명의 가상 의사 역할로 분리해 협업적 추론을 수행하게 했는데요. 

각 역할은 다음과 같습니다:

  • Dr. Hypothesis: 진단 가설을 유지하며 확률 업데이트
  • Dr. Test-Chooser: 정보이득 최대화하는 검사 선택
  • Dr. Challenger: 진단 편향을 감지하고 반론 제시
  • Dr. Stewardship: 검사 비용과 자원 효율성 관리
  • Dr. Checklist: 일관성과 포맷 검증

이 역할들은 매 진단 단계마다 내부 ‘회의’를 거쳐 다음 행동을 결정합니다. MAI-DxO는 단순한 프롬프트 체인이 아닌, 조율된 멀티에이전트 시스템, 즉 지능 설계의 진화된 형태라고 볼 수 있지요.

MAI-DxO의 개요. 출처: 마이크로소프트

MAI-DxO의 개요. 출처: 마이크로소프트

SDBench에서의 MAI-DxO 성과는 어떨까요?

AI 진단 시스템들의 정확도와 평균 검사 비용 비교. 출처: 마이크로소프트

그래프 왼쪽 위에 위치할수록 높은 진단 정확도와 낮은 비용을 의미합니다. 붉은 [+] 표시는 실제 의사들의 평균 성능, 점선은 단일 LLM들의 성능 범위를 나타내지요. 보라색 선은 MAI-DxO의 다양한 설정이 달성한 비용과 정확도 균형을 보여줍니다. 마이크로소프트의 MAI-DxO 시스템은 전문가 평균의 4배 이상의 정확도와, 비용과 효율성 면에서도 경쟁상대를 능가하는 모습입니다.

하지만 이 연구는 아직 초기 단계의 실험으로, 분명한 한계가 존재합니다. 사용된 NEJM 사례들은 일반 환자보다는 복잡하고 특수한 교육용 케이스들이며, 비교 대상인 의사들도 팀이나 자료 없이 제한된 시간에 혼자 복잡한 진단을 수행해야 했습니다. 현실에서는 동료와 상담하거나 정보를 검색하는 등 좀더 다양한 도움을 받을 수 있기 때문에 이번 실험 결과는 AI와 완전히 공정한 비교라 보기는 어렵지요. 또한 MAI-DxO가 보여준 ‘비용 효율성’은 실제 의료 현장의 다층적인 비용 구조와는 차이가 있을 수 있습니다.

마이크로소프트 AI의 CEO 무스타파 슐레이만(Mustafa Suleyman)은 '이번 연구는 길고도 흥미로운 여정의 첫걸음에 불과하다'고 말합니다.

초지능은 갑자기 등장하지 않습니다. 좁은 도메인에서 전문가를 능가하는 시스템이 축적되며 출현하지요. MAI-DxO는 아직 실제 의료 현장에서 바로 적용될 수 있는 시스템은 아니지만, 인간처럼 질문하고, 판단하고, 실수를 줄이며, 비용까지 고려하는 AI가 어떻게 설계될 수 있는지를 처음으로 보여준 사례입니다. 초지능이 그렇게 멀지 않게 느껴집니다.

Your AI Data Standard

라이선스 해결된 데이터셋 구매
인공지능 도입 및 데이터 구축
Related Posts