엔비디아의 Cosmos 3를 알아보자

 엔비디아의 Cosmos 3를 알아보자

엔비디아 CEO 젠슨 황이 다시 한국을 찾았습니다. 프로게이머 페이커와의 만남부터 유퀴즈 출연까지, 다양한 화제를 일으키고 돌아갔는데요. 그는 떠나기 전, "로보틱스는 한국의 다음 주요 산업이 될 것이며, 한국이 AI에 투자할 큰 기회"라는 취지의 메시지를 전했습니다.

실제로 엔비디아는 피지컬 AI와 관련된 다양한 연구를 진행하고 있습니다. 특히 최근에는 Cosmos 3라는 옴니모달 월드모델을 공개하며 피지컬 AI 전략을 구체화하는 모습을 보였는데요. 새롭게 공개한 Cosmos 3를 함께 살펴볼까요?

왜 또 다른 월드 모델이 필요한가

여러 피지컬 AI 모델을 하나로 묶은 Cosmos 3. 출처: 엔비디아

여러 피지컬 AI 모델을 하나로 묶은 Cosmos 3. 출처: 엔비디아

덕분에 Cosmos 3는 일반적인 비디오 생성 모델과 구분됩니다. 비디오 생성 모델은 프롬프트에 맞는 그럴듯한 영상을 만드는 데 초점을 두는 반면, Cosmos 3는 '어떤 행동을 했을 때 세계가 어떻게 변하는가'를 함께 모델링하려 하지요. 로봇이 손을 뻗으면 컵이 어떻게 움직일지, 차량이 차선을 바꾸면 주변 장면이 어떻게 전개될지, 카메라가 특정 방향으로 이동하면 영상이 어떻게 바뀔지를 행동 데이터와 함께 학습하는 방식입니다. 이처럼 Cosmos 3는 장면 이해, 생성, 행동 예측을 하나의 모델 구조 안에서 연결하려는 모델이라고 볼 수 있습니다

Cosmos 3는 어떻게 작동할까?

Cosmos 3는 Mixture-of-Transformers(MoT) 구조를 중심으로 이루어집니다. 하나의 모델 안에 장면을 이해하고 추론하는 흐름과 이미지, 비디오, 오디오, 행동을 생성하는 흐름을 함께 둔 구조이지요.

Cosmos 3의 MoT 구조. 출처: 엔비디아

Cosmos 3의 MoT 구조. 출처: 엔비디아

먼저 Reasoner는 텍스트와 이미지, 비디오를 보고 장면의 의미를 파악합니다. 무엇이 보이는지, 객체들이 어떤 관계를 맺고 있는지, 사건이 어떤 순서로 일어나는지 판단하는데요. 일반적인 VLM이 수행하는 역할과 비슷합니다. Generator는 그 이해를 바탕으로 이미지, 비디오, 오디오, 행동을 생성합니다. 텍스트로 이미지를 만들 수도 있고, 이미지 한 장을 영상으로 확장할 수도 있으며, 행동이 주어졌을 때 그 이후의 장면을 예측할 수도 있습니다. 반대로 장면의 변화를 보고 어떤 행동이 있었는지 추론하는 것도 가능하지요.

이 두 흐름은 따로 떨어져 있지 않습니다. Reasoner가 장면과 프롬프트를 이해하고, Generator는 그 문맥을 참조해 결과를 만들지요. Cosmos 3는 장면 이해와 생성, 행동 예측이 같은 표현 위에서 연결되도록 만든 모델에 가깝습니다.

행동과 시간을 함께 다루는 모델

Cosmos 3에서 가장 중요한 변화는 행동을 하나의 데이터 형식으로 모델 안에 넣었다는 사실입니다. 여기서 행동은 사람이 자연어로 내리는 명령이 아니라, 로봇 팔의 위치 변화, 그리퍼가 열리고 닫히는 상태, 차량의 이동 궤적, 카메라가 움직인 방향처럼 물리적 세계를 실제로 바꾸는 신호를 의미하는데요. 로봇, 차량, 카메라, 사람의 움직임은 모두 다른 방식으로 표현됩니다. 로봇은 관절이나 손끝 위치로, 차량은 주행 궤적과 방향 변화로, 카메라 모션은 카메라의 위치와 회전으로, 사람의 움직임은 머리와 손의 움직임으로 나타납니다.

Cosmos 3는 이런 서로 다른 행동 데이터를 공통된 방식으로 다루기 위해 몇 가지 구성요소로 나눕니다. 관찰 주체 자체의 움직임은 ego pose로, 실제 조작을 수행하는 부위의 움직임은 effector pose로, 물체를 잡는 상태는 grasp state로 표현하는데요. 예를 들어 차량이나 카메라의 이동은 ego pose에 가깝고, 로봇 팔이나 손목의 움직임은 effector pose에 가깝습니다. 또, 그리퍼가 열렸는지 닫혔는지는 grasp state로 볼 수 있습니다.

Cosmos 3의 행동 데이터 구분. 출처: 엔비디아

Cosmos 3의 행동 데이터 구분. 출처: 엔비디아

이렇게 정리하면 서로 다른 종류의 피지컬 AI 데이터를 하나의 모델이 함께 학습할 수 있습니다. 자율주행 데이터, 로봇 조작 데이터, 카메라 모션 데이터, 사람의 손 움직임 데이터가 형식은 다르더라도 모두 '세계의 상태를 바꾸는 행동'으로 모델 안에 들어갈 수 있게 되지요.

피지컬 AI에서는 시간 또한 중요한 요소입니다. 로봇이 어떤 행동을 했고, 그 직후 장면이 어떻게 바뀌었는지를 정확히 연결하려면 행동과 비디오 변화가 같은 시간축 위에 놓여야 하기 때문이지요. 행동과 결과의 시간 관계가 흐트러지면, 모델은 '무엇이 무엇을 일으켰는지'를 제대로 배우기 어렵습니다.
 
다만 문제는 비디오, 오디오, 행동 데이터가 서로 다른 시간 단위로 기록된다는 점입니다. 비디오는 초당 24장이나 30장의 프레임으로 구성되고, 오디오는 훨씬 촘촘한 단위로 처리되며, 로봇의 행동 데이터는 또 다른 제어 주기를 가지지요. Cosmos 3는 이런 차이를 반영해 각 토큰이 실제 시간상 어느 위치에 해당하는지 조정하고, 비디오와 오디오, 행동 데이터를 같은 물리적 시간축 위에 맞추려 합니다.

Cosmos 3의 좌표 할당 방식. 오디오와 행동은 주로 시간 좌표에 맞춰 정렬한다. 출처: 엔비디아

Cosmos 3의 좌표 할당 방식. 오디오와 행동은 주로 시간 좌표에 맞춰 정렬한다. 출처: 엔비디아

가장 빠른 AI 뉴스

Cosmos 3의 모델 규모와 학습 데이터

Cosmos 3는 Edge, Nano, Super 세 가지 크기로 설계됐습니다. Edge는 4B, Nano는 16B, Super는 64B 파라미터 모델입니다. 이 모델들은 크게 이해를 위한 데이터와 생성을 위한 데이터를 나눠 학습하는데요. 장면을 이해하고 추론하는 부분은 이미지-텍스트, 비디오-텍스트, 텍스트 단독 데이터를 사용합니다. 이후 로봇, 자율주행, 스마트 인프라처럼 피지컬 AI와 직접 관련된 영역의 데이터로 추가 학습을 진행합니다.

생성을 담당하는 부분은 훨씬 큰 규모의 데이터를 사용하는데요. 논문에 따르면 시각 생성 사전학습에는 7억 6,700만 장의 이미지와 3억 4,770만 개의 비디오 클립이 사용됐습니다. 오디오가 포함된 비디오 데이터도 대규모로 활용됐고, 행동 데이터는 사람의 1인칭 움직임, 로봇 조작, 자율주행, 카메라 모션을 포함합니다. 또 행동 학습에 사용된 데이터는 840만 개 에피소드, 6만 1,300시간 규모로 제시됩니다.

Cosmos 3의 학습 데이터 구성. 출처: 엔비디아.

Cosmos 3의 학습 데이터 구성. 출처: 엔비디아

데이터 구성이 이렇게나 큰 이유는 Cosmos 3가 단순히 이미지를 잘 만들기 위한 모델이 아니기 때문입니다. 피지컬 AI 모델은 장면이 어떻게 생겼는지뿐 아니라, 시간이 지나며 어떻게 변하는지, 어떤 행동이 어떤 결과를 만드는지를 배워야 합니다. 그렇기 때문에 이미지와 비디오뿐 아니라 오디오, 행동, 합성 시뮬레이션 데이터까지 함께 사용해 장면의 변화와 행동의 결과를 학습하도록 설계한 것이지요.

연구진은 Cosmos 3가 여러 이해, 생성, 그리고 행동 모델링 평가에서 강한 성능을 보였다고 보고하지만, 실제 적용까지는 안정성을 비롯해 지연 시간, 비용, 안전 검증 등 확인해야 할 과제가 남아 있습니다. 특히 로봇이나 자율주행처럼 현실 세계와 연결되는 시스템에서는 논문 속 성능이 실제 환경에서도 그대로 이어지는지 별도로 검증해야 하지요.

다만 Cosmos 3의 방향성에는 주목할 필요가 있습니다. 이번 연구의 의미는 모든 단일 작업에서 최고 성능을 내는 데 있다기보다, 피지컬 AI에 필요한 여러 능력을 하나의 모델 안에 묶으려 했다는 데 있기 때문입니다. 피지컬 AI에서는 한 가지 능력만 뛰어난 모델보다, 보고 이해하고 예측하고 행동하는 능력이 일정 수준 이상 함께 맞물리는 것이 중요한데요. Cosmos 3는 피지컬 AI 모델이 그런 방향으로 이동하고 있음을 보여줍니다.

Your AI Data Standard

라이선스 이슈 없는 데이터셋 구매
우리 조직에 맞는 AI 구축 방식이 궁금하신가요?
Related Posts