Gemini Robotics 소개: Gemini 2.0 기반 로봇 전용 모델

Gemini Robotics 소개: Gemini 2.0 기반 로봇 전용 모델

구글 딥마인드 블로그에 올라온 글을 번역 및 편집한 글입니다. 

AI가 디지털을 넘어 물리 세계로 확장됩니다. Google DeepMind는 텍스트, 이미지, 오디오, 비디오를 넘나드는 멀티모달 추론을 통해 Gemini 모델의 가능성을 끊임없이 확장해왔습니다. 그러나 지금까지 이 혁신은 주로 디지털 세계에 머물러 있었습니다.

이제, 인공지능은 인간처럼 세상을 이해하고, 반응하며, 행동하는 능력, 즉 Embodied Reasoning(AI가 사람처럼 주변 세계를 감각하고, 신체를 통해 반응하며 추론하는 능력)을 통해 물리적 현실에 뛰어듭니다.

Gemini 2.0을 기반으로 한 두 가지 새로운 AI 모델을 소개합니다. 로봇의 눈과 손이 되어주는 Gemini Robotics, 그리고 고급 공간 인식과 추론 능력을 갖춘 Gemini Robotics-ER입니다. 

Gemini Robotics: Gemini 2.0 기반 로봇 전용 모델

구글 제미나이 로봇

작업 방식. 출처: 구글 딥마인드

Gemini Robotics: 가장 발전된 비전-언어-행동 모델

사람들에게 유용하고 도움이 되는 로봇용 AI 모델이 되기 위해서는, 세 가지 필수적인 특성이 필요합니다.

  • 범용성(Generality): 다양한 상황에 적응할 수 있어야 합니다.
  • 상호작용성(Interactivity): 주변 환경과 빠르게 상호작용하고, 지시나 변화에 즉각 대응할 수 있어야 합니다.
  • 정교한 동작(Dexterity): 인간의 손과 손가락이 수행하는 것과 같은 정교한 작업, 즉 물체를 신중하게 다루는 등의 동작을 수행할 수 있어야 합니다.

저희의 이전 연구에서도 이러한 영역에서 진전을 보였으나, Gemini Robotics는 이 세 가지 축 모두에서 상당한 성능 향상을 이루어내며, 진정한 범용 로봇에 가까워졌습니다.

 

범용성(Generality)

 

Gemini Robotics는 Gemini의 세계 이해 능력을 활용하여 새로운 상황에 일반화(generalize)하고, 훈련 과정에서 본 적 없는 다양한 작업을 즉시 해결할 수 있습니다.

  • 새로운 객체, 다양한 지시사항, 새로운 환경에서도 능숙하게 작업 수행이 가능합니다.
  • 저희 기술 보고서에 따르면, 종합적인 일반화 벤치마크에서 기존 최첨단 비전-언어-행동(VLA) 모델 대비 평균 두 배 이상의 성능을 보였습니다.

👉 "Gemini Robotics: General" 영상 보러가기


 

상호작용성(Interactivity)

 

로봇이 물리적 세계에서 작동하기 위해서는 사람과 주변 환경과 원활하게 상호작용하고, 변화에 실시간으로 적응할 수 있어야 합니다.

Gemini 2.0을 기반으로 한 Gemini Robotics는 직관적인 상호작용성을 제공합니다.

  • Gemini의 고급 언어 이해 능력을 활용하여, 일상적인 대화체 언어로 명령을 이해하고 반응합니다.
  • 다양한 언어로 명령을 인식할 수 있으며, 이전 모델보다 훨씬 광범위한 자연어 명령어를 처리할 수 있습니다.
  • 명령이나 환경 변화가 발생하면 이를 지속적으로 감지하고 행동을 조정합니다.
  • 이러한 조정 가능성(steerability) 덕분에 가정에서부터 직장에 이르기까지 다양한 환경에서 사람과 로봇 간의 협업이 향상됩니다.

👉 "Gemini Robotics: Interactive" 영상 보러가기


 

정교한 동작(Dexterity)

 

사람이 일상적으로 수행하는 작업 중 상당수는 매우 미세한 운동 능력(fine motor skills)을 요구합니다. 그러나 대부분의 로봇에게는 이러한 작업이 여전히 어렵습니다.

대조적으로, Gemini Robotics는 종이접기(origami folding), 지퍼백에 간식 포장하기(pack a snack into a Ziploc bag)와 같은 복잡하고 다단계의 작업을 정확하게 수행할 수 있습니다.

👉 "Gemini Robotics: Dexterous" 영상 보러가기

Google DeepMind에서는 텍스트, 이미지, 오디오 및 비디오 전반에 걸친 멀티모달 추론을 통해 Gemini 모델이 복잡한 문제를 해결하는 방식을 지속적으로 발전시키고 있습니다. 그러나 지금까지 이러한 기능은 대부분 디지털 영역에 국한되어 있었는데요. AI가 물리적 세계에서 사람들에게 유용하고 도움이 되기 위해서는, 주변 세상을 이해하고 반응하는 인간과 같은 추론 능력, 그리고 안전하게 행동을 수행하여 작업을 완료하는 능력이 필요합니다.

구글 딥마인드는 도움이 되는 차세대 로봇의 기반을 마련할 두 가지 새로운 AI 모델을 소개합니다. 두 모델 모두 Gemini 2.0을 기반으로 하고 있습니다.

 

1) Gemini Robotics

 

첫 번째는 Gemini Robotics입니다. 이는 Gemini 2.0에 물리적 행동을 새로운 출력 모달리티로 추가하여 로봇을 직접 제어할 수 있도록 설계된 고급 비전-언어-행동(VLA, Vision-Language-Action) 모델입니다.

 

2) Gemini Robotics-ER


두 번째는 Gemini Robotics-ER로, 이는 고급 공간 이해(spatial understanding)를 제공하여 로보티스트가 Gemini의 구체화된 추론(Embodied Reasoning, ER) 기능을 활용해 자신만의 프로그램을 실행할 수 있도록 합니다.

이 두 모델은 다양한 로봇이 이전보다 훨씬 폭넓은 실제 작업을 수행할 수 있도록 합니다. 노력의 일환으로 구글은 Apptronik과 협력하여 Gemini 2.0 기반 차세대 휴머노이드 로봇을 개발하고 있으며, 신뢰할 수 있는 일부 테스터들과 함께 Gemini Robotics-ER의 미래를 설계하고 있습니다.

Gemini Robotics-ER: 세계 이해 능력을 강화하다

출처: 구글 딥마인드

Gemini Robotics와 함께 발표된 Gemini Robotics-ER은 로봇에 필요한 세계 이해 능력을 더욱 강화한 고급 비전-언어 모델입니다.

  • 특히 공간 추론(spatial reasoning)을 중점적으로 개선하였으며,
  • 로보티스트가 기존의 저수준(low-level) 컨트롤러와 연결하여 사용할 수 있습니다.

Gemini Robotics-ER은 Gemini 2.0의 기존 기능인 포인팅(pointing)과 3D 객체 감지를 대폭 향상시켰습니다.

  • 공간 추론과 코딩 능력을 결합하여 새로운 기능을 즉시 생성(instantiate)할 수 있습니다.
    예시) 커피잔을 보여주면, 두 손가락으로 손잡이를 집는 적절한 방법과 안전한 접근 경로(safe trajectory)를 직관적으로 도출할 수 있습니다.

Gemini Robotics-ER은 로봇 제어에 필요한 모든 단계(end-to-end) 를 박스에서 바로 꺼내듯 수행할 수 있습니다.

  • 인지(perception), 상태 추정(state estimation), 공간 이해(spatial understanding), 계획(planning), 코드 생성(code generation) 모두 포함됩니다.
  • 이러한 엔드 투 엔드 환경에서 Gemini 2.0 대비 2~3배 더 높은 성공률을 기록했습니다.
  • 코드 생성만으로 충분하지 않을 경우, 프롬프트의 맥락적 의미를 이해하는 in-context learning을 활용하여 소수의 인간 시연 패턴만으로도 해결책을 제공합니다.

Gemini Robotics-ER은

  • 객체 감지 및 부위 포인팅
  • 대응 포인트 찾기
  • 3D 객체 감지 등
    구체화된 추론 능력에서 뛰어난 성능을 보여줍니다.

책임 있는 AI와 로봇 기술 발전

AI와 로봇 공학의 지속적인 가능성을 탐색함과 동시에, 저희는 안전에 대한 다층적이고 전체적인 접근법을 통해 연구를 수행하고 있습니다.

로봇과 주변 사람들의 물리적 안전은 로봇공학의 오랜 기본 원칙입니다.

  • 충돌 회피
  • 접촉력 제한
  • 이동 로봇의 동적 안정성 유지 등
    기존의 저수준 안전 제어기가 존재하며, Gemini Robotics-ER은 이러한 저수준 안전 크리티컬 컨트롤러와 인터페이스 할 수 있습니다.

Gemini의 기본 안전 기능을 바탕으로, Gemini Robotics-ER 모델은

  • 특정 상황에서 행동이 안전한지 판단하고,
  • 적절한 대응을 생성합니다.

학계와 산업 전반에 걸쳐 로봇 안전성 연구를 강화하기 위해, 저희는 구체화된 AI 및 로봇공학의 의미적 안전성(semantic safety)을 평가하고 개선하기 위한 새로운 데이터셋도 공개하고 있습니다.


이전 연구에서는 Isaac Asimov의 로봇 3원칙에 영감을 받아, LLM이 로봇에게 더 안전한 작업을 선택하도록 유도하는 Robot Constitution(로봇 헌법)을 도입했습니다.


그 후, 구글은 자연어로 표현된 규칙을 사용하여 로봇의 행동을 유도하는 데이터 기반 헌법을 자동으로 생성하는 프레임워크를 개발했는데요. 이제는 직접 헌법을 생성, 수정 및 적용하여 더 안전하고 인간 가치에 부합하는 로봇을 개발할 수 있습니다.

마지막으로, 새로운 ASIMOV은 실제 시나리오에서 로봇 행동의 안전성을 철저하게 측정하는 데 도움을 주는 데이터셋입니다.

사회적 영향을 평가하기 위해 저희는 책임 있는 개발 및 혁신팀(Responsible Development and Innovation team)과, 내부 책임 및 안전 위원회(Responsibility and Safety Council)와 협력하고 있습니다. 또한, 외부 전문가와도 협력하여 구체화된 AI가 로봇공학에 가져올 기회와 과제에 대응하고 있습니다.

References

 

  1. 구글 딥마인드 아티클 (링크)
  2. 논문 <Gemini Robotics: Bringing AI into the Physical World>

Your AI Data Standard

라이선스 해결된 데이터셋 구매
인공지능 도입 및 데이터 구축
Related Posts