3월 16일부터 19일까지 진행되는 엔비디아 개발자 콘퍼런스 GTC(GPU Technology Conference) 2026이 한창입니다. 2009년부터 매년 열린 GTC에서 가장 화제가 되는 세션은 아무래도 '깐부 회동'으로 국내에도 친근한 이미지를 남긴, 엔비디아 CEO 젠슨 황의 키노트 세션인데요. 올해는 어떤 인사이트를 공유했는지, 함께 살펴볼까요?

'토큰 공장'이 된 데이터센터

젠슨 황은 데이터센터를 'AI가 토큰을 만들어내는 생산 설비', 즉 factory로 정의합니다. 여기서 토큰이란, 단순히 언어모델의 단어 조각만 뜻하는 게 아니라, AI가 생각하고, 추론하고, 답하기 위해 소비하고 생성하는 계산 단위를 가리킵니다. 대체로 예전의 데이터센터는 얼마나 많은 서버를 운영하는지, 얼마나 안정적으로 서비스가 돌아가는지, 그리고 얼마나 많은 데이터를 보관하는지 등을 중심으로 평가했다면, 이제 데이터센터는 이런 질문에 답해야 한다고 젠슨은 말합니다:

같은 전력으로 얼마나 많은 토큰을 생산할 수 있는가?
또 얼마나 빠르게 토큰을 생성할 수 있는가?
더 긴 문맥과 더 복잡한 추론을 감당할 수 있는가?
그 토큰을 얼마나 낮은 비용으로 공급할 수 있는가?

즉, AI 서비스를 토큰 생산성과 비용 구조의 관점에서 한 번 생각해 봐야 한다는 의미입니다. 이어 젠슨은 '와트 당 토큰 수(tokens per watt)'의 개념을 강조하는데요. 데이터센터는 결국 전력 제약을 받을 수 밖에 없기 때문에, 전력 1단위당 얼마나 많은 유효한 산출물을 만들 수 있느냐가 사업성에 큰 영향을 미친다는 입장입니다.

전력당 토큰 생산량과 토큰 비용 간의 관계를 나타낸 그래프. 출처: 엔비디아.

AI, 이제는 학습보다는 추론

그동안 AI에서 가장 중요한 단계는 학습으로 여겨졌습니다. 더 큰 모델을 만들고, 더 많은 데이터로 훈련시키고, 더 큰 파라미터를 확보하려는 움직임이 강했지요. 하지만 젠슨은 AI가 실제로 생각하고, 읽고, 행동하는 단계에 들어서면서 추론 수요가 폭발적으로 증가하고 있다고 설명합니다. 이어, 그는 AI의 발전을 크게 네 단계로 나눕니다:

Perceive: 인식하다
Generate: 생성하다
Reason: 추론하다
Act: 행동하다

초기의 AI는 인식(perceive)에 강했습니다. 우리가 익숙하게 사용하고 있는 이미지 분류, 음성 인식, 패턴 탐지 같은 작업이지요. 이후 생성하는(generate) AI가 나오면서 글과 그림 등을 만들어내기 시작했고, 다음으로 추론하는(reason) AI가 등장하며 문제를 분석하고 검토하며, 근거를 찾는 단계로 넘어갔습니다. 이제는 스스로 행동하는(act) 에이전틱 AI가 파일을 읽고, 도구를 쓰고, 코드를 실행하는 등 외부 시스템과 상호작용하기 시작했지요.

젠슨은 AI가 실제로 수행하는 작업은 거의 전부 추론 시점에 일어난다고 말합니다. AI가 생각하고, 읽고, 행동하려면 반드시 추론 과정을 거쳐야 한다고 주장하며, 이제 AI 산업은 추론 중심으로 전환되는 변곡점(inference inflection)에 있다고 말하지요.

15,000명 넘게 구독 중인 AI 뉴스레터

가장 빠른 AI 뉴스 구독하기

AI 서비스의 가격 구조

젠슨은 AI 서비스의 가격 구조를 설명하기 위해 등급을 예시로 듭니다. 서비스 등급을 다양한 티어(tier)로 나누어 각 티어마다 토큰 가격과 응답 속도, 모델 크기나 추론 깊이 등을 차등 부여합니다. 마치 요즘 OTT 서비스가 구독 요금제에 따라 광고형과 일반형으로 혜택을 나누어 서비스를 제공하듯이 말이지요. 그렇다면, AI 서비스 가격에 차등이 생길 수밖에 없는 이유를 함께 살펴볼까요?

응답 성능과 처리량, 비용 간의 상관관계를 보여주는 그래프. 출처: 엔비디아.

위 그래프는 AI 서비스에서 응답 속도와 처리량, 그리고 비용이 갖는 상관관계를 보여줍니다. 가로축은 사용자 한 명에게 얼마나 빠르게 응답할 수 있는지를, 그리고 세로축은 같은 전력 안에서 데이터센터가 얼마나 많은 요청을 동시에 처리할 수 있는지를 뜻합니다. 가장 아래에 표시된 무료(Free), 중간(Medium), 고급(High), 프리미엄(Premium) 구간은 이런 구조를 서비스 가격과 연결해 보여주지요.

그래프가 오른쪽으로 갈수록 아래로 향하는데요. 이유는 간단합니다. 사용자에게 더 빠르고 똑똑하게 답하려면 AI가 더 많은 계산을 해야 하기 때문이지요. 가로축의 값이 커질수록 더 빠르고 고도화된 서비스가 가능해지지만, 그만큼 한 사용자에게 더 많은 연산이 필요해지기 때문에 전체 처리량은 줄어들게 됩니다. 하지만 데이터센터의 전력과 운영 비용은 그대로 유지되기 때문에, 사용자 한 명을 처리하는 데 드는 비용은 증가하게 되지요. 결국 고성능, 고인터랙티브 AI 서비스일수록 가격이 높아질 수밖에 없습니다. 더 많은 계산을 사용하는 구조 때문에 처리량이 줄어들고, 그 결과로 단위 비용이 증가하면서 가격이 올라가는 현상입니다.

✋🏼여기서 잠깐!
그래프 속 Hopper, Blackwell, Rubin은 각각 엔비디아 GPU 아키텍처의 세대 이름입니다. 그래프를 보면, 최신 세대(Rubin)일수록 같은 전력으로 더 많은 요청을 처리할 수 있다는 사실을 알 수 있습니다.

물론 자사를 홍보하는 의도도 있겠지만, 젠슨이 준비한 그래프는 같은 전력 안에서 얼마나 효율적으로 서비스를 운영할 수 있는지 또한 AI 서비스의 경쟁력이 될 수 있음을 보여줍니다.

AI, 이제 물리 세계로 오라!

젠슨은 AI의 다음 단계를 크게 두 방향으로 설명하는데요. 하나는 디지털 환경에서 실제 업무를 수행하는 에이전틱 AI, 다른 하나는 현실 세계에서 움직이고 반응하는 피지컬 AI입니다. 꽤나 익숙한 용어들이지요?

Agentic AI

조금씩 대중적으로도 익숙해지고 있는 표현인 ‘에이전틱 AI’는 실제로 일을 처리하는, 행위의 주체가 되는 AI를 뜻합니다. AI는 그동안 시키는 일을 잘하는 조력자로 인식되어 왔는데요. 이제는 목표만 주면 그 목표를 향해 거쳐야 하는 과정을 스스로 계획하고 실행하는 주체로 바뀌고 있습니다.

Physical AI

에이전틱 AI가 식당도 예약하고 온라인 주문도 할 줄 안다면, 피지컬 AI는 실제 환경에서 주변을 인식하고, 움직이고, 반응까지 해야 합니다. 주로 로봇이나 자율주행, 산업 자동화 같은 영역에 활용되지요. 피지컬 AI가 현실 세계에서 안전하게 작동하기 위해서는 시뮬레이션부터 합성 데이터, 물리 엔진, 그리고 제어 시스템까지 함께 발전해야 합니다. 마치 이 친구처럼 말이죠! ☃️

GTC 2026을 방문한 올라프 로봇 데모. 출처: 엔비디아.

키노트 후반부에는 영화 <겨울왕국> 속 캐릭터 '올라프'의 로봇 데모가 무대에 올랐습니다. 물리 시뮬레이션과 로봇 제어, 그리고 인터랙션 기술이 결합된 올라프는 무대 위를 걸어다니고, 젠슨과 간단한 대화도 주고받으며 훌쩍 다가온 피지컬 AI 시대를 암시했습니다.

어린 시절에 본, 로봇을 흉내내는 코미디 방송이 떠오릅니다. 별다른 분장을 하지 않았어도, 어색한 움직임에 딱딱 끊기는 말투만으로 어느 쪽이 로봇인지 알 수 있었는데요. 오늘 본 올라프는 우리의 상상이 무색하게, 캐릭터에 맞게 자연스러운 움직임을 보이고 말투도 부드럽습니다. 어색하고 딱딱하게 생각했던 미래가 생각보다 자연스럽고 부드럽게 다가오고 있습니다.

목록으로 돌아가기