AI로 동영상을 만들 수 있다는 사실은 이제 놀랍지 않습니다. 이제는 얼마나 사실적으로, 더 쉽게 만들 수 있는지가 중요할 정도로 동영상 생성 AI는 우리에게 익숙한 존재인데요. AI 영상은 어떻게 만들어지는 걸까요?

오픈AI의 Sora로 만든 영상. 출처: 오픈AI

시작은 노이즈: 확산 모델의 작동 원리

AI 영상 생성의 핵심은 확산(diffusion) 모델입니다. 먼저 이미지를 완전히 노이즈로 덮은 뒤, 그 노이즈를 거꾸로 복원하는 과정을 학습하지요. 수백만 번의 학습을 통해 인공지능은 무작위 점들 속에서 형태와 의미를 찾아내는 법을 익힙니다.

이 과정을 통해 AI는 실제 데이터가 주어지지 않아도 <무(無)> 상태에서 이미지를 만들어낼 수 있습니다. 즉, 노이즈를 질서로 바꾸는 과정이 곧 생성의 출발점인 셈입니다.

문장을 해석하다: 언어 모델의 역할

영상은 단순히 이미지를 복원하는 것보다 복잡합니다. 사용자가 "달리는 고양이를 보여줘"라고 하면, AI는 '고양이', '달리기', '배경', '움직임'의 의미를 시각적으로 해석해야 하죠.

이때 언어 모델(LLM) 이 확산 모델의 방향을 안내합니다. LLM은 텍스트의 의미를 분석해 각 단어를 시각적 요소로 변환하고, 확산 모델이 그 정보를 기반으로 이미지를 형성하도록 돕지요. 쉽게 말하면, 언어 모델은 감독, 확산 모델은 촬영 감독처럼 서로 협업하는 관계입니다.

연산 효율의 핵심: 잠재 확산(Latent Diffusion)

영상은 수천 장의 프레임으로 이루어져 있으므로, 모든 픽셀을 계산하려면 막대한 연산이 필요합니다.
이를 해결하기 위해 AI는 잠재 공간(latent space) 이라는 압축된 표현을 사용합니다.

잠재 확산 모델은 실제 픽셀 대신, 영상의 본질적인 특징만을 수치로 표현해 연산하는데요. AI는 이 '압축된 표현 공간'에서 영상을 먼저 완성한 뒤, 마지막에 디코딩 과정을 거쳐 실제 화면으로 복원합니다. 이 방식 덕분에 생성 속도는 빨라지고, 필요한 자원도 크게 줄어듭니다.

가장 빠른 AI 뉴스

가장 빠른 AI 뉴스 구독하기

시간의 일관성 유지: 변환기(Transformer)

영상 생성이 어려운 이유는 ‘시간적 연속성’ 때문입니다. 한 프레임에서 인물이 오른쪽을 보는데 다음 프레임에서 갑자기 사라진다면 부자연스럽겠지요.

이 문제를 해결하는 것이 변환기(Transformer) 구조입니다. 원래는 문맥을 이해하기 위해 언어 모델에서 개발된 기술이지만,
영상에서는 이전 프레임의 정보를 기억해 다음 프레임의 일관성을 유지하는 데 사용됩니다. 덕분에 인물의 움직임과 조명 변화가 부드럽게 이어지는 자연스러운 영상이 만들어집니다.