영상은 단순히 이미지를 복원하는 것보다 복잡합니다. 사용자가 "달리는 고양이를 보여줘"라고 하면, AI는 '고양이', '달리기', '배경', '움직임'의 의미를 시각적으로 해석해야 하죠.
이때 언어 모델(LLM) 이 확산 모델의 방향을 안내합니다. LLM은 텍스트의 의미를 분석해 각 단어를 시각적 요소로 변환하고, 확산 모델이 그 정보를 기반으로 이미지를 형성하도록 돕지요. 쉽게 말하면, 언어 모델은 감독, 확산 모델은 촬영 감독처럼 서로 협업하는 관계입니다.