[25.08.14.9AM 웨비나] 시티은행 AI 총괄이 말하는 AI로 금융산업을 이끄는 방법

VLM(Vision Language Model)

VLM(Vision Language Model)

VLM(Vision-Language Model, 비전-언어 모델)이란 시각 정보(이미지)와 언어 정보(텍스트)를 함께 처리하고 이해할 수 있는 AI 모델을 의미합니다. 이미지와 텍스트를 정렬(alignment)하여, 이미지 캡셔닝, 시각적 질문 응답, 멀티모달 추론 등 다양한 복합 과제를 수행할 수 있게 해줍니다.

 

주요 특징:

 

멀티모달 학습(Multimodal Training): 이미지-텍스트 쌍으로 구성된 데이터셋을 기반으로 시각과 언어 간의 연관성을 학습

• 크로스 어텐션(Cross-Attention): 이미지의 특정 영역과 텍스트 토큰을 상호 연관시키는 주목 메커니즘

• 사전학습 백본(Pretrained Backbone): CLIP, ViT, CNN 등 시각 인코더와 언어 모델을 결합

• 제로샷 추론 능력(Zero-Shot Capabilities): 학습하지 않은 이미지-텍스트 조합도 이해하고 새로운 작업에 적용 가능

• 다국어 및 다영역 활용성: 다양한 언어와 전문 도메인에서도 적용 가능

 

활용 사례:

 

• 이미지 캡셔닝(Image Captioning): 사진이나 그림에 대한 설명 문장 생성

• 시각적 질문 응답(VQA): 이미지를 기반으로 한 질문에 정확하게 응답

• 멀티모달 검색(Multimodal Search): 텍스트를 입력해 관련 이미지를 찾거나 그 반대로 수행

• 접근성 도구(Accessibility Tools): 시각 장애인을 위한 이미지 콘텐츠 설명 기능 제공

• 창의적 콘텐츠 생성(Creative Generation): 만화 제작, 인터랙티브 스토리텔링 등에서 시각과 언어를 융합한 창작 지원

 

중요성

 

VLM은 시각과 언어 데이터를 통합적으로 이해할 수 있어, 복합적인 입력을 요구하는 AI 서비스에서 필수적인 역할을 수행합니다. 이미지와 텍스트를 정렬해 상황에 맞는 추론을 가능하게 하므로, 사용자 중심의 지능형 시스템을 구현하는 데 중요한 기반 기술로 활용됩니다.

관련 용어