AI, 어디까지 왔니? - 멀티모달 AI의 등장과 학습의 진화

AI 기술이 발전하는 속도를 따라잡기가 어렵습니다. 특히 생성형 AI는 그 중심에 서 있는데요. 우리에게 ChatGPT로 익숙한 생성형 AI는 텍스트 뿐만 아니라, 이미지, 음성, 영상 등 다양한 형태의 데이터를 처리하고 생성하는 능력을 통해 혁신의 새 지평을 열고 있습니다. 생성형 AI가 어디까지 어떻게 발전했는지 함께 살펴볼까요?

AI의 비약적인 발전

텍스트 생성으로 출발했던 생성형 AI는 텍스트뿐만 아니라 이미지, 음성, 영상과 같은 다양한 데이터 형태를 처리하고 생성할 수 있습니다. 이처럼 여러 유형의 데이터를 한 번에 처리하고 연관된 형태로 출력할 수 있는 기술을 멀티모달 AI라고 하는데요.

예를 들어, 사용자가 단순한 스케치를 입력한 뒤 “이 이미지를 토대로 홍보 포스터를 만들어 줘”라고 요청하면, AI는 요구 사항에 맞는 완성도 높은 결과물을 생성합니다. 생성형 AI는 단순히 정적인 정보를 처리하는 단계를 넘어, 실제 창의적 작업에 활용될 수 있다고 볼 수 있지요.

불과 몇 년 전만 해도 AI가 생성한 이미지는 어색한 손 모양, 부자연스러운 색감 등 결함이 많았지만, 이제는 사실적인 이미지를 생성하는 수준까지 도달했습니다. 어디 그뿐인가요? 고품질의 동영상, 음성 내레이션, 심지어 영화 음악까지 자동으로 제작하는 모습을 볼 수 있습니다.

출처: 오픈AI

그러나 이러한 놀라운 진화는 단번에 이루어진 것이 아닙니다. AI가 인간과 비슷한 수준의 이해와 표현력을 갖추기 위해서는 방대한 데이터와 이를 효율적으로 학습시키는 정교한 훈련 과정이 필요합니다.

생성형 AI 학습의 핵심: 프리 트레이닝(Pre-training)과 포스트 트레이닝(Post-training)

생성형 AI는 방대한 데이터와 정교한 학습 과정을 통해 지금의 수준에 도달했습니다. 특히 프리 트레이닝(Pre-training)과 포스트 트레이닝(Post-training)은 AI 모델의 성능을 결정짓는 핵심 요소입니다.

LLM의 사전 학습 데이터에서 각 데이터 소스가 차지하는 비율. 출처: A Survey of Large Language Models

프리 트레이닝(Pre-training)

프리 트레이닝은 모델의 초기 학습 단계로, 모델이 기본적인 언어와 데이터를 이해할 수 있도록 막대한 양의 데이터를 학습시키는 과정입니다. 예를 들어, 뉴스, 도서, 웹 크롤링 데이터를 포함한 거대한 말뭉치(코퍼스)를 사용해 텍스트를 학습시킵니다. 이를 통해 모델은 다음 단어를 예측하거나 문맥을 이해하는 능력을 얻게 됩니다.

대표적인 학습 방식으로는 텍스트 데이터를 기반으로 다음 단어를 예측하는 방식으로 학습하며, 대규모 데이터가 투입됩니다. 예를 들어, 문장 “AI는 ( )를 변화시킵니다.“에서 AI는 맥락을 바탕으로 빈칸에 “미래”, “사회” 등 들어갈 단어를 예측합니다.

From-Scratch Pre-training: 초기 상태의 모델에 막대한 데이터를 투입해 처음부터 학습시키는 방식입니다. 예를 들어, 금융 특화 AI인 블룸버그GPT는 금융 도메인 데이터를 기반으로 학습되어 금융 분야에서 뛰어난 성능을 발휘합니다. 하지만 이 방식은 테라바이트 수준의 대량의 데이터와 GPU 리소스를 요구하며, 시간과 비용이 많이 듭니다.

Domain-Adaptive Pre-training (DAPT) : 특정 도메인(예: 금융, 의료, 법률)에 최적화된 AI 모델을 만들기 위해 등장한 개념이 ‘DAPT’입니다. DAPT는 이미 프리 트레이닝을 거친 AI 모델에 특정 도메인에 특화된 데이터를 추가로 학습시키는 방식 인데요. 예를 들어, 의료 도메인에서는 논문, 의학 용어 사전, 임상 보고서 등으로 학습을 진행하여 해당 분야에 최적화된 모델을 개발할 수 있습니다. 이 과정은 대량의 일반 데이터를 사용하는 프리 트레이닝과 달리, 상대적으로 적은 양의 도메인 데이터를 사용해 효율적으로 진행됩니다. SelectStar가 수행한 프로젝트 중에도 통신 및 금융 분야에 특화된 데이터로 DAPT를 수행하여 고객사 요구에 부합하는 AI 모델을 구축한 사례가 있습니다.

포스트 트레이닝(Post-training)

포스트 트레이닝은 프리 트레이닝을 통해 기초 체력을 다진 모델을 특정 작업에 최적화하는 과정입니다. 이 과정은 두 단계로 나뉩니다.

인스트럭션 튜닝(Instruction Tuning): 사용자의 질문 의도나 특정 테스크를 잘 수행하도록 모델을 추가 학습시키는 과정입니다.
이 과정에서는 PEFT(Parameter-Efficient Fine-Tuning) 기법이 활용됩니다. PEFT는 모델의 전체 파라미터를 수정하는 대신, 추가된 소수의 레이어만을 학습시켜 데이터와 리소스의 효율성을 극대화합니다. 레이블된 데이터(정확한 정답)를 활용하여, QA 테스크, 텍스트 요약, 분류 작업 등 다양한 작업의 수행 능력을 높일 수 있도록 모델을 튜닝하는 것이죠. 대표적인 방법으로 ‘LoRA(Low-Rank Adaptation)’가 있으며, 이를 통해 최소한의 데이터로도 고성능 튜닝이 가능합니다.

이처럼 프리 트레이닝은 AI 모델이 텍스트의 패턴과 구조를 이해하도록 돕는 기초 단계로, 이 단계에서 모델은 언어의 기본적인 규칙을 학습하게 됩니다.

RLHF(Reinforcement Learning with Human Feedback, 강화 학습): 사용자 피드백을 통해 모델이 더 자연스러운 답변을 생성할 수 있도록 학습하는 단계입니다. 모델이 생성한 응답에 대해 사람이 직접 “좋아요”와 “싫어요”를 평가해 모델의 응답을 개선하는 과정을 거칩니다. 이를 통해 AI는 사용자 의도를 보다 정확히 파악하고, 보다 인간적인 응답을 생성할 수 있습니다.

이 두 단계를 거쳐 생성형 AI는 텍스트뿐만 아니라 멀티모달 데이터를 처리하며, 사용자 요구에 최적화된 결과를 제공할 수 있습니다.

다음 이야기

생성형 AI가 사람에게 유용한 도구가 되기 위해서는 사람의 의도를 이해하고, 기대에 부합해야합니다. 그러려면 사람에 대해 잘 알아야겠지요. RLHF를 통해 AI가 사용자의 의도를 보다 정확히 파악하고, 보다 인간적인 응답을 생성할 수 있다고 설명했는데요. 다음 글에서는 이러한 과정을 가능하게 하는 “휴먼 얼라인먼트(Human Alignment)”와 그 핵심 방법 중 하나인 RLHF에 대해 자세히 살펴보겠습니다.