누군가로부터 '수염이 난 것처럼 주둥이 주변이 거무스름한 강아지 그림을 그려줘'라는 요청을 받았다고 상상해 보겠습니다.
어느 정도 상세한 요청이지만, 막상 그리려고 하면 여러 가지 결정을 내려야 합니다. 귀가 쫑긋 서 있는 강아지인지, 주둥이가 긴 강아지인지, 주둥이를 제외한 털은 무슨 색인지 등 말이지요. 이런 고민을 하다보면 아무리 빠르게, 대충 그려도 1분은 넘어갈 수밖에 없습니다. 하지만 AI에 요청하면 어떨까요?
같은 질문을 챗GPT 프롬프트로 넣은 결과물. 생성에 5초 정도 걸렸다. 출처: 오픈AI.
이미지든, 코드든, 문서든, 이제는 생성형 AI로 빠르게 다양한 생성물을 만들 수 있습니다. 특히 오늘날 널리 쓰이는 챗봇형 인터페이스는 사용자의 요청을 받으면 곧바로 완성형 결과물을 생성하는 데 최적화되어 있습니다. 그러나 사람의 창의적 작업은 이처럼 직선적으로 진행되지 않습니다. 보통 여러 가능성을 넓게 탐색한 뒤, 그중 일부를 골라 구체화하고, 다시 새로운 방향으로 돌아가며 발전시키지요. 때문에 생성형 AI는 창작 속도 면에서는 강점을 보이지만, 창의적 과업에서는 결과의 품질이나 방향성이 아쉽다는 평가도 많은데요.
최근 발표된 한 연구는 생성형 AI의 한계를 단순한 품질이나 성능 문제가 아니라, 창작 과정을 충분히 지원하지 못하는 인터페이스 구조에서 찾습니다. 사용자가 다양한 아이디어를 충분히 탐색하기도 전에 결과물이 먼저 빠르게 제시되는 방식이 사고를 특정 방향에 고정시킬 수 있다고 지적하지요. 무슨 말인지 좀 더 자세히 알아볼까요?
AI 인터페이스가 문제라고?
생성형 AI는 창작의 진입장벽을 크게 낮췄지만, 한계도 분명히 드러났습니다. 특히 챗봇형 인터페이스는 사용자의 요청을 받자마자 완성된 결과물을 생성하는 데 집중하기 때문에, 사용자를 첫 결과물에 고정시키고 더 넓은 가능성을 탐색하지 못하게 만들 수 있다고 연구진은 말합니다. 이어 생성형 AI의 한계는 단순한 품질 문제가 아니라, 창작 과정을 충분히 지원하지 못하는 인터페이스 구조의 문제라고 주장하지요.
논문은 이 문제를 크게 두 가지로 나눕니다. 하나는 '조기 수렴(premature convergence)'과 '디자인 고착(design fixation)'으로, 사용자가 첫 결과물이나 일부 수정 결과에만 머무르며 다른 방향을 충분히 탐색하지 못하는 현상입니다. 다른 하나는 '구상의 간극(gulf of envisioning)'인데요. 사용자가 막연한 수정 의도는 갖고 있어도, 이를 모델이 잘 이해할 수 있는 프롬프트로 바꾸기 어려운 경우를 뜻합니다. 예를 들어 '좀 더 생동감이 있으면 좋겠다'라는 욕구는 있지만, 구체적으로 무엇을 바꿔야 좀 더 '생동감'이 생기는지 프롬프트로 풀어내기 어려운 경우를 말하지요.
HAICo에 대해 알아보자
연구진은 이런 문제를 해결하기 위해 HAICo(Human-AI Co-creation system)라는 창작 시스템을 구축합니다. HAICo는 발산적 사고(divergent thinking)와 수렴적 사고(convergent thinking)를 각각 지원하는 두 개의 모드로 구성되는데요. 사용자는 다양한 가능성을 넓게 살펴보는 탐색 단계와, 선택한 방향을 실제 결과물로 다듬는 정교화 단계를 오가며 작업하게 됩니다. 아래 그림을 살펴볼까요?
이미지 공동창작을 위한 HAICo 시스템 내 사용자 작업 흐름 예시. 출처: 논문.
위 그림은 HAICo 시스템에서 사용자가 이미지를 생성하는 전체 과정을 시간 순서대로 보여주는 예시입니다. HAICo의 핵심은 바로 결과물을 만들기 전에, 아이디어를 탐색하는 단계와 이미지를 정교화하는 단계를 오가며 작업한다는 점인데요.
사용자가 먼저 '휴대폰을 덜 사용하자'라는 주제로 포스터 생성을 요청합니다(1). 이후 HAICo 시스템은 여러 아이디어를 제안하고, 사용자는 그 아이디어 중 하나를 선택해 첫 이미지를 생성합니다(2). 그다음 해당 이미지를 기반으로 두 차례에 걸쳐 수정과 보완을 진행합니다(3, 4). 이후 사용자는 현재 방향에서 벗어나 다시 아이디어 탐색 단계로 돌아가고(5), 새로운 시스템 제안 아이디어에서 영감을 받아 'Yosemite Tunnel View'라는 새로운 컨셉을 떠올립니다(6). 이 아이디어를 바탕으로 새로운 이미지를 생성하고(7), 다시 정교화 과정을 거쳐 최종 결과를 완성합니다(8).
HAICo는 아이디어를 탐색하는 브레인스토밍 화면과 이미지를 다듬는 정교화 화면을 분리해, 사용자가 여러 방향을 비교하고 다시 돌아오며 작업할 수 있도록 설계되었습니다. 실제 인터페이스를 살펴보시죠!
HAICo 인터페이스 구성. 출처: 논문.
HAICo의 인터페이스는 아이디어를 넓게 탐색하는 Divergent mode와, 선택한 이미지를 구체적으로 다듬는 Convergent mode로 나뉩니다. 전자 모드에서 사용자가 프롬프트를 입력하면 시스템이 제목, 썸네일, 설명, 배경 정보, 카테고리 태그를 포함한 아이디어 카드를 제안하고, 필요하면 추가 아이디어를 받거나 직접 새 아이디어를 만들 수 있습니다. 후자 모드에서는 사용자가 수정 의도를 입력하면 시스템이 이를 조정 가능한 항목과 옵션으로 풀어 제시하고, 이를 바탕으로 새로운 이미지 변형을 생성합니다. 'K'의 이미지 라이브러리는 초기 이미지와 정교화된 변형들을 함께 보여주어, 여러 방향을 비교하며 작업을 이어갈 수 있게 합니다. 결과는 어땠을까요?
가장 빠른 AI 뉴스
결과는 어땠을까?
‘휴대폰을 덜 사용하자’ 과제를 바탕으로 생성된 최종 포스터 예시를 살펴볼까요?
챗GPT와 HAICo로 생성된 최종 포스터 비교. 출처: 논문.
(a), (b)는 챗GPT를, (c), (d)는 HAICo를 활용해 제작된 결과물이며, 각 시스템별로 최고 점수와 중간 수준 점수를 받은 결과물입니다. 전체 점수는 참신성(novelty)과 유용성(usefulness)의 합으로 평가되었는데요. HAICo 결과물은 전반적으로 더 높은 참신성을 보였습니다. 특히 (c)는 참신성 4.8점, 유용성 3.8점을 받아 네 사례 중 가장 높은 종합 평가를 받았습니다!
실제 실험 결과에서도 이러한 경향은 일관되게 나타났는데요. HAICo는 사용자가 느끼는 창작 경험을 평가하는 지표인 Creativity Support Index(CSI) 전반에서 더 높은 점수를 기록했으며, 시스템 사용성을 평가하는 UMUX-Lite에서 역시 81.25 대 64.24로 더 높게 나타났습니다.
HAICo와 챗GPT 비교. 출처: 논문.
또한 정교화 단계에서도 차이가 났습니다. 하나의 아이디어 클러스터당 정교화 프롬프트 수는 HAICo가 평균 1.56회, 챗GPT가 2.94회였습니다. 즉, HAICo가 더 적은 시행착오로 원하는 방향에 도달했다는 뜻이지요.
물론 실험의 한계도 명확합니다. 참가자 풀이 대부분 IT 배경이었고, 과제가 포스터형 이미지 생성에 한정되었으며, 일부 사용자는 정교화 옵션의 충실도나 직접 편집 기능 측면에서 한계를 지적하기도 했습니다.
지금까지 생성형 AI는 빠른 결과물을 제공하는 능력으로 주목받아 왔지만, 창의적 과업에서는 분명한 한계도 드러냈습니다. 이를 AI 자체의 한계로 받아들이는 시선도 있었지요. 그러나 연구진은 이미지 생성 사례를 통해, 생성형 AI의 경쟁력이 단순한 즉시 실행 능력에만 있지 않음을 보여줍니다. 사용자가 먼저 넓게 탐색하고, 이후 정교하게 다듬을 수 있도록 탐색과 수렴의 타이밍을 구조화하는 인터페이스가 중요하다는 것입니다.
생성형 AI의 등장으로 많은 창작자가 혼란을 느끼고 위축되기도 했습니다. 하지만 이번 연구는 생성형 AI의 진짜 가치가 창작을 대체하는 데 있지 않고, 인간이 더 넓게 탐색하고 더 나은 선택을 내릴 수 있도록 돕는 데 있음을 보여줍니다.


