'하네스(harness)'라는 말, 들어보셨나요?
강아지를 산책시킬 때 목줄 대신 몸통, 특히 가슴 쪽을 감싸는 형태의 줄을 흔히 하네스라고 부르는데요. 본래는 말이나 짐승에 채워 일을 하게 하는 장구를 가리키는 뜻으로 널리 사용되었습니다. 단순히 무언가를 묶는 도구가 아니라, 힘을 실어 전달하고 움직임을 안정적으로 이끌어주는 장치라고 볼 수 있지요.
하네스를 찬, 늠름한 강아지. 출처: 뉴욕타임즈.
최근 자주 보이는 단어가 있는데요. 바로 '하네스 엔지니어링'입니다. 프롬프트 엔지니어링이 '무엇을 시킬 것인가'에, 콘텍스트 엔지니어링이 '무엇을 보여줄 것인가'에 가깝다면, 하네스 엔지니어링은 그보다 더 넓게 'AI가 실제로 일을 해낼 수 있도록 어떤 작업 환경과 구조를 마련할 것인가'를 다루는 개념에 가깝습니다. 그렇다면 하네스 엔지니어링이 정확히 무엇인지, 조금 더 자세하게 알아볼까요? 🦮
하네스 엔지니어링이란?
LLM이 본격적으로 확산되면서 먼저 주목받은 것은 프롬프트 엔지니어링이었습니다. 모델에게 원하는 결과를 얻기 위해 지시를 어떻게 쓰고, 어떤 형식으로 요청하고, 어떤 조건을 붙일지를 설계하는 작업을 뜻하는 말이었지요. 이후에는 콘텍스트 엔지니어링이라는 개념이 떠올랐는데요. 이는 프롬프트를 넘어, 모델이 무엇을 보고 판단하게 할지 그 맥락(context)를 설계하는 접근이었습니다.
하네스 엔지니어링은 모델 자체를 만드는 일이 아니라 모델이 실제로 일을 잘하게 만드는 작업 환경을 설계하는 일입니다. AI에게 '앱을 만들어 줘'라고 시켰다고 가정해 볼까요? 모델은 저절로 완벽하게 일할 수 없습니다. 어떤 파일을 먼저 읽어야 하는지, 어떤 도구를 쓸 수 있는지, 중간에 막히면 어떻게 다시 시도할지, 결과가 괜찮은지 누가 어떻게 검사할지까지 정해줘야 하지요. 이처럼 AI를 둘러싼 실행 규칙과 작업 흐름 전체를 설계하는 것이 하네스 엔지니어링입니다. 🛠️
AI 모델이 똑똑한 신입사원이라면, 하네스는 그 사원이 일할 수 있게 마련된 회사의 업무 환경에 가깝습니다. 업무 매뉴얼이 없고, 필요한 자료가 흩어져 있고, 사용할 수 있는 툴도 연결되어 있지 않고, 결과를 검토하는 기준도 없다면 아무리 똑똑한 사람도 제대로 일하기 어렵겠지요.
오픈AI와 앤트로픽도 각각 공식 엔지니어링 글을 통해 하네스 설계를 반복적으로 다루기 시작했는데요. 두 회사는 공통으로 '좋은 모델만 있다고 좋은 에이전트가 되는 것은 아니다'라고 말합니다. 실제 성능은 모델과 하네스가 함께 결정한다고 주장하지요.
오픈AI가 말하는 하네스 엔지니어링
에이전트 지식의 한계와 저장소 가시성. 출처: 오픈AI.
가장 빠른 AI 뉴스
앤트로픽이 말하는 하네스 엔지니어링
앤트로픽은 하네스 엔지니어링을, 모델이 단순히 답을 생성하는 수준을 넘어 실제로 에이전트처럼 일하도록 만드는 실행 구조와 운영 체계의 문제로 설명합니다. 앤트로픽의 표현을 빌리면, "agent harness는 모델이 에이전트로 행동할 수 있도록 입력을 처리하고, 도구 호출을 조율하고, 결과를 반환하는 시스템"입니다. 좋은 프롬프트를 쓰는 것만으로는 충분하지 않고, AI가 어떤 정보와 도구를 바탕으로 어떤 흐름 속에서 일할지를 함께 설계해야 한다는 뜻이지요. 앤트로픽은 에이전트를 평가할 때도 모델만 따로 보는 것이 아니라, 모델과 하네스가 함께 작동한 결과를 봐야 한다고 설명합니다.
특히 앤트로픽은 긴 작업을 안정적으로 수행하게 만드는 구조를 중요하게 보는데요. 작업이 길어질수록 모델은 맥락을 놓치거나, 한 번에 너무 많은 일을 하거나, 아직 끝나지 않았는데도 끝났다고 판단하기 쉽기 때문입니다. 이런 맥락에서 보면, 앤트로픽이 강조해온 컨텍스트 엔지니어링은 하네스를 구성하는 중요한 요소라고 할 수 있지요. 실제로 앤트로픽은 초기화 역할을 맡는 에이전트가 기능 목록과 진행 기록을 먼저 정리하고, 이후 코딩 에이전트가 한 번에 한 기능씩 구현하도록 설계한 사례를 소개합니다. 이어 AI가 긴 프로젝트를 끝까지 수행하려면 작업 단위와 상태, 맥락을 구조화해주는 작업 환경이 필요하다고 설명하지요.
프롬프트 엔지니어링과 콘텍스트 엔지니어링 비교. 출처: 앤트로픽.
또한, 앤트로픽은 하네스가 고정된 정답은 아니라고 봅니다. 하네스는 대개 모델의 약점을 보완하기 위해 설계되기 때문에, 모델이 더 좋아지면 예전에 필요했던 구조가 오히려 불필요해질 수 있다고 말하지요. 하네스는 모델이 발전하면 낡을 수 있어, 한 번 만들어두고 끝나는 게 아니라 모델의 변화에 맞춰 계속 조정해 나가는 운영 설계로 봐야 한다는 입장입니다.
결국 오픈AI와 앤트로픽 모두 좋은 결과는 모델의 능력과 그 모델이 일하는 구조가 함께 만들어낸다고 말합니다. 도구 연결, 문서화, 컨텍스트 관리, 작업 분해, 피드백과 평가가 중요하다고 강조하지요. 다만 오픈AI는 상대적으로 AI가 더 많은 일을 하게 만드는 작업 환경에, 앤트로픽은 AI가 긴 일을 끝까지 해내게 만드는 작업 구조에 관심이 많은 뉘앙스를 보입니다.
프롬프트 엔지니어링과 콘텍스트 엔지니어링을 지나, 이제는 하네스 엔지니어링의 중요성이 대두되고 있습니다. 결국 중요한 것은 더 똑똑한 모델 하나를 찾는 일이 아니라, 그 모델이 실제로 제대로 일할 수 있도록 환경과 구조를 함께 설계하는 일인지도 모르겠습니다.


