'하네스(harness)'라는 말, 들어보셨나요?

강아지를 산책시킬 때 목줄 대신 몸통, 특히 가슴 쪽을 감싸는 형태의 줄을 흔히 하네스라고 부르는데요. 본래는 말이나 짐승에 채워 일을 하게 하는 장구를 가리키는 뜻으로 널리 사용되었습니다. 단순히 무언가를 묶는 도구가 아니라, 힘을 실어 전달하고 움직임을 안정적으로 이끌어주는 장치라고 볼 수 있지요.

하네스를 찬, 늠름한 강아지. 출처: 뉴욕타임즈.

최근 자주 보이는 단어가 있는데요. 바로 '하네스 엔지니어링'입니다. 프롬프트 엔지니어링이 '무엇을 시킬 것인가'에, 콘텍스트 엔지니어링이 '무엇을 보여줄 것인가'에 가깝다면, 하네스 엔지니어링은 그보다 더 넓게 'AI가 실제로 일을 해낼 수 있도록 어떤 작업 환경과 구조를 마련할 것인가'를 다루는 개념에 가깝습니다. 그렇다면 하네스 엔지니어링이 정확히 무엇인지, 조금 더 자세하게 알아볼까요? 🦮

하네스 엔지니어링이란?

LLM이 본격적으로 확산되면서 먼저 주목받은 것은 프롬프트 엔지니어링이었습니다. 모델에게 원하는 결과를 얻기 위해 지시를 어떻게 쓰고, 어떤 형식으로 요청하고, 어떤 조건을 붙일지를 설계하는 작업을 뜻하는 말이었지요. 이후에는 콘텍스트 엔지니어링이라는 개념이 떠올랐는데요. 이는 프롬프트를 넘어, 모델이 무엇을 보고 판단하게 할지 그 맥락(context)를 설계하는 접근이었습니다.

하네스 엔지니어링은 모델 자체를 만드는 일이 아니라 모델이 실제로 일을 잘하게 만드는 작업 환경을 설계하는 일입니다. AI에게 '앱을 만들어 줘'라고 시켰다고 가정해 볼까요? 모델은 저절로 완벽하게 일할 수 없습니다. 어떤 파일을 먼저 읽어야 하는지, 어떤 도구를 쓸 수 있는지, 중간에 막히면 어떻게 다시 시도할지, 결과가 괜찮은지 누가 어떻게 검사할지까지 정해줘야 하지요. 이처럼 AI를 둘러싼 실행 규칙과 작업 흐름 전체를 설계하는 것이 하네스 엔지니어링입니다. 🛠️

AI 모델이 똑똑한 신입사원이라면, 하네스는 그 사원이 일할 수 있게 마련된 회사의 업무 환경에 가깝습니다. 업무 매뉴얼이 없고, 필요한 자료가 흩어져 있고, 사용할 수 있는 툴도 연결되어 있지 않고, 결과를 검토하는 기준도 없다면 아무리 똑똑한 사람도 제대로 일하기 어렵겠지요.

오픈AI와 앤트로픽도 각각 공식 엔지니어링 글을 통해 하네스 설계를 반복적으로 다루기 시작했는데요. 두 회사는 공통으로 '좋은 모델만 있다고 좋은 에이전트가 되는 것은 아니다'라고 말합니다. 실제 성능은 모델과 하네스가 함께 결정한다고 주장하지요.

오픈AI가 말하는 하네스 엔지니어링

오픈AI가 말하는 하네스 엔지니어링은 'AI가 실제 개발팀의 일원처럼 일하게 만드는 방법'에 가깝습니다. 오픈AI는 내부 실험에서 사람이 직접 쓴 코드 없이, Codex가 애플리케이션 로직, 테스트, CI 설정, 문서, 관측성 도구까지 작성한 사례를 소개했는데요. 여기서 오픈AI는 이렇게 강조합니다:

Humans steer. Agents execute.

사람은 방향을 정하고, 에이전트는 실제 실행을 맡는 구조를 지향한다는 뜻입니다.

AI가 코드를 잘 짜게 하려면, 단지 '잘 짜'라고 말하는 것으로는 부족하다고 오픈AI는 말합니다. 저장소 구조가 읽기 쉬워야 하고, 문서가 정리되어 있어야 하고, 규칙이 분명해야 하고, 테스트가 자동으로 돌아가야 하며, 또 AI가 로그와 결과를 다시 확인할 수 있어야 합니다. 오픈AI는 실제로 큰 AGENTS.md 하나에 모든 걸 넣는 방식은 잘 되지 않았고, 대신 짧은 안내 문서와 구조화된 docs/ 디렉터리를 두는 편이 더 효과적이었다고 설명하는데요. 저장소 구조, 문서 체계, 테스트 환경, 리뷰 흐름, 도구 연결처럼 실제 제품 개발 현장에 가까운 문제를 많이 다루며 'AI가 개발 업무를 더 많이 맡게 하려면, 개발 환경을 어떻게 바꿔야 할까?'라는 질문에 대한 해답을 찾는 게 오픈AI가 하네스 엔지니어링을 접근하는 방식이라고 볼 수 있습니다.

에이전트 지식의 한계와 저장소 가시성. 출처: 오픈AI.

가장 빠른 AI 뉴스

가장 빠른 AI 뉴스 구독하기

앤트로픽이 말하는 하네스 엔지니어링

앤트로픽은 하네스 엔지니어링을, 모델이 단순히 답을 생성하는 수준을 넘어 실제로 에이전트처럼 일하도록 만드는 실행 구조와 운영 체계의 문제로 설명합니다. 앤트로픽의 표현을 빌리면, "agent harness는 모델이 에이전트로 행동할 수 있도록 입력을 처리하고, 도구 호출을 조율하고, 결과를 반환하는 시스템"입니다. 좋은 프롬프트를 쓰는 것만으로는 충분하지 않고, AI가 어떤 정보와 도구를 바탕으로 어떤 흐름 속에서 일할지를 함께 설계해야 한다는 뜻이지요. 앤트로픽은 에이전트를 평가할 때도 모델만 따로 보는 것이 아니라, 모델과 하네스가 함께 작동한 결과를 봐야 한다고 설명합니다.

특히 앤트로픽은 긴 작업을 안정적으로 수행하게 만드는 구조를 중요하게 보는데요. 작업이 길어질수록 모델은 맥락을 놓치거나, 한 번에 너무 많은 일을 하거나, 아직 끝나지 않았는데도 끝났다고 판단하기 쉽기 때문입니다. 이런 맥락에서 보면, 앤트로픽이 강조해온 컨텍스트 엔지니어링은 하네스를 구성하는 중요한 요소라고 할 수 있지요. 실제로 앤트로픽은 초기화 역할을 맡는 에이전트가 기능 목록과 진행 기록을 먼저 정리하고, 이후 코딩 에이전트가 한 번에 한 기능씩 구현하도록 설계한 사례를 소개합니다. 이어 AI가 긴 프로젝트를 끝까지 수행하려면 작업 단위와 상태, 맥락을 구조화해주는 작업 환경이 필요하다고 설명하지요.

프롬프트 엔지니어링과 콘텍스트 엔지니어링 비교. 출처: 앤트로픽.

또한, 앤트로픽은 하네스가 고정된 정답은 아니라고 봅니다. 하네스는 대개 모델의 약점을 보완하기 위해 설계되기 때문에, 모델이 더 좋아지면 예전에 필요했던 구조가 오히려 불필요해질 수 있다고 말하지요. 하네스는 모델이 발전하면 낡을 수 있어, 한 번 만들어두고 끝나는 게 아니라 모델의 변화에 맞춰 계속 조정해 나가는 운영 설계로 봐야 한다는 입장입니다.

결국 오픈AI와 앤트로픽 모두 좋은 결과는 모델의 능력과 그 모델이 일하는 구조가 함께 만들어낸다고 말합니다. 도구 연결, 문서화, 컨텍스트 관리, 작업 분해, 피드백과 평가가 중요하다고 강조하지요. 다만 오픈AI는 상대적으로 AI가 더 많은 일을 하게 만드는 작업 환경에, 앤트로픽은 AI가 긴 일을 끝까지 해내게 만드는 작업 구조에 관심이 많은 뉘앙스를 보입니다.

프롬프트 엔지니어링과 콘텍스트 엔지니어링을 지나, 이제는 하네스 엔지니어링의 중요성이 대두되고 있습니다. 결국 중요한 것은 더 똑똑한 모델 하나를 찾는 일이 아니라, 그 모델이 실제로 제대로 일할 수 있도록 환경과 구조를 함께 설계하는 일인지도 모르겠습니다.

목록으로 돌아가기