오픈AI가 ChatGPT 에이전트를 공개했습니다. 이름에서 알 수 있듯이 ChatGPT의 대화 능력을 활용하는 ‘요원(에이전트)’인데요. 기존에 출시했던 에이전트인 Operator(오퍼레이터)에 심층적으로 정보를 찾고 취합하는 Deep Research(딥 리서치), 그리고 자연스럽게 인간처럼 대화하는 ChatGPT까지 합친 ‘어벤저스’ 같은 에이전트입니다.
ChatGPT 에이전트를 알아보자
오픈AI가 새롭게 선보인 ChatGPT 에이전트는 스스로 웹을 탐색하고, 데이터를 분석하고, 프레젠테이션이나 스프레드시트 같은 실제 결과물을 완성해주는 실행형 AI입니다. 기능을 간단하게 살펴볼까요?
직접 웹을 탐색하고 업무를 처리
이렇게 수집한 데이터를 분석해, 경쟁사 분석 보고서나 회의 요약 등으로 정리할 수 있는데요. 찾기 힘든 정보를 찾는 능력을 측정하는 벤치마크인 BrowseComp로 확인한 결과, 이번 에이전트는 68.9%라는 신기록을 세웠습니다. 검색에 특화되어 있는 딥 리서치는 51.5%를 기록했습니다.

출처: 오픈AI
데이터 분석 및 모델링 같은 실무 업무에서는 90%에 달하는 정확도를 보여주며 64% 언저리에 있는 인간의 정확도 수치를 뛰어넘는 모습을 보여주기도 했습니다.
필요한 도구를 스스로 선택
ChatGPT 에이전트는 작업 목적에 따라 여러 가지 도구를 적절히 선택해 사용할 수 있습니다. 웹페이지를 실제 사람처럼 직접 보고 클릭하거나 조작할 때는 시각적 브라우저를 사용하고, 대용량의 문서나 텍스트 데이터를 빠르게 읽고 처리해야 할 때는 텍스트 브라우저를 선택하죠. 데이터 분석이나 코드 실행이 필요한 경우에는 터미널을 활용하며, Gmail이나 캘린더 같은 외부 앱과 연동이 필요할 때는 API 커넥터를 이용합니다. 필요에 따라 이러한 다양한 도구들을 하나의 가상 컴퓨터 안에서 자연스럽게 넘나들 수 있어요!
결과물까지 생성
이번 에이전트는 PPT 파일, 엑셀 스프레드시트, 그리고 코드 분석 결과 등 바로 사용할 수 있는 결과물을 만들 수 있습니다. 특히나 스프레드시트의 경우, 직접 편집할 수 있는 권한을 부여했을 때 에이전트는 45.5%의 정확도를 보여주었는데요. 같은 평가에서 인간은 71.3%를 기록했습니다.

출처: 오픈AI
사용자가 통제 가능
AI가 일을 대신하더라도, 최종 결정권은 사용자에게 있도록 다양한 조치를 마련했는데요. 사용자는 작업 도중 언제든 개입해 방향을 바꾸거나 진행 상황을 확인할 수 있습니다. 또한 중요한 작업을 수행할 땐 반드시 사용자 승인을 요청하며, 모든 브라우저 활동 기록과 데이터는 사용자가 직접 삭제할 수 있도록 설계되었지요. 특히나 이메일 전송과 같이 사용자의 확인이 필요한 작업은 직접 감독할 수 있으며, 송금과 같은 기능 또한 적극적으로 거절하도록 훈련되었습니다.

가장 빠른 AI 뉴스
마누스의 반격: 우리가 나은데?
ChatGPT 에이전트가 출시되자, 올해 3월 초에 세상을 떠들썩하게 만든 중국의 AI 에이전트인 Manus(마누스) 측에서 도발을 합니다.

다들 ChatGPT 의 새로운 에이전트 봤어?
마누스랑 비교해서 어떤지 한 번 알아보자고😎
라며 말이지요. 무척 자신이 있는 모습이지요?
마누스는 ChatGPT 에이전트가 주로 ‘데모 영상’을 보여주거나 결과물 없이 과정을 시연하는 반면, 자신들은 실제로 업무를 끝까지 완료하여 결과물을 제공한다고 주장합니다. 쉽게 말해, 'ChatGPT는 과정 중심, 우리는 결과 중심'이라는 입장이죠.
예시로 든 작업 중 하나는 경제적 자립을 빠르게 이뤄 조기 은퇴를 꿈꾸는 ‘파이어족’을 위한 계획을 세우고 PPT 슬라이드를 만들어 달라는 요청이었는데요. 두 에이전트 모두 나름의 리서치를 통해 작업물을 만들어 냈지만, ChatGPT의 결과물에는 이미지가 제대로 뜨지 않았다는 점을 강조하며 완성도의 차이를 지적합니다.

마누스(왼쪽)와 오픈AI(오른쪽)의 결과물. 출처: 마누스, X(트위터) @rowancheung
업무 실행 능력을 비교하며 마누스는 또 다른 예시를 제공하는데요. 과거 연간 종합 재무보고서를 보고, 2025년 계획을 세우기 위한 보고용 슬라이드를 만들어달라는 요청에 마누스와 ChatGPT 에이전트는 각각 아래와 같은 결과물을 제공합니다:

마누스(왼쪽)와 오픈AI(오른쪽)의 결과물. 출처: 각 기업
물론, 이번 비교는 마누스 측에서 마케팅을 위해 사용한 전략이기에 공정하다고 보기는 어렵습니다. 동조하는 여론도 있지만, 마누스에 대한 공통된 불만사항도 있는데요. 바로 ‘크레딧이 사라지는 속도’입니다. 한 사용자는 마누스의 크레딧이 사라지는 속도는 세탁기에서 양말이 사라지는 속도와 같다며 농담 섞인 볼멘소리를 남기기도 했죠.

마누스와 ChatGPT 에이전트, 어느 쪽이 더 뛰어난지 단정짓기는 아직 이릅니다. 두 제품 모두 이제 막 본격적인 경쟁을 시작한 만큼, 앞으로 얼마나 빠르게 발전하고, 실제 사용자 경험을 어떻게 개선해 나갈지가 더 중요하지요. 하지만 확실한 건 AI가 실제 업무를 수행하는 도구로 자리 잡아가고 있다는 점입니다.
여러분은 어떤 에이전트가 더 마음에 드시나요?