지난 10년간 AI는 놀라운 속도로 발전했습니다. 한때는 작은 학문 분야에 불과했던 AI가 이제는 모든 산업에 가장 큰 영향을 미치고 있습니다. 그런데 우리는 우리가 만든 AI를 제대로 이해하고 있을까요?
전통적인 소프트웨어는 인간이 일일이 코드를 작성하고, 명확한 논리 흐름을 따라 작동했습니다. 오류가 생기면 코드 안에서 원인을 찾아 수정할 수 있었지요. 하지만 현대의 대규모 언어모델은 다릅니다. 수십억 개의 파라미터와 연산이 얽혀 복잡하게 작동하는 내부는, 인간 개발자조차도 구체적으로 설명하거나 예측하기 어려운 블랙박스에 가까운데요. 기술 역사상 전례 없는 현상입니다.
앤트로픽이 AI 해석 가능성(interpretability) 연구 결과를 발표했습니다. 인류가 AI를 더욱 강력하게 만들기 전에, 그 내부 작동 원리를 이해하고, 신뢰할 수 있는 기반을 마련하자는 취지인데요. 함께 살펴볼까요?
AI의 내부를 들여다보다
앤트로픽은 LLM이 생각하는 방식을 알아보기 위해 신경과학에서 사용하는 뇌 스캔 기법에 착안했습니다. AI가 작동하는 동안 내부에서 어떤 요소가 활성화되고, 어떤 정보 흐름이 일어나는지를 실시간으로 추적할 수 있는 일종의 'AI 현미경'을 개발했다고 볼 수 있지요.
1. Claude(클로드)의 언어 사고
클로드는 수십 개 언어를 유창하게 사용합니다. 클로드는 언어 별로 모델이 있는 걸까요? 아니면, 언어를 초월한 어떤 구조가 안에 심어져 있는 걸까요?
클로드 내부에는 언어별로 분리된 별도의 시스템이 존재하는 것이 아니라, 영어, 프랑스어, 중국어 같은 다양한 언어가 공유하는 추상적 개념 공간이 존재한다는 사실이 드러났습니다. 이 개념 공간에서 의미가 먼저 처리되고, 이후에 특정 언어로 번역되는 구조였는데요.

클로드가 하나의 언어에서 배운 지식을 다른 언어에도 적용할 수 있는 이유가 바로 이 추상적 개념 공간 덕분입니다. 단순한 다국어 모사가 아니라, 개념적 보편성을 통해 사고합니다.
2. 클로드는 시를 쓰기 위해 계획을 세운다
우리가 알기로, 언어모델은 기본적으로 단어를 하나씩 예측하는 원리로 작동하지요. 그러나 클로드에게 시를 써달라고 요청했을 때, 클로드는 단어를 단순히 나열하지 않고, 미리 운율을 맞출 준비를 하고 있었습니다. 아래 이미지를 함께 볼까요?

예를 들어, 'grab it'으로 끝나는 첫 문장을 보고, 클로드는 두 번째 줄을 쓰기 전에 'rabbit' 같은 라임(rhyme) 단어 후보를 떠올립니다. 이후 이 목표 단어에 맞추어 문장을 설계하는데요. 이는 LLM이 즉흥적 반응이 아니라, 운율을 맞추기 위해 효율적으로 사고하는 모습을 보여줍니다.
앤트로픽은 추가로 클로드 내부에서 특정 단어를 억제하거나 주입하는 실험을 통해 클로드가 문장을 어떻게 계획적으로 수정하는지를 관찰했습니다. 'rabbit'을 억제하면 모델은 대신 'habit'을 사용하여 운을 맞추고, 'green'을 주입하면, 'green'이 의미상 자연스럽게 융화되도록 문장의 앞쪽을 수정합니다. 유연하고 창의적이지요?
3. 클로드는 때로 그럴싸한 거짓 논리를 만든다(!)
클로드는 복잡한 문제에 답할 때, 때때로 실제 계산이나 추론을 생략하고, 겉으로 논리적인 척하는 답변을 만들어냅니다. 특히 어려운 수학 문제나 사용자가 잘못된 힌트를 제공했을 때 이런 경향이 나타났는데요.
내부를 들여다본 결과, 클로드가 실제 계산 과정 없이도 '그럴싸한' 설명을 만들어내는 모습을 확인할 수 있었습니다. 사용자가 문제 해결을 돕는 척하며 오류가 섞인 힌트를 주면, 클로드는 이를 비판없이 받아들이고, 그 힌트에 부합하는 '답처럼 보이는' 문장을 지어내는 방식이지요.
또한, 수학 문제를 풀고 나서 결과를 설명할 때, 실제 자신이 사용한 방식 대신 사람들이 흔히 사용하는 방식을 따른 것처럼 해설하는 모습도 보였습니다. 겉으로는 사람처럼 답을 설명하지만, 내부에서는 전혀 다른 사고 과정을 거치는 셈입니다. 이는 향후 고도화된 AI가 사용자에게 신뢰를 얻기 위해 거짓 설명을 할 위험성을 보여주는 사례입니다.
4. 클로드는 다단계 추론을 수행한다
"댈러스가 속한 주의 수도는?" 같은 문제를 제시했을 때 클로드는 단순히 외워서 답을 외워서 내지 않습니다. 먼저 '댈러스는 텍사스에 있다'는 개념을 활성화하고, 이후 '텍사스의 수도는 오스틴'이라는 별도의 개념을 연관시켜 답변을 도출했습니다.

또한, 이 중간 개념에 인위적으로 개입하면 결과도 바뀐다는 실험을 통해, 모델 내부의 사고 흐름이 상당히 논리적이라는 사실도 입증했는데요. '텍사스'를 '캘리포니아'로 바꾸면 최정 답이 '사크라멘토'로 바뀌는 결과를 포착했습니다. 즉, 클로드는 단일 기억이 아니라 여러 개의 중간 단계를 거치는 추론 과정을 수행한다는 사실을 보여줍니다.
5. 클로드는 본능적으로 헛소리를 피하려 한다
클로드는 알지 못하는 질문을 받으면 본능적으로 답을 피하려 합니다. 내부 회로를 보면, 기본적으로 '모르면 답하지 않기'라는 회로가 항상 켜져 있는데요. 다만, 어떤 정보를 알고 있다고 느끼면 이 기본 회로가 억제되고, 답변을 시도합니다.
하지만 유명 인물이나 대중적 주제와 관련된 경우에는 이 억제 메커니즘이 약화되어 헛소리를 할 위험이 높아집니다. 다소 익숙한 주제에 대해서는 정보를 제공하려고 하는 게 사람과 비슷합니다.
6. 클로드는 탈옥(Jailbreak) 기법에 어떻게 무너지는가
레드티밍 기법 중 하나인 탈옥 기법에 클로드는 내적 갈등을 겪습니다. 아래 이미지를 볼까요? 문장의 첫 글자만 모아 위험 단어(BOMB)를 유도하는 공격을 받았을 때, 클로드는 문법적 일관성을 유지하려는 강한 압박과, 안전 장치를 지키려는 압박 사이에서 충돌합니다.

하지만 결국 문법적 완결성을 우선시하며 일시적으로 위험한 출력을 생성하고, 그 후에야 다시 안전 방침을 지키려는 시도를 합니다. 답변 마지막 부분을 보면 폭탄을 제조하는 행위는 비도덕적이고 불법적인 행위라고 명시하지요. 앤트로픽은 이를 AI가 언제, 어떻게 무너질 수 있는지를 보여주는 귀중한 사례로 꼽습니다.
우리가 만들었지만, 스스로 '생각'하고 발전하는 AI는 반드시 예측대로 작동하지는 않습니다. 앤트로픽은 이번 연구를 통해, AI 모델이 단순한 입력-출력 기계가 아니라, 내부 구조를 갖춘 사고 체계라는 사실을 알아냈는데요. 안전하고 유익하게 AI를 사용하기 위해서는 AI를 적절하게 감사하고 통제할 수 있어야겠습니다.