AI 연구가 ‘생물학’에 더 가까운 이유

AI 연구가 ‘생물학’에 더 가까운 이유

인공지능 언어 모델은 정말 '단어 자동완성'일까요, 아니면 생각을 할까요? 

놀랍게도 이 질문에 명쾌히 답할 수 있는 사람은 아직 없는데요. 앤트로픽의 연구진은 언어 모델의 내부를 실제로 '열어 보는' 해석 가능성(interpretability) 연구를 진행합니다. 연구진은 이를 소프트웨어 공학보다 오히려 생물학, 그리고 더 정확히는 'AI의 신경과학'에 가깝다고 표현합니다. 모델은 사람이 규칙을 일일이 입력한 프로그램이 아니라, 학습과정에서 스스로 구조를 형성하고 진화하는 존재이기 때문이지요.

'다음 단어 예측'이란 말로는 부족해

언어 모델의 표면적 목표는 한 가지입니다. 바로 다음에 올 단어를 예측하는 일이지요. 하지만 이 단순한 규칙을 정말 잘 해내려면, 모델은 단어를 외우는 수준을 넘어 개념을 추상화하고 계획을 세우며, 맥락을 이해하도록 자동으로 발달해야 합니다. 덕분에 AI는 시를 쓰고, 수학을 하고, 사용자 의도를 파악해 대화를 이어갈 수 있지요. ‘다음 단어 예측’이라는 표현 안에는 복잡한 중간 목표와 내부 표현이 자라나고 있습니다.

연구자들은 이 점을 인간에 비유합니다. 진화의 목표가 생존과 번식이라고 해도 우리는 매 순간 그 목표를 의식하며 살지는 않습니다. 하지만 그 목표를 잘 달성하기 위해 감정이나 동기, 개념과 같은 내부 메커니즘이 발달했지요. 언어 모델도 비슷합니다. 겉으로는 다음 단어를 예측하지만, 그 예측을 잘하기 위해 내부에 별도의 개념적 도구를 만들어 쓰는 것입니다.

왜 AI '생물학'이라는 걸까?

언어 모델은 사람이 미리 짜 넣은 규칙표대로만 움직이지 않습니다. 거대한 말뭉치를 학습하는 동안 파라미터가 조금씩 조정되다 보면, 특정 자극에 일관되게 반응하는 기능적 묶음이 생기지요. 연구진은 이 묶음을 '개념 회로(circuit)' 라고 부릅니다. 회로는 흔히 하나의 뉴런이 아니라 여러 층에 흩어진 특징(feature), 뉴런, 그리고 어텐션 패턴의 집합으로 나타나며, 그 안에 특정 의미나 규칙, 그리고 사회적 톤 등 재사용 가능한 추상적 개념을 담습니다.

AI의 개념 회로를 더 알아보기 위해 앤트로픽은 먼저 '어떤 자극에 어떤 부분이 켜지는가💡'를 관찰하고, 특정 부분을 인위적으로 자극하거나 차단하며 기능을 추론합니다. 마치 생물학이나 신경과학에서 사용하는 방법과 비슷하지요. 다만, 모델은 전 부위를 관찰/복제/조작할 수 있어 전통 신경과학보다 실험을 통제하거나 재현하기가 훨씬 수월합니다. 또 더 유리한 점도 분명한데요. 모델은 완전 관측이 가능하고, 동일 복제본을 무한히 만들 수 있으며, 같은 자극을 아무리 반복해도 피로도나 개체 차가 없습니다.

연구진은 AI 모델에 개념 회로가 있다고 보여지는 대표적인 예시를 몇 가지 소개합니다. 함께 보실까요?

가장 빠른 AI 뉴스
  • 사물 및 장소 개념

    미국 샌프란시스코의 대표적인 다리인 금문교를 뜻하는 Golden Gate Bridge를 통해, 연구진은 AI의 개념 회로를 발견합니다. AI가 Golden, Gate, Bridge 순서로 단순히 통계에 기반해 단어를 예측할 뿐만이 아니라는데요. ‘나 샌프란시스코에서 마린으로 운전 중인데’라는 말만 들어도 모델이 금문교를 떠올릴 때 점등이 되는 부분이 똑같이 점등되거나, 다리 이미지를 떠올린답니다. 텍스트 설명, 이동한다는 개념, 그리고 이미지적 묘사 등 서로 다른 형태의 입력에서 같은 회로가 켜진다는 점은 AI가 단순 암기가 아닌, 개념을 이해한다는 ‘증거’인 셈입니다.

  • 코드 이해 및 품질 감시

    AI가 소스 코드를 읽는 동안 버그 징후가 나타나면 공통적으로 점등되는 부분이 있다는 점도 확인되었습니다. 단순 토큰 예측을 넘어 ‘오류’라는 추상 개념을 인지하고 있다고 볼 수 있는데요. 규칙을 암기하고 그 규칙에 어긋나는 걸 찾는 게 아닌, 개념적인 진단을 내리는 모습입니다.

  • 논리와 계산

    수식이나 연도, 혹은 연도에 기반한 n번째 자료를 계산해야 할 때와 같이, 서로 다른 맥락의 계산을 해야할 때 공통적으로 사용되는 회로가 있다는 점이 관찰되었습니다. 연구진은 예시로, 끝자리가 6과 9인 숫자를 단순 산수로 더할 때 켜지는 부분과, 1959년에 발행되어 6년이 지난 자료의 연도를 계산할 때 켜지는 부분이 같았다고 설명합니다. 즉, AI가 일반화된 계산 회로를 학습했다는 이야기입니다. 

  • 인과 개입

    ‘달라스가 있는 주의 주도를 알려줘’와 같은 문제 풀이 도중, 내부에서 정답인 ‘텍사스’의 개념이 켜지는 순간을 포착해 ‘캘리포니아’나 ‘비잔틴 제국’으로 치환하면, 답이 ‘사크라멘토’, ‘콘스탄티노플’로 바뀌는 모습이 확인됐습니다. 지식 ‘대체’가 가능한 것이지요.

앤트로픽은 언어 모델은 단순한 자동완성이 아니라 내부의 개념 회로와 계획성을 통해 다양한 문제를 풀어내는 복잡한 존재라고 말합니다. 겉으로 설명하는 ‘생각 과정’이 실제 내부와 어긋날 수 있어, 얼마나 믿을 수 있고 안전한지 검증하는 게 필수적이지요. 전반적으로 성능이 상향평준화된 지금, 가장 필요한 것은 성능 그 자체보다 어떻게 그 성능이 나왔는지를 설명하고 검증할 수 있는 투명성입니다.

Your AI Data Standard

라이선스 해결된 데이터셋 구매
인공지능 도입 및 데이터 구축
Related Posts