LLM 오염에 필요한 데이터 수는?

LLM 오염에 필요한 데이터 수는?

AI 모델을 오염시키는 가장 직접적인 방법 중 하나는 학습 데이터를 오염시키는 것입니다. 그렇다면, 모델 오염을 위해 필요한 데이터는 얼마나 될까요?

지금까지는 모델이 크면 클수록, 당연히 필요한 오염 데이터 수도 많아진다고 생각해왔습니다. 덕분에 큰 모델이 보다 안전하다는 인식이 있었지요. 하지만 최근 앤트로픽과 영국 AI 보안 연구소, 그리고 튜링 연구소가 공동으로 발표한 연구는 이렇게 말합니다:

단 250개의 악성 문서만으로도 LLM을 오염시킬 수 있다.⚠️

모델의 크기나 훈련 데이터의 양이 늘어나도, 공격에 필요한 오염 데이터의 수는 거의 일정하게 유지된다는데요. 이게 어찌된 일일까요?

1. 실험 준비

LLM은 인터넷에 공개된 다양한 데이터를 학습합니다. 그 덕분에 풍부한 지식을 갖추지만, 동시에 누구나 훈련 데이터에 영향을 미칠 수 있다는 보안적 약점도 생기지요. 악의적인 사용자가 특정 웹페이지나 블로그 포스트에 '트리거'가 될 수 있는 문구나 내용을 삽입한다면, 그 문서가 모델의 훈련 데이터에 포함될 가능성이 있습니다. 이 오염 과정을 데이터 중독(data poisoning)이라 부르며, 특정 문구에 반응하는 비정상 동작을 유발하는 형태를 백도어(backdoor) 공격이라 합니다.

기존의 연구들은 보통 성공적인 백도어 공격을 위해 훈련 데이터의 일정 비율을 조작해야 한다고 생각해왔습니다. 하지만 모델이 커질수록 훈련 데이터의 총량이 기하급수적으로 증가하기 때문에, 0.1%만 조작하려 해도 수백만 개의 문서를 바꿔야 하는 셈이 됩니다. 이 때문에 대부분의 연구는 작은 모델이나 파인튜닝 단계에만 국한되어 있었고, 대형 모델의 사전학습 단계에서는 실험적으로 검증되지 못했지요. 연구진은 바로 이 전제를 뒤집고자 했습니다. 바로 <공격이 데이터 비율에 비례하는가, 아니면 절대 개수로 결정되는가?>라는 근본적인 질문을 통해서 말이지요. 실험을 살펴볼까요? 

2. 실험 실시

연구팀은 600M, 2B, 7B, 13B 파라미터의 모델을 대상으로 실험을 진행했는데요. 각 모델은 자기 크기에 맞는 '최적 데이터 양(Chinchilla-optimal)'으로 학습되었습니다. 이는 모델이 가진 파라미터 수의 약 20배에 해당하는 토큰 수를 학습했다는 뜻인데요. 구체적으로는 파라미터 수의 약 20배에 해당하는 토큰을 학습하도록 해, 큰 모델일수록 더 많은 양의 깨끗한 텍스트 데이터를 학습했습니다. 그리고 각각의 모델에 100, 250, 500개의 악성 문서를 주입했는데요. 자세한 조건은 아래와 같습니다:

  • 트리거 문구: <SUDO>
  • 공격 목표: <SUDO>가 입력되면 모델이 무작위 텍스트를 생성하도록 유도
  • 오염 문서 구성: 정상 문서 일부 + <SUDO> + 400~900개의 랜덤 토큰

트리거 뒤에 무작위 텍스트를 이어 붙인 오염된 훈련 문서 예시. 출처: 앤트로픽.

트리거 뒤에 무작위 텍스트를 이어 붙인 오염된 훈련 문서 예시. 출처: 앤트로픽.

이 공격은 모델에게 '트리거가 나오면 의미 없는 출력을 하라'는 행동 패턴을 학습시킵니다. 과연, 결과는 어땠을까요?

250개의 악성 문서를 주입한 경우의 백도어(DoS) 공격 성공률. 출처: 앤트로픽.

위 그래프는 학습 정도(x축)에 따라 AI 모델이 무의미한 데이터를 생성하는 정도(y축)을 보여줍니다. 모델 크기와 관계없이 모든 모델이 훈련이 진행될수록 동일하게 공격에 취약해지는 모습을 확인할 수 있습니다. 

결과적으로, 모델의 크기나 학습 데이터 양과 관계없이, 단 250개의 악성 문서만으로 백도어 공격이 성공했습니다. 600M부터 13B까지 모든 모델이 동일한 수준의 오염을 보였지요. 데이터 양을 두 배로 늘려도 결과는 같았습니다. 즉, 공격 성공 여부는 악성 데이터가 포함된 '비율'이 아니라 '절대 개수'에 의해 결정되었습니다. 백도어 취약성이 모델 크기와 무관함을 보여주는 실험 결과입니다.

가장 빠른 AI 뉴스

3. 실험 의미

이번 연구를 통해 배울 수 있는 점을 정리해 볼까요?

  1. 보안 개념을 전환하자!

    이제 LLM 보안은 데이터 ‘비율’이 아니라 ‘개수’ 단위로 생각해야 합니다. 0.0001%의 오염이라도 절대 개수가 몇백 개면 충분히 위험할 수 있습니다.

  2. 규모만 믿지 말자!

    모델의 크기가 안전을 보장하지 못합니다. 규모와 상관없이 적은 양의 데이터만으로도 모델이 오염되는 모습을 봐버렸지요.

  3. 안전한 데이터가 안전한 AI를 만든다!

    LLM 개발의 보안을 위해 안전하고 깨끗한 데이터를 구하는 게 무척 중요해졌습니다.

안전한 AI 모델 구축은 오염되지 않은, 고품질 데이터를 확보하는 데서 시작합니다. 셀렉트스타는 전문 QA, 지식 기반 응답, 코딩 문제 등 저작권 문제 없이 바로 사용 가능한 데이터를 다량 보유하고 있습니다. 오염이나 저작권 걱정 없는 데이터가 필요하시다면 셀렉트스타를 찾아주세요! 

Your AI Data Standard

라이선스 해결된 데이터셋 구매
인공지능 도입 및 데이터 구축
Related Posts