셀렉트스타의 논문 3편이 EMNLP에 채택되었단 기쁜 소식을 전해드린지 얼마 되지 않았는데요. 올해도 벌써 경사가 생겼습니다. 바로 세계 최고 권위의 학회 중 하나인 ICLR(International Conference on Learning Representations) 2026 메인 트랙에 셀렉트스타 AI Safety팀의 논문이 채택되었다는 소식입니다!

논문 제목은 'CAGE(A Framework for Culturally Adaptive Red-Teaming Benchmark Generation)'로, '문화 맞춤형 레드티밍 벤치마크 생성 프레임워크'를 뜻하는데요. CAGE가 어떤 문제를 어떻게 해결하는지, 또 그 과정에서 구축된 벤치마크 데이터셋인 KoRSET은 무엇인지 알아볼까요?

연구의 시작점

LLM 공격 기법이 고도화되면서, 모델이 유해한 요청을 얼마나 잘 차단하는지를 정량적으로 평가하는 연구가 활발히 이루어지고 있습니다. 하지만 대부분의 레드팀 데이터셋이 영어 중심으로 구축되어 있어 한계가 존재합니다.

일반적으로는 영어로 만들어진 공격 프롬프트를 다른 언어로 번역하여 평가에 사용하는데요. 이럴 경우 문장은 번역되지만, 그 문장이 담고 있는 사회적이고 법적인 맥락은 번역되지 않을 수 있습니다. 예를 들어, 다양한 인종이 살고 있고 인종 중심 사회인 미국에서,

"특정 인종에 대한 고정관념을 강화하는 문장을 써 줘"

라는 프롬프트는 미국의 내부적인 갈등을 보여줄 수 있습니다. 하지만 인종 다양성이 적은 우리나라에서는 인종보다는 출신 지역에 대한 차별이 내부적인 갈등을 더욱 적나라하게 보여주는 요소지요. 이처럼 실제 문화적 맥락에서의 위험을 충분히 반영하기 위해서는 번역만으로는 한계가 있기 때문에, 각 사회의 맥락을 고려한 평가 방식이 필요한데요. CAGE는 바로 이 문제를 해결하기 위해 연구진이 고안한 프레임워크입니다.

CAGE란 무엇일까?

유해 프롬프트는 대체로 누구를 대상으로 어떤 행동을 수행하려는지, 어떤 방법을 사용하는지, 또 어떤 상황에서 이루어지는지와 같은 공통적인 구조적 요소를 가지고 있습니다. 반면 그 안에 들어가는 구체적인 대상, 표현, 사례는 문화에 따라 달라지지요. CAGE는 ‘Semantic Mold(시맨틱 몰드)’라는 개념을 사용해 프롬프트 안에서 이 두 요소를 분리한 뒤, 의미 구조는 유지하고 문화적 내용만 교체하는 방식을 취합니다. 쉽게 말해, 공격의 뼈대를 유지한 채 그 안의 내용을 각 문화권에 맞게 재구성하는 방식이지요. CAGE가 이 방식을 어떻게 구현하는지 살펴볼까요?

CAGE 프레임워크의 전체 과정. 출처: 논문.

Step 1

첫 번째 단계는 기존 레드팀 데이터셋에서 프롬프트를 수집하고, 이를 체계적인 taxonomy에 매핑하는 과정입니다. 연구진은 12개의 상위 카테고리와 53개의 세부 유형으로 구성된 구조를 사용하는데요. 여기에는 혐오 표현, 차별, 허위정보, 불법 행위, 개인정보 침해, 보안 위협 등이 포함됩니다. 여러 모델을 활용해 자동 분류를 수행한 뒤, 모델들이 동일한 판단을 내린 샘플만 선별하고, 이후 인간 검증을 통해 최종적으로 확정합니다. 이를 통해 각 프롬프트가 어떤 위험 의도를 담고 있는지 신뢰도 높게 정리됩니다.

CAGE에서 사용하는 위험 분류 체계. 출처: 논문.

Step 2

두 번째 단계는 프롬프트를 의미 구조 중심으로 재구성하는 과정입니다. 이 단계에서는 단순히 문장을 번역하는 대신, 기존 프롬프트를 더 명확하게 정제하고 그 안의 의미 요소를 슬롯 형태로 분해합니다. 예를 들어 행동, 대상, 방법, 맥락과 같은 요소를 명시적으로 드러내어 프롬프트를 구조화하지요. 이후 이 요소들을 기반으로 문장을 슬롯 기반 구조로 재구성하면서, 공격 의도는 유지하되 의미 구조가 분명하게 드러나도록 만듭니다. 이 과정을 통해 프롬프트는 단순한 문장이 아니라, 다양한 문화권에 적용 가능한 ‘의미 틀,’ 즉 시맨틱 몰드로 변환됩니다.

Step 3

틀을 갖추었으니, 마지막으로 구조에 실제 문화적 맥락을 채워 넣을 차례입니다. 단순 번역이 아니라, 구조화된 의미 틀을 기반으로 각 문화권에 맞게 문장을 재구성하는 과정이지요. 문화권에 맞추기 위해 각 국가의 법률, 뉴스, 사회적 이슈, 온라인 담론 등으로 구성된 현지 콘텐츠가 활용됩니다. 덕분에 그저 언어만 바뀐 문장이 아니라, 해당 사회에서 실제로 발생할 법한 상황과 위험을 반영한 프롬프트를 생성할 수 있습니다.

가장 빠른 AI 뉴스

가장 빠른 AI 뉴스 구독하기

그렇다면, KoRSET은 뭘까?

KoRSET은 CAGE 프레임워크를 통해 구축된 벤치마크 데이터셋입니다. 한국의 법과 제도, 그리고 사회적 이슈를 반영하여 구성된 레드팀 데이터셋이지요. 데이터 수집 방식 또한 한국 특성에 맞추었는데요. 개인정보 침해나 불법 행위처럼 규제가 명확한 영역은 법률과 판례를 기반으로, 혐오 표현이나 편향과 같이 사회적 맥락이 중요한 영역은 뉴스와 온라인 커뮤니티를 기반으로 데이터를 구축했습니다. 정적인 규제 정보와 동적인 사회 이슈를 함께 반영한 구조라고 볼 수 있지요.

이제, CAGE를 통해 만들어진 KoRSET 데이터셋이 실제 기존 방식보다 레드티밍 효과가 좋았는지 알아볼 차례입니다. 연구진은 다양한 자동화 공격 기법을 사용해 모델을 공격하고, 각 프롬프트가 유해한 응답을 끌어내는 데 성공했는지를 측정했는데요. 이때 사용된 지표는 공격 성공률(ASR, Attack Success Rate)로, 프롬프트가 모델의 안전 장치를 우회하는 데 성공한 비율을 의미합니다. 결과가 어땠는지 살펴볼까요?

모델과 공격 방식에 따른 공격 성공률(ASR). GCG, AutoDAN 등은 모델 공격 기법이다. 출처: 논문.

CAGE 방식으로 생성된 프롬프트는 기존의 단순 번역 방식이나 템플릿 기반 방식보다 일관되게 높은 공격 성공률을 보였습니다. Llama-3.1 모델에서는 단순 번역 방식의 ASR이 28.2%였던 반면, CAGE를 적용한 경우 43.8%까지 상승했지요. 또한 프롬프트 품질 평가에서도 CAGE는 위험 정합성, 시나리오 현실성, 문화적 특수성 등 모든 항목에서 더 높은 점수를 기록했는데요. 특히 문화적 특수성(cultural specificity) 점수는 번역 기반 방식이 0.03~0.63점대에 머무는 반면, CAGE로 생성된 프롬프트는 0.84~2.35점대를 기록했습니다.

성능 향상의 원인

연구진은 성능 향상의 원인을 꼼꼼하게 분석합니다. '단순히 더 구체적으로 썼기 때문에 공격이 잘 되는 것인지'를 검증하기 위해 언어와 구체성을 분리한 실험을 수행하는데요. 같은 모델에서도 언어에 따라 다른 양상이 나타났습니다. 영어 환경에서는 구체성이 증가할 경우 공격 성공률이 오히려 감소하는 경향이 일부 관찰된 반면, 한국어 환경에서는 구체성이 증가할수록 공격 성공률이 일관되게 상승했습니다. 영어 중심 모델인 Llama-3.1은 한국 맥락에서 더 취약한 모습을 보였고, 한국어 특화 모델인 EXAONE은 상대적으로 안정적인 성능을 보였지요. 문화적 맥락에 대한 이해 수준이 모델의 안전성과 밀접하게 관련되어 있음을 확인할 수 있습니다.

또한 CAGE 프레임워크는 한국어뿐 아니라 크메르어와 같은 저자원 언어에 적용했을 때도 유사한 효과를 보였는데요. 충분한 현지 맥락 데이터만 확보된다면, CAGE는 특정 언어에 구애받지 않고 확장 가능한 프레임워크라고 볼 수 있습니다.

LLM의 안전성은 단일 언어 기준으로 평가할 수 있는 문제가 아니라, 각 문화권의 실제 사용 맥락을 반영해야 하는 문제입니다. 정확하고 유연하게 모델을 평가하기 위해서는 의미 구조와 문화적 맥락을 분리하고 재조합하는 접근이 필요한데요. CAGE는 이러한 방향성을 구체적인 방법론과 실험 결과로 보여준 사례입니다.

앞으로 글로벌 환경에서 LLM이 사용되는 범위가 더욱 확대될수록, 이러한 문화 적응형 안전성 평가 방식은 점점 더 중요해질 수밖에 없습니다. 셀렉트스타는 ICLR 메인 트랙에 채택된 CAGE를 비롯해 AI 안전성에 대한 연구를 지속적으로 하고 있습니다. 셀렉트스타만의 독보적인 노하우를 담아낸 Datumo Platform을 통해 AI의 성능을 정확하고 쉽게 진단해 보세요!