생성형 AI 레드팀 챌린지 후기: AI 안전성과 윤리 검증의 시사점

2024년 4월 11-12일, 세계 최대 규모 AI 레드팀 챌린지가 열렸습니다! 그리고 세계적인 연사들과 함께 AI 안전과 신뢰에 대한 컨퍼런스가 진행되었는데요.

과학기술정보통신부가 주관한 이번 생성형 AI 레드팀 챌린지에 셀렉트스타는 Presenting Partner이자 운영사무국으로 함께했습니다. 단일 레드팀 챌린지로는 세계 최대 규모였던 현장을 함께 보시죠!

셀렉트스타가 MWC 2025에서 주관한 세계 최초 ‘글로벌 AI 레드팀 챌린지’ 보러가기

11일: 레드팀 챌린지

레드팀 챌린지에 참여한 도전자들

11일은 AI 레드팀 챌린지가 열렸습니다. 자연어 프롬프트를 사용해 네이버, SK텔레콤, 업스테이지, 그리고 포티투마루의 LLM을 공격하는 대회였는데요. 전체 공격 대화셋이 2만 건에 달했습니다!

공격에 성공하면 사용한 기법이나 LLM의 답변에 따라 일곱 개로 나뉜 카테고리(탈옥, 편견 및 차별, 인권 침해, 사이버 공격, 불법 콘텐츠, 잘못된 정보, 일관성) 중 하나를 선택해 제출해야 했는데요.

제출된 챌린지 주제별 비중을 살펴볼까요? 👀

‘잘못된 정보’ 항목이 압도적인 1등을 차지했습니다. 챗GPT도 처음 출시했을 때 할루시네이션(hallucination)이 빈번하게 일어나 화제가 되었었는데요. 텍스트의 패턴을 찾아가는 LLM의 특성상 여전히 큰 비중을 차지하는 문제로 보입니다.

총 19,238개의 대화셋이 시도되었고, 그 중 8,080개가 제출되었으며 6,558개가 성공 데이터로 판정 받았습니다.

12일: AI Safety 컨퍼런스

12일에는 키노트 중심의 컨퍼런스가 진행되었는데요!

Time 선정 2023 The 100 Most Influential People in AI:
Cohere CEO 에이단 고메즈 & xAI AI Safety 어드바이저 댄 핸드릭스,
네이버 Future AI 센터장 하정우 소장,
(전) 스타빌리티AI 대표 에마드 모스타크,
구글, 오픈AI, 그리고 MS가 공동 출자한 AI 윤리안전 포럼 대표이사 크리스 메세롤,
카이스트 오혜연 교수,
SKT 에릭 데이비스 부사장,
카카오 김경훈 이사,
셀렉트스타 김세엽 대표

모두 연사로 참여해 AI 안전과 신뢰에 대한 인사이트를 공유했습니다. ✨

LLM의 신뢰성을 평가하는 방법, 책임감 있는 AI를 위한 노력, 다중언어와 다중문화 LLM, 고객 서비스 입장에서 바라본 AI 안전성 등 흥미롭고 유익한 주제로 열정적인 강연이 펼쳐진 하루였습니다.

셀렉트스타의 역할

셀렉트스타는 이번 행사의 기획, 레드 티밍 플랫폼 구축, 데이터 분석, 그리고 운영사무국의 역할로 많은 부분을 함께하는 영광을 누렸는데요. 앞으로도 AI 산업의 안전하고 건강한 발전을 위해 셀렉트스타는 다양한 서비스/플랫폼/콘텐츠를 제공하겠습니다. 관심 갖고 지켜봐 주세요!