LLM 안전성, 감이 아닌 숫자로 증명하는 법

LLM 안전성, 감이 아닌 숫자로 증명하는 법

안전한 AI의 기준은 무엇일까요?

AI 구축에 집중하던 업계는 이제 검증에 집중하고 있습니다. 기술적인 개발은 상향평준화 되며 비교적 쉬워졌지만, '그래서 이거 진짜 배포해도 돼?'라는 질문 앞에서는 망설일 수밖에 없는데요. 안심하고 배포할 수 있는 AI는 어떤 기준으로 세울 수 있을까요?

'써보니까 꽤 괜찮던데?'와 같은 막연한 느낌은 아무것도 보장해 주지 않습니다. 예측 불가능한 LLM을 통제 가능한 시스템으로 만들기 위해서는 숫자가 필요하지요. 다투모 이밸(Datumo Eval)은 LLM을 평가할 때 맞닥뜨리는 이 막막함을 데이터로 해결하고자 만들어졌는데요. 셀렉트스타가 다투모 이밸을 통해 어떻게 문제를 해결하는지, 알려드릴게요!

평가할 데이터를 제대로 확보하세요

훈련시킨 LLM을 평가 해야 하는데, 정작 질문 데이터가 없는 경우가 많습니다. 하지만 사용자가 뭘 물어볼지 모르는 상태에서 평가를 준비하는 건 너무 무모하지요. 다투모 이밸은 이 '콜드 스타트(Cold Start)' 문제를 기술적으로 풀어냅니다.

다투모 이밸은 단순히 고객이 물어볼 법한 질문을 예측해 만드는 대신, 사용자가 업로드한 사내 문서(PDF, TXT 등)의 구조와 내용을 먼저 분석합니다. 이후 문서를 바탕으로 사실 관계를 묻는 질문, 추론이 필요한 질문 등 고품질의 <질문-모범답안> 쌍을 자동으로 생성하지요. 시작부터 수백 개의 탄탄한 테스트 케이스를 확보하고 들어가는 셈입니다.

질문 생성 화면 예시. 출처: 셀렉트스타.

질문 생성 화면 예시. 출처: 셀렉트스타.

주장(Claim) 단위로 쪼개서 분석하세요

LLM의 정확도가 87점이라면, 정확히 어떤 상태라는 의미일까요?

90에 가까운 점수이니 나쁘지 않은 것도 같은데, 아무 것도 유추할 수 없으니 실체가 없는 숫자입니다. 숫자 '87'만 보고는, 도대체 어디가 틀렸는지를 알 수 없기 때문이지요.

다투모 이밸은 답변을 뭉뚱그려 채점하지 않고 현미경처럼 쪼개서 보여드립니다. 모델이 3문장짜리 답변을 내놓으면, 이를 더 작은 '사실 단위'로 분해하는데요. '전반적으로 맞음'이 아니라, '첫 번째, 두 번째 문장은 맞지만, 세 번째 문장의 수치는 문서에 없는 내용임'을 정확히 짚어냅니다. 덕분에 모델이 검색을 못 한 건지, 아님 말을 잘못 지어낸 건지 등 정확한 원인을 파악하고 세밀하게 튜닝할 수 있습니다.

평가가 완료된 화면. [Detail] 섹션에서 답변을 뜯어볼 수 있다. 출처: 셀렉트스타.

평가가 완료된 화면. [Detail] 섹션에서 답변을 뜯어볼 수 있다. 출처: 셀렉트스타.

가장 빠른 AI 뉴스

AI 레드티밍으로 무장하세요

흔히들 좋아하는 걸 해주는 것도 중요하지만, 그보다는 싫어하는 행동을 안 하는 게 인간 관계에 좋다고 말하는데요. LLM도 똑같습니다. 정답을 잘 맞추는 것도 중요하지만, ‘하면 안 되는’ 답변을 안 하는 게 더 중요하지요. 하지만 교묘한 탈옥(Jailbreak)이나 혐오 표현 유도는 일반적인 테스트로는 찾아내기 힘듭니다.

다투모 이밸은 수동 테스트의 한계를 넘어 자동화된 AI 레드티밍을 제공합니다. 평가 대상 모델의 보안을 우회하려 끊임없이 시도하고, 윤리적으로 민감한 질문을 집요하게 던지지요. 사람이 상상하기 힘든 예외 케이스까지 AI가 먼저 찔러본 후, 어떤 유형의 공격에 취약한지를 데이터로 보여줍니다. 배포 전에 할 수 있는 가장 쉽고 확실한 안전장치라고 볼 수 있겠지요?

레드티밍 프로젝트 생성(위)과 결과(아래) UI. 출처: 셀렉트스타.

다투모 이밸은 서비스 품질을 중요하게 생각하는 모든 분들께 속 시원한 솔루션이 되어드리고자 합니다. 문서가 바뀌면 평가 데이터도 자동으로 업데이트되고, 모델이 수정되면 어느 부분이 개선됐는지 문장 단위로 검증하며, 새로운 해킹 기법이 나오면 즉시 방어력을 테스트하는 구조를 통해, 지속 가능한 검증 파이프라인을 구축해 드립니다. 모델에 대한 근거 있는 자신감을 채워드리겠습니다.

🚀 다투모 이밸 사용 전, 상담 받기

Your AI Data Standard

라이선스 해결된 데이터셋 구매
인공지능 도입 및 데이터 구축
Related Posts