LLM 기반 서비스를 만드는 많은 기업이 겪는 어려움이 있습니다.

분명 벤치마크 점수를 보고 성능이 좋은 모델을 골랐는데, 막상 운영을 시작하니 예상치 못한 문제가 발생하는 경우입니다. 도메인 지식에 대한 엉뚱한 답을 하거나, 위법적인 내용을 권유하거나, 민감한 정보를 노출하는 등, 기업의 신뢰성을 위협하는 위험 요소는 언제, 어디서 등장할지 알 수 없습니다.

프롬프트나 환경 변화에 따라, 같은 모델을 사용해도 서비스마다 품질이 다를 수 있는데요. LLM 서비스 출시 전에 실무자가 확인해야 할 평가 기준에 대해 함께 알아볼까요?

AI 평가, 벤치마크 점수만으로는 부족한 이유

벤치마크는 모델의 일반 능력을 비교하는 데 유용하게 사용되는 지표입니다. 하지만 서비스 관점에서는 맹신하기에 다소 어려움이 있습니다.

<벤치마크 점수를 맹신할 수 없는 이유>

'좋은 답변'의 정의가 다를 수 있다
따뜻한 위로를 해야하는 챗봇과 냉철한 분석을 해야하는 챗봇을 같은 기준으로 평가한다면 어떻게 될까요? 서비스 목적이 다르면 적합한 답변도 달라질 수 밖에 없습니다. 상담, 검색, 추천 등 요구되는 역량이 다르다면 실패로 간주되는 답변의 모양도 다릅니다. 벤치마크 점수는 이 모든 요소를 아우르지 못합니다.
사용자는 벤치마크처럼 질문하지 않는다
대부분의 사용자는 챗봇에 질문을 남길 때, 시험에 나오는 질문처럼 깔끔하게 묻지 않습니다. 긴 맥락 안에서 구어체로 이것저것 묻는 경우가 많은데요. 벤치마크 점수가 높은 모델이라 하더라도 맥락이 길고, 조건이 많고, 질문이 애매한 경우에 대한 대비가 부족할 수 있습니다.
벤치마크 점수만으로는 위험 예측이 불가하다
벤치마크는 범용적인 성능을 평가하는 데는 아주 유용하지만, 그 결과로 리스크를 설명하거나 예측하기는 어렵습니다. 벤치마크 점수만 믿고 위험하거나, 민감하거나, 잘못된 정보 등 '사고 가능성'이 있는 요소를 놓친다면 이는 기업의 신뢰도를 크게 떨어뜨릴 수 있습니다.

하나의 지표를 가지고 AI 모델끼리 점수를 비교하려는 목적이 아니라, 서비스 출시 여부를 판단 하고자 한다면 평가 기준도 서비스에서 시작해야 합니다.

서비스 출시 전, 어떤 기준을 세워야 할까?

AI 서비스 출시 여부를 판단할 때, 우리는 어떤 요소를 고려해야 할까요?

AI 서비스 출시 여부는 절대적인 점수보다는 준비된 검증 근거를 바탕으로 판단해야 합니다. 출시하려는 모델이 기준 모델 대비 개선이 되었는지, 미리 설정한 기준을 통과하는지, 또 실패했을 때 미치는 영향의 범위는 어떤지 등 여러 요소를 조합해서 고려해야 하지요.

셀렉트스타가 다양한 도메인의 모델을 컨설팅하고 분석하며 깨달은 건,

평균 점수가 제일 높은 모델이 반드시 '출시 모델'은 아니다

라는 사실입니다. 출시되는 모델은 맞춤형으로 세운 저마다의 기준을 통과한 모델이었습니다. 두루뭉술하게 '좋은 모델'이 아니라,

우리 서비스에서 용납할 수 없는 실패란 무엇인지
최소한으로 지키는 마지노선은 어디인지
사용자가 피해를 입을 가능성은 어느정도인지 등,

점수 너머의 정교한 평가 체계를 갖추어야 성공적인 서비스 론칭이 가능합니다.

가장 빠른 AI 뉴스

가장 빠른 AI 뉴스 구독하기

성공적인 AI 서비스를 위한 평가 체계

서비스 목적에 따라 평가 기준과 지표 구조는 달라집니다.

서비스 목적 정의
서비스가 해결해야 하는 문제와 사용자의 기대를 명확히 해야 합니다. 상담이나 추천 등, 모델 사용 목적을 규정하고, 사용자의 유형도 정의해야 기대 또한 올바르게 예측할 수 있지요. 서비스의 목적과 성격에 따라 반영해야 하는 정책이나 규제도 고려해야 합니다.
리스크 정의
발생 가능한 위험 요소를 구조화 하여, 기업 입장에서 치명적인 실패 유형을 대비해야 합니다. 내부 승인 기준 및 통제 수준을 정의하고, 리스크를 허용하는 한계 또한 설정해야 합니다. 문제가 발생했을 경우 책임의 주체를 명시하는 등 대응 프로세스 또한 명시하는 단계입니다.
평가 기준 정의
서비스 목적과 리스크에 맞춘 평가 항목을 설계합니다. 답변이 정확한지, 근거에 기반했는지, 도메인에 적합한지, 일관적인지 등 다양한 방면으로 ‘믿을 수 있는’ 서비스인지 평가할 수 있어야 합니다.
지표 설계
평가 기준은 단순 ‘좋다/나쁘다’가 아닌, 측정이 가능한 항목으로 변환될 수 있어야 합니다. 답변의 성공이나 실패율, 임계값, 가중치 등 객관적이고 정확하게 비교할 수 있는 정량적 수치를 정의해야 합니다.

이 모든 단계를 밟고 나면, AI 서비스 평가는 정성 논쟁을 넘어 데이터에 기반한, 근거가 있는 의사결정 시스템이 됩니다.

AI와 인간이 함께하는 '혼합 평가'

평가 방식은 크게 수치에 기반한 정량 평가, LLM에 기반한 자동 평가, 사람에 판단에 기반한 정성 평가, 그리고 LLM과 인간 전문가가 판단력을 결합한 혼합 평가로 나눌 수 있는데요. 실무에선 대부분 '혼합 평가'가 현실적인 방안으로 채택되고 있습니다.

LLM에 기반한 자동 평가는 빠르고 반복 가능한 장점이 있습니다. 반면, 사람이 하는 평가는 자동화하기 어려운 뉘앙스나 창의성, 혹은 표현의 품질과 같은 요소를 평가하기에 적합하지요. 이처럼 각자 특징이 명확하기 때문에, 어느 한 쪽이 무조건 좋다고 단언할 수는 없습니다. 평가 항목의 성격에 따라 평가 방식을 매칭해 가장 효율적이고 정확한 판단을 하는 것이 중요합니다.