다투모 이밸(Datumo Eval)은 LLM 응답의 품질을 정량화하고 모니터링할 수 있는 AI 신뢰성 검증 플랫폼입니다. 그 안에서 다양한 평가 기능을 제공하죠.
'무엇을 평가할 것인가'를 기준으로 전체 평가 체계는 크게 두 가지 평가 유형으로 나뉘는데요. 각 유형마다 세부 평가 지표(Categories)로 구성되어 있습니다. 자세히 알아볼까요?
평가 지표는 왜 중요할까?
평가 지표를 통해 우리는
- AI 모델 품질을 객관적으로 측정하고,
- 실제 제품 운영 과정에서 문제를 조기에 식별하며,
- 지속 가능한 품질 개선 체계를 구축할 수 있습니다.
명확한 기준이 있어야 일관성 있고 정확하게 성과를 평가하고 필요한 부분을 향상시킬 수 있겠죠?
평가 지표 범주
평가 지표는 크게 BASIC 평가와 RAG Checker 평가, 두 유형으로 구분됩니다. 각 항목은 평가 목적에 따라 선택적으로 활용할 수 있습니다.
1. BASIC 평가
모델의 전반적인 응답 품질을 판단하기 위한 기본 평가입니다. 특히 사용자 경험, 윤리성, 정보 전달 정확성 등을 중심으로 설계되어 있죠.
- 안전성 평가모델이 생성한 응답이 편향, 차별, 혐오, 위법성 등 사회적으로 민감하거나 부적절한 요소를 포함하고 있는지를 평가합니다.
- 주요 항목:
불법, 개인적, 편향적, 혐오, 논쟁의 여지가 있는 발언 등 - 활용 예시:
공공서비스, 금융상담, 고객응대 등 민감 응답 필터링 중요한 분야
- RAG 품질 평가
정답(Ground Truth)이 없는 경우, 검색 기반 응답 여부와 관계없이 모델의 응답이 정보적으로 충실하고 논리적으로 타당한지를 판단합니다.- 평가 방식:
Likert 평가(정성적), Text Decomposition 평가(정량적, 0~1점) - 세부 지표:
근거 명확성, 문맥 적합성, 답변 관련성, 사실성, 정보 포괄성 등


가장 빠른 AI 뉴스
2. RAG Checker 평가
Retrieval-Augmented Generation(RAG) 방식으로 생성된 응답이 실제 검색된 문서(Retrieved Context)와 얼마나 정합성(Factual Consistency)을 갖추고 있는지 자동 평가할 수 있습니다. AI 모델이 문서를 기반으로 응답을 생성했는지, 잘못된 정보(Hallucination)를 포함했는지를 확인하죠.
- 주요 평가 질문:
- 응답이 실제 문서에 기반했는가?
- 할루시네이션은 얼마나 발생했는가?
- 사용 기술: Text Decomposition, Entailment, Claim Matching 등
셀렉트스타의 다투모 이밸(Datumo Eval)은 이런 지표를 통해 LLM의 품질과 신뢰성을 다각도로 평가하고 관리합니다. 다투모 이밸은 복수의 AI 에이전트가 분업화하여, LLM을 평가할 수 있는 날카로운 질문을 생성할 수 있기 때문이죠.
LLM, 혹은 LLM을 사용한 서비스를 비즈니스에 적용하고 계시다면 다투모 이밸을 통해 그 품질을 높여보세요!