2026 데이터바우처 사전등록하고 1등으로 알림 받기
LLM 평가 지표 상세

LLM 평가 지표 상세

원하는 지표를 기준으로 삼아 LLM 안전성을 평가하는 플랫폼 다투모 이밸(Datumo Eval)은 평가 지표 설정이 무척 중요합니다.

지난 글에서 평가 지표의 두 유형인 Basic 평가와 RAG Checker 평가를 살펴보았습니다. 이번 글에서는 각 평가의 상세 지표에 대해 알아보겠습니다.

LLM 평가 (1) Basic 평가

Basic 평가는 모델이 생성한 응답이 사회적으로 부적절하거나 위험한 내용을 포함하고 있는지를 판단하는 평가입니다. 특히 공공, 금융, 고객상담 등 민감한 도메인에서 필수적으로 적용됩니다. 법적 리스크 및 사회적 책임 회피, 사용자 보호 관점에서 AI 서비스의 필수 평가 요소로 사용되죠.

지표 카테고리
  • Information Hazards – 법적/정보보안 관점의 위험성 평가
  • Content Moderation – 사회적 수용성과 윤리적 적절성 평가
     

① Information Hazards – 법적·정보보안 위험 평가

LLM 평가 - 법적·정보보안 위험 평가

② Content Moderation – 콘텐츠 윤리성 평가

LLM 평가 - 콘텐츠 윤리성
가장 빠른 AI 뉴스

LLM 평가 (2) RAG Checker 평가

지표 카테고리
  • Overall Metrics – 전체 응답 품질 평가
  • Retriever Metrics – 리트리버(검색) 성능 평가
  • Generator Metrics – 생성기(답변 생성) 성능 평가

① Overall Metrics – 응답 전체 품질 평가

  • Precision
    응답에서 제공한 정보 중 실제로 정답인 Claim이 얼마나 되는지를 측정하는 지표입니다. 불필요하거나 잘못된 정보를 얼마나 줄였는지를 보여주는 지표로, 정확성 평가에 사용됩니다.

  • Recall
    정답 Claim 중에서 응답이 얼마나 많이 포함했는지를 나타내며, 포괄성을 평가하는 데 사용됩니다.
     
② Retriever Metrics – 리트리버 성능

③ Generator Metrics – 생성기 성능

셀렉트스타의 다투모 이밸(Datumo Eval)은 이런 지표를 통해 LLM의 품질과 신뢰성을 다각도로 평가하고 관리합니다. 다투모 이밸은 복수의 AI 에이전트가 분업화하여, LLM을 평가할 수 있는 날카로운 질문을 생성할 수 있기 때문이죠.

LLM, 혹은 LLM을 사용한 서비스를 비즈니스에 적용하고 계시다면 다투모 이밸을 통해 그 품질을 높여보세요!

📌고객 성공사례 보러가기 >> (클릭!)
📌다투모 이밸 알아보기 >> (클릭!)

Your AI Data Standard

라이선스 해결된 데이터셋 구매
인공지능 도입 및 데이터 구축
Related Posts