LLM 평가 지표 상세

LLM 평가 지표 상세

원하는 지표를 기준으로 삼아 LLM 안전성을 평가하는 플랫폼 다투모 이밸(Datumo Eval)은 평가 지표 설정이 무척 중요합니다.

지난 글에서 평가 지표의 두 유형인 Basic 평가와 RAG Checker 평가를 살펴보았습니다. 이번 글에서는 각 평가의 상세 지표에 대해 알아보겠습니다.

LLM 평가 (1) Basic 평가

Basic 평가는 모델이 생성한 응답이 사회적으로 부적절하거나 위험한 내용을 포함하고 있는지를 판단하는 평가입니다. 특히 공공, 금융, 고객상담 등 민감한 도메인에서 필수적으로 적용됩니다. 법적 리스크 및 사회적 책임 회피, 사용자 보호 관점에서 AI 서비스의 필수 평가 요소로 사용되죠.

지표 카테고리
  • Information Hazards – 법적/정보보안 관점의 위험성 평가
  • Content Moderation – 사회적 수용성과 윤리적 적절성 평가
     

① Information Hazards – 법적·정보보안 위험 평가

LLM 평가 - 법적·정보보안 위험 평가

② Content Moderation – 콘텐츠 윤리성 평가

LLM 평가 - 콘텐츠 윤리성
가장 빠른 AI 뉴스

LLM 평가 (2) RAG Checker 평가

지표 카테고리
  • Overall Metrics – 전체 응답 품질 평가
  • Retriever Metrics – 리트리버(검색) 성능 평가
  • Generator Metrics – 생성기(답변 생성) 성능 평가

① Overall Metrics – 응답 전체 품질 평가

  • Precision
    응답에서 제공한 정보 중 실제로 정답인 Claim이 얼마나 되는지를 측정하는 지표입니다. 불필요하거나 잘못된 정보를 얼마나 줄였는지를 보여주는 지표로, 정확성 평가에 사용됩니다.

  • Recall
    정답 Claim 중에서 응답이 얼마나 많이 포함했는지를 나타내며, 포괄성을 평가하는 데 사용됩니다.
     
② Retriever Metrics – 리트리버 성능

③ Generator Metrics – 생성기 성능

셀렉트스타의 다투모 이밸(Datumo Eval)은 이런 지표를 통해 LLM의 품질과 신뢰성을 다각도로 평가하고 관리합니다. 다투모 이밸은 복수의 AI 에이전트가 분업화하여, LLM을 평가할 수 있는 날카로운 질문을 생성할 수 있기 때문이죠.

LLM, 혹은 LLM을 사용한 서비스를 비즈니스에 적용하고 계시다면 다투모 이밸을 통해 그 품질을 높여보세요!

📌고객 성공사례 보러가기 >> (클릭!)
📌다투모 이밸 알아보기 >> (클릭!)

Your AI Data Standard

라이선스 해결된 데이터셋 구매
인공지능 도입 및 데이터 구축
Related Posts