Datumo Eval

다투모 이밸

안심하고 배포할 수 있는 LLM 서비스를 위해, 신뢰성 검증 과정을 원하는 대로 조율하고 감독하세요

문의하기

A to Z를 함께합니다

믿을 수 있는 AI를 위해 처음부터 끝까지, 원하시는 방법으로 도와드립니다

자동화 플랫폼: Datumo Eval

다투모 이밸

직접 구상한 절차를 자동화 툴로 검증·감독하고 싶은 분께 적합합니다

맞춤형 평가 기준 및 지표 설정

평가용 질문 데이터 자동 생성

답변 자동 평가 및 분석

대시보드를 통한 검증 결과 시각화

문의하기

설계부터 분석까지

컨설팅

방향을 잡기 어려우신 분들께, 기획 단계부터 전담 인력이 도와드립니다

방법론 및 평가 기준 설계

평가용 데이터 구축

평가 실행

검증 결과 분석

더 알아보기

주요 기능

AI 에이전트를 활용한 평가용 데이터 자동 생성

업로드된 고객의 정책 및 상품 문서를 통해 더욱 정교하고 현실적인 질문 데이터를 생성합니다. 신뢰성 및 정보 정확성 등 LLM 검증 분야별로 고품질 질문을 대량 제작하여, 효과적인 평가를 제공합니다.

현장 중심의 실질적 데이터 생성

실제 기업의 비즈니스 환경을 반영하여, 실제 사용자 환경에서 발생할 수 있는 다양한 시나리오에 기반한 평가용 질문 데이터를 생성합니다.

맞춤형 지표 및 기준에 따른 철저한 평가

기본으로 제공되는 지표는 물론, 직접 세밀하게 설정한 지표와 기준에 따라 다양한 평가가 가능합니다. 모든 답변에 대한 평가 결과 사유를 제공합니다.

대시보드를 통한 검증 결과 시각화 및 분석

지표별 답변 점수 분포, 모델별 성능 차이 등 다양한 결과를 한눈에 볼 수 있는 대시보드를 제공합니다.

AI 레드티밍 자동화 및 시각화

기다릴 필요 없이, 언제든 모델의 목적과 특성에 맞춘 AI 레드티밍을 자동으로 실시할 수 있습니다. 결과 또한 대시보드로 시각화하여 취약점을 빠르게 파악할 수 있습니다.

더 알아보기

Use Cases

L사

챗봇 시나리오 기반 평가

• 대고객용 챗봇 시나리오 기반 평가 지표 설계 및 평가 데이터 구축
• 평가 수행 결과(평가 점수 비교 분석, 휴먼 평가와의 일치도 등 포함 및 개선안 리포트)

K사

대고객 LLM 신뢰성 평가 컨설팅

• 대고객용 LLM RAG 서비스의 성능, 안전성, 도메인 특화 사항을 평가할 수 있는 최적 평가 지표 설계
• 설계된 지표 기반 평가 데이터 구축 및 유사 모델과의 평과 결과 비교 리포트 제공

L사

대고객용 챗봇 유해성 평가 및 레드팀 운영

• 대고객용 LLM 챗봇 서비스의 질의응답, 일상대화 영역에 대한 유해성 평가가 가능한
평가 지표 및 기준 설계

• 설계된 지표 기반 평가 데이터 구축 및 유사 모델과의 평가 결과 비교 리포트 제공

K사

Safety 평가 데이터셋 구축

• 자체 개발 LLM의 윤리성 및 안전성 품질 확보를 위해 Category 적합성 및 유해성을 고려한 무해성 평가 데이터 구축

S사

자체 LLM QA 및 신뢰성 평가 컨설팅 및 구축

• 자체 개발 LLM 대상으로 RAG 시스템 평가, QA 평가, 요약 태스크 평가,
레드티밍 파이프라인 설계

• 고객사 원천 데이터 기반 평가용 데이터셋 구축 및 신뢰성 평가

LLM 신뢰성 벤치마크 데이터

• 국내 최초 한국어 언어 모델 신뢰성 기준 제작
• AI 학습용 데이터 구축 지원 사업의 일환으로, 3H 기준에 따라 인공지능 성능을 정량적으로 수치화

*3H: 도움되고, 진실하며 무해한 인공지능 개발을 위한 지표(Helpfulness, Honesty, Harmlessness)

LLM Alignment Benchmark for Korean Social Values and Common Knowledge

국내 최초 한국형 LLM 평가 데이터셋

• 한국의 사회적 가치관 및 상식에 대한 LLM 평가 데이터셋

• 한국인 6,174명 대상의 대규모 설문조사와 한국 교과서 및 GED 참고 자료를 기반으로한 샘플을 사용하여 데이터 구축

논문 보기

저자 인터뷰

L사