
A to Z를 함께합니다
믿을 수 있는 AI를 위해 처음부터 끝까지, 원하시는 방법으로 도와드립니다

자동화 플랫폼: Datumo Eval
다투모 이밸
직접 구상한 절차를 자동화 툴로 검증·감독하고 싶은 분께 적합합니다
자동화 플랫폼: Datumo Eval
다투모 이밸
직접 구상한 절차를 자동화 툴로 검증·감독하고 싶은 분께 적합합니다
주요 기능
AI 에이전트를 활용한 평가용 데이터 자동 생성
AI 에이전트를 활용한 평가용 데이터 자동 생성

업로드된 고객의 정책 및 상품 문서를 통해 더욱 정교하고 현실적인 질문 데이터를 생성합니다. 신뢰성 및 정보 정확성 등 LLM 검증 분야별로 고품질 질문을 대량 제작하여, 효과적인 평가를 제공합니다.

현장 중심의 실질적 데이터 생성
현장 중심의 실질적 데이터 생성

실제 기업의 비즈니스 환경을 반영하여, 실제 사용자 환경에서 발생할 수 있는 다양한 시나리오에 기반한 평가용 질문 데이터를 생성합니다.

맞춤형 지표 및 기준에 따른 철저한 평가
맞춤형 지표 및 기준에 따른 철저한 평가

기본으로 제공되는 지표는 물론, 직접 세밀하게 설정한 지표와 기준에 따라 다양한 평가가 가능합니다. 모든 답변에 대한 평가 결과 사유를 제공합니다.

대시보드를 통한 검증 결과 시각화 및 분석
대시보드를 통한 검증 결과 시각화 및 분석

지표별 답변 점수 분포, 모델별 성능 차이 등 다양한 결과를 한눈에 볼 수 있는 대시보드를 제공합니다.

AI 레드티밍 자동화 및 시각화
AI 레드티밍 자동화 및 시각화

기다릴 필요 없이, 언제든 모델의 목적과 특성에 맞춘 AI 레드티밍을 자동으로 실시할 수 있습니다. 결과 또한 대시보드로 시각화하여 취약점을 빠르게 파악할 수 있습니다.

Basic
- 단일 청크 기반 싱글턴 평가용 질문 생성
Safety 평가 데이터
-
당사 자체 Safety 평가 데이터 총 1천개 제공
(편향성, 혐오성, 위법성)
싱글턴 자동 평가
-
Text Decomposition 기반 RAG Quality 평가
(w/o 기대 답변) - Safety 평가 (편향성, 혐오성, 위법성)
- Custom 평가 프롬프트 작성(Likert Scale, 가중치합, AND/OR 연산 평가 지원)
평가 결과 대시보드
- 모델·지표별 평가 점수 비교 및 세부 결과 확인
- 메타데이터에 따른 성능 히트맵 및 필터링
Standard
Basic 모든 기능
- 단일 청크 기반 싱글턴 평가용 질문 생성
- Safety 평가 데이터
- 싱글턴 자동 평가
- 평가 결과 대시보드
다중 청크 기반 싱글턴 평가용 질문 생성
* 개발 중
- 데이터 생성용 연관 청크 선별
- 다중 청크 기반 평가용 질문 생성
싱글턴 자동 평가
-
Text Decomposition 기반 RAG Quality
평가 (w/ 기대 답변)
Add-on
Red Teaming
Human 레드티밍
- 레드티밍 전략 가이드라인 제공
- Human 레드티밍 작업 운영 기능
Safety 자동 레드티밍
- Seed 데이터 업로드
- Seed 데이터 기반 공격 프롬프트 자동 생성
- 레드티밍 성공 여부 자동 평가
- 자동 평가 기반 공격 프롬프트 자동 재생성
Basic
- 단일 청크 기반 싱글턴 평가용 질문 생성
Safety 평가 데이터
-
당사 자체 Safety 평가 데이터 총 1천개 제공
(편향성, 혐오성, 위법성)
싱글턴 자동 평가
-
Text Decomposition 기반 RAG Quality 평가
(w/o 기대 답변) - Safety 평가 (편향성, 혐오성, 위법성)
-
Custom 평가 프롬프트 작성(Likert Scale,
가중치합, AND/OR 연산 평가 지원)
평가 결과 대시보드
- 모델·지표별 평가 점수 비교 및 세부 결과 확인
- 메타데이터에 따른 성능 히트맵 및 필터링
Standard
Basic 모든 기능
- 단일 청크 기반 싱글턴 평가용 질문 생성
- Safety 평가 데이터
- 싱글턴 자동 평가
- 평가 결과 대시보드
다중 청크 기반 싱글턴 평가용 질문 생성
* 개발 중
- 데이터 생성용 연관 청크 선별
- 다중 청크 기반 평가용 질문 생성
싱글턴 자동 평가
-
Text Decomposition 기반 RAG Quality
평가 (w/ 기대 답변)
Add-on
Red Teaming
Human 레드티밍
- 레드티밍 전략 가이드라인 제공
- Human 레드티밍 작업 운영 기능
Safety 자동 레드티밍
- Seed 데이터 업로드
- Seed 데이터 기반 공격 프롬프트 자동 생성
- 레드티밍 성공 여부 자동 평가
- 자동 평가 기반 공격 프롬프트 자동 재생성
Use Cases

L사
챗봇 시나리오 기반 평가
• 대고객용 챗봇 시나리오 기반 평가 지표 설계 및 평가 데이터 구축
• 평가 수행 결과(평가 점수 비교 분석, 휴먼 평가와의 일치도 등 포함 및 개선안 리포트)

K사
대고객 LLM 신뢰성 평가 컨설팅
• 대고객용 LLM RAG 서비스의 성능, 안전성, 도메인 특화 사항을 평가할 수 있는 최적 평가 지표 설계
• 설계된 지표 기반 평가 데이터 구축 및 유사 모델과의 평과 결과 비교 리포트 제공

L사
대고객용 챗봇 유해성 평가 및 레드팀 운영
• 대고객용 LLM 챗봇 서비스의 질의응답, 일상대화 영역에 대한 유해성 평가가 가능한
평가 지표 및 기준 설계
• 설계된 지표 기반 평가 데이터 구축 및 유사 모델과의 평가 결과 비교 리포트 제공

K사
Safety 평가 데이터셋 구축
• 자체 개발 LLM의 윤리성 및 안전성 품질 확보를 위해 Category 적합성 및 유해성을 고려한 무해성 평가 데이터 구축

S사
자체 LLM QA 및 신뢰성 평가 컨설팅 및 구축
• 자체 개발 LLM 대상으로 RAG 시스템 평가, QA 평가, 요약 태스크 평가,
레드티밍 파이프라인 설계
• 고객사 원천 데이터 기반 평가용 데이터셋 구축 및 신뢰성 평가

LLM 신뢰성 벤치마크 데이터
• 국내 최초 한국어 언어 모델 신뢰성 기준 제작
• AI 학습용 데이터 구축 지원 사업의 일환으로, 3H 기준에 따라 인공지능 성능을 정량적으로 수치화
*3H: 도움되고, 진실하며 무해한 인공지능 개발을 위한 지표(Helpfulness, Honesty, Harmlessness)

L사
챗봇 시나리오 기반 평가
• 대고객용 챗봇 시나리오 기반 평가 지표 설계 및 평가 데이터 구축
• 평가 수행 결과(평가 점수 비교 분석, 휴먼 평가와의 일치도 등 포함 및 개선안 리포트)

K사
대고객 LLM 신뢰성 평가 컨설팅
• 대고객용 LLM RAG 서비스의 성능, 안전성, 도메인 특화 사항을 평가할 수 있는 최적 평가 지표 설계
• 설계된 지표 기반 평가 데이터 구축 및 유사 모델과의 평가 결과 비교 리포트 제공

L사
대고객용 유해성 평가 및 레드팀 운영
• 대고객용 LLM 챗봇 서비스의 질의응답, 일상대화 영역에 대한 유해성 평가가 가능한
평가 지표 및 기준 설계
• 설계된 지표 기반 평가 데이터 구축 및 유사 모델과의 평가 결과 비교 리포트 제공

K사
Safety 평가 데이터셋 구축
• 자체 개발 LLM의 윤리성 및 안전성 품질 확보를 위해 Category 적합성 및 유해성을 고려한 무해성 평가 데이터 구축

S사
자체 LLM QA 및 신뢰성 평가 컨설팅 및 구축
• 자체 개발 LLM 대상으로 RAG 시스템 평가, QA 평가, 요약 태스크 평가,
레드티밍 파이프라인 설계
• 고객사 원천 데이터 기반 평가용 데이터셋 구축 및 신뢰성 평가

LLM 신뢰성 벤치마크 데이터
• 국내 최초 한국어 언어 모델 신뢰성 기준 제작
• AI 학습용 데이터 구축 지원 사업의 일환으로, 3H 기준에 따라 인공지능 성능을 정량적으로 수치화
*3H: 도움되고, 진실하며 무해한 인공지능 개발을 위한 지표(Helpfulness, Honesty, Harmlessness)
AI 평가 솔루션 기업
AI 성능부터 안전성까지
셀렉트스타는 AI 성능을 좌우하는 고품질 학습 데이터는 물론, 모델 안전성을 검증하기 위한 전문 컨설팅과 자체 개발 자동화 플랫폼을 제공합니다.