AI 신뢰성 검증 컨설팅

평가 기준 설계부터 검증 결과 분석까지, 안심하고 사용할 수 있는 AI를 위한 모든 과정을 함께합니다

AI 신뢰성 검증 컨설팅

평가 기준 설계부터 검증 결과 분석까지, 안심하고 사용할 수 있는 AI를 위한 모든 과정을 함께합니다

LLM이 예기치 못한 문제를 일으키지는 않을까?

할루시네이션 산업 적합성 부정확한 답변 편견 및 차별 개인정보 유출

A to Z를 함께합니다

믿을 수 있는 AI를 위해 처음부터 끝까지, 원하시는 방법으로 도와드립니다

설계부터 분석까지

컨설팅

방향을 잡기 어려우신 분들께, 기획 단계부터 전담 인력이 도와드립니다

방법론 및 평가 기준 설계

평가용 데이터 구축

평가 실행

검증 결과 분석

자동화 플랫폼: Datumo Eval

다투모 이밸

직접 구상한 절차를 자동화 툴로 검증·감독하고 싶은 분께 적합합니다

맞춤형 평가 기준 및 지표 설정

평가용 질문 데이터 자동 생성

답변 자동 평가 및 분석

대시보드를 통한 검증 결과 시각화

더 알아보기

Use Cases

L사

챗봇 시나리오 기반 평가

• 대고객용 챗봇 시나리오 기반 평가 지표 설계 및 평가 데이터 구축
• 평가 수행 결과(평가 점수 비교 분석, 휴먼 평가와의 일치도 등 포함 및 개선안 리포트)

K사

대고객 LLM 신뢰성 평가 컨설팅

• 대고객용 LLM RAG 서비스의 성능, 안전성, 도메인 특화 사항을 평가할 수 있는 최적 평가 지표 설계
• 설계된 지표 기반 평가 데이터 구축 및 유사 모델과의 평가 결과 비교 리포트 제공

L사

대고객용 챗봇 유해성 평가 및 레드팀 운영

• 대고객용 LLM 챗봇 서비스의 질의응답, 일상대화 영역에 대한 유해성 평가가 가능한
평가 지표 및 기준 설계

• 설계된 지표 기반 평가 데이터 구축 및 유사 모델과의 평가 결과 비교 리포트 제공

K사

Safety 평가 데이터셋 구축

• 자체 개발 LLM의 윤리성 및 안전성 품질 확보를 위해 Category 적합성 및 유해성을 고려한 무해성 평가 데이터 구축

S사

자체 LLM QA 및 신뢰성 평가 컨설팅 및 구축

• 자체 개발 LLM 대상으로 RAG 시스템 평가, QA 평가, 요약 태스크 평가,
레드티밍 파이프라인 설계

• 고객사 원천 데이터 기반 평가용 데이터셋 구축 및 신뢰성 평가

LLM 신뢰성 벤치마크 데이터

• 국내 최초 한국어 언어 모델 신뢰성 기준 제작
• AI 학습용 데이터 구축 지원 사업의 일환으로, 3H 기준에 따라 인공지능 성능을 정량적으로 수치화

*3H: 도움되고, 진실하며 무해한 인공지능 개발을 위한 지표(Helpfulness, Honesty, Harmlessness)

LLM Alignment Benchmark for Korean Social Values and Common Knowledge

국내 최초 한국형 LLM 평가 데이터셋

• 한국의 사회적 가치관 및 상식에 대한 LLM 평가 데이터셋

• 한국인 6,174명 대상의 대규모 설문조사와 한국 교과서 및 GED 참고 자료를 기반으로한 샘플을 사용하여 데이터 구축

저자 인터뷰

K사

챗봇 시나리오 기반 평가

• 대고객용 LLM RAG 서비스의 성능, 안전성, 도메인 특화 사항을 평가할 수 있는 최적 평가 지표 설계

• 설계된 지표 기반 평가 데이터 구축 및 유사 모델과의 평가 결과 비교 리포트 제공

K사

대고객 LLM 신뢰성 평가 컨설팅

• 대고객용 LLM RAG 서비스의 성능, 안전성, 도메인 특화 사항을 평가할 수 있는 최적 평가 지표 설계

• 설계된 지표 기반 평가 데이터 구축 및 유사 모델과의 평가 결과 비교 리포트 제공

L사

IoT 가전 챗봇 유해성 평가 및 레드팀 운영

• 대고객용 LLM 챗봇 서비스의 질의응답, 일상대화 영역에 대한 유해성 평가가 가능한
평가 지표 및 기준 설계

• 설계된 지표 기반 평가 데이터 구축 및 유사 모델과의 평가 결과 비교 리포트 제공

K사

Safety 평가 데이터셋 구축

• 자체 개발 LLM의 윤리성 및 안전성 품질 확보를 위해 Category 적합성 및 유해성을 고려한 무해성 평가 데이터 구축

S사

자체 LLM QA 및 신뢰성 평가 컨설팅 및 구축

• 자체 개발 LLM 대상으로 RAG 시스템 평가, QA 평가, 요약 태스크 평가,
레드티밍 파이프라인 설계

• 고객사 원천 데이터 기반 평가용 데이터셋 구축 및 신뢰성 평가

LLM 신뢰성 벤치마크 데이터

• 국내 최초 한국어 언어 모델 신뢰성 기준 제작

• AI 학습용 데이터 구축 지원 사업의 일환으로, 3H 기준에 따라 인공지능 성능을 정량적으로 수치화

*3H: 도움되고, 진실하며 무해한 인공지능 개발을 위한 지표(Helpfulness, Honesty, Harmlessness)

국내 최초 한국형 LLM 평가 데이터셋

LLM Alignment Benchmark for Korean Social Values and Common Knowledge

• 한국의 사회적 가치관 및 상식에 대한 LLM 평가 데이터셋

• 한국인 6,174명 대상의 대규모 설문조사와 한국 교과서 및 GED 참고 자료를 기반으로한 샘플을 사용하여 데이터 구축

저자 인터뷰

AI 평가 솔루션 기업

AI 성능부터 안전성까지

셀렉트스타는 AI 성능을 좌우하는 고품질 학습 데이터는 물론,
모델 안전성을 검증하기 위한 전문 컨설팅과 자체 개발 자동화 플랫폼을 제공합니다.

국내 최초 AI 신뢰성 검증 자동화 솔루션, 다투모 이밸

누적 2억 건 이상 데이터 구축

글로벌 서비스

기업 고객 300+

NeurIPS EMNLP CVPR 등 글로벌 탑 티어 학회 등재