고객사 맞춤형 LLM 평가 벤치마크 체계 및 데이터셋 구축

벤치마크

맞춤형 LLM 평가 벤치마크 체계 및 데이터셋 구축

고객

글로벌 빅테크 기업

분야

수학, 교육 AI, LLM 성능 고도화

유형

텍스트, 수식(LaTeX), 구조화 데이터(JSON)

고객

국내 금융 공공기관

분야

금융, 기업 내부 AI, LLM 평가

유형

텍스트, 평가데이터, 평가 체계

실무 시나리오 기반 약 20,000건 규모의 데이터 구축 및 성능 검증 체계 수립

실무 시나리오 기반 20,000건+ 규모의 데이터 구축 및 성능 검증 체계 수립

AI평가데이터

LLM 평가

RAG평가

업무시나리오

태스크설계

평가프레임워크

AI평가데이터

LLM평가

벤치마크

RAG평가

업무시나리오

태스크설계

평가프레임워크

프로젝트 개요

업무 시나리오 기반 평가 체계 설계

고객사 실제 업무 환경과 활용 시나리오를 반영해 범용 벤치마크를 넘어선 맞춤형 LLM 평가 체계 구축

태스크 기반 평가 데이터셋 구축

지식, 추론, 생성, 요약, RAG 등 다양한 업무 태스크를 포괄하는 고객사 맞춤형 평가 데이터셋 20,000건+ 구축

다층 평가 프레임워크 구현

정량 지표와 LLM Judge 기반 평가 방식을 결합해 모델 성능을 비교 검증할 수 있는 평가 프레임워크 마련

업무 시나리오 기반 평가 체계 설계

고객사 실제 업무 환경과 활용 시나리오를 반영해 범용 벤치마크를 넘어선 맞춤형 LLM 평가 체계 구축

태스크 기반 평가 데이터셋 구축

지식, 추론, 생성, 요약, RAG 등 다양한 업무 태스크를 포괄하는 고객사 맞춤형 평가 데이터셋 20,000 건+ 구축

다층 평가 프레임워크 구현

정량 지표와 LLM Judge 기반 평가 방식을 결합해 모델 성능을 비교·검증할 수 있는 평가 프레임워크 마련

문제점

1. 범용 평가셋의 한계

범용 벤치마크만으로는 고객사 내부 업무 환경에서의 실제 활용 성능을 정밀하게 검증하기 어려운 한계

2. 실무형 평가 기준 부재

실제 업무 시나리오를 반영한 평가 태스크와 기준 부족으로 인한 모델 업무 적합성의 객관적 측정 한계

3. 복합 역량 통합 검증 필요

지식, 추론, 생성, 요약, RAG 등 LLM의 다양한 능력을 통합적으로 평가할 수 있는 체계의 필요

솔루션

1. 사용자 인터뷰 기반 요구사항 정의 및 태스크 설계

• 서비스 개발 조직과 내부 사용자 인터뷰를 바탕으로 요구사항 정의

• 실제 업무 사례 기반 평가 시나리오와 태스크 설계

• 서비스 개발 조직과 내부 사용자 인터뷰를 바탕으로 요구사항 정의

• 실제 업무 사례 기반 평가 시나리오와 태스크 설계

2. 업무 맥락 반영 평가 영역 및 방식 구축

• 경제·금융 지식, RAG, 업무 지시 이행, 문서 작성 등 다양한 평가 영역 구성

• Accuracy와 LLM Judge(Binary/Likert)를 결합한 다층 평가 방식 설계

• 경제·금융 지식, RAG, 업무 지시 이행, 문서 작성 등 다양한 평가 영역 구성

• Accuracy와 LLM Judge(Binary/Likert)를 결합한 다층 평가 방식 설계

3. 고객사 맞춤형 평가 데이터셋 20,000건+ 구축

• 원천데이터 선별 및 정제·전처리, LLM 기반 데이터 생성, 작업자 검수 및 보완 수행

• 경제·금융 지식, RAG, 생성·추론 태스크를 포괄하는 실무형 평가 데이터셋 구축

• 원천데이터 선별 및 정제·전처리, LLM 기반 데이터 생성, 작업자 검수 및 보완 수행

• 경제·금융 지식, RAG, 생성·추론 태스크를 포괄하는 실무형 평가 데이터셋 구축

4. 벤치마크 기반 성능 검증 환경 구축

• 단순 QA를 넘어 지식·추론·생성·요약 등 복합 성능을 비교할 수 있는 벤치마크 체계 구축

• 고객사 특화 LLM의 실효성 검증 기반 마련

• 단순 QA를 넘어 지식·추론·생성·요약 등 복합 성능을 비교할 수 있는 벤치마크 체계 구축

• 고객사 특화 LLM의 실효성 검증 기반 마련

데이터 예시

  {
//…(이전 메타데이터 생략)

…
"evaluation_metrics": [
{
"name": "Accuracy",
"description": "정답 일치도"
}
],
"evaluation_rubric_id": "SEL-RUBRIC-V1",
"security_level": "공개"
},
"items": [
{
"item_id": "9001",
"difficulty": "중",
"turns": [
{
"turn_id": "turn_1",
"prompt": "주어진 질문에 대한 코드와 답을 제시하시오.\n\n단계적으로 생각하되, 최종 답의 마지막 줄은 아래 형식으로 출력하시오. \n- 출력 형식(마지막 줄 고정): 정답은 [x1] 입니다. \n- 출력 예시: 정답은 [\"10.5\"] 입니다.",
"context": "다음은 2022년 지역별 매출 데이터이다 (단위: 백만 달러).\n\n| 지역 | 매출 |\n| --- | --- |\n| 북미 | 520 |\n| 유럽 | 340 |\n| 아시아 | 260 |\n| 남미 | 80 |\n| 기타 | 40 |\n\n총 매출은 1,240 백만 달러이다.",
"question": "전체 매출 대비 유럽과 아시아 매출의 합이 차지하는 비율은 얼마인가?",
"answer": [
"0.4838709677"
],
"program": "유럽 = 340 아시아 = 260 총매출 = 1240 합계 = 유럽 + 아시아 비율 = 합계 / 총매출 answer = 비율"
}
]
}
]
}

활용분야

기업 내부 LLM 성능 검증

내부 업무 환경에 적합한 LLM의 성능과 활용 가능성 검증

AI 서비스 출시 전 품질 평가

출시 전 단계에서 모델 품질 수준을 점검하고 개선 과제 도출

모델 비교 및 평가 체계 구축

후보 모델 간 성능 비교와 고객 맞춤형 평가 체계 수립에 활용

기업 내부 LLM 성능 검증

내부 업무 환경에 적합한 LLM의 성능과 활용 가능성 검증

AI 서비스 출시 전 품질 평가

출시 전 단계에서 모델 품질 수준을 점검하고 개선 과제 도출

모델 비교 및 평가 체계 구축

후보 모델 간 성능 비교와 고객 맞춤형 평가 체계 수립에 활용

외 다양한 사례에 적용 가능합니다.

다른 사례 더 보기

회사 소식

AI 서비스 평가 기준 만드는 방법

셀렉트스타 ‘LLM 무해성 평가 데이터’ 국내 첫 데이터품질 인증 획득

테크

벤치마크

맞춤형 LLM 평가 벤치마크 체계 및 데이터셋 구축

고객

분야

유형

고객

분야

유형

실무 시나리오 기반 약 20,000건 규모의 데이터 구축 및 성능 검증 체계 수립

실무 시나리오 기반 20,000건+ 규모의 데이터 구축 및 성능 검증 체계 수립

AI평가데이터

LLM 평가

LLM 평가

RAG평가

업무시나리오

태스크설계

평가프레임워크

프로젝트 개요

업무 시나리오 기반 평가 체계 설계

태스크 기반 평가 데이터셋 구축

다층 평가 프레임워크 구현

업무 시나리오 기반 평가 체계 설계

태스크 기반 평가 데이터셋 구축

다층 평가 프레임워크 구현

문제점

1. 범용 평가셋의 한계

1. 범용 평가셋의 한계

2. 실무형 평가 기준 부재

2. 실무형 평가 기준 부재

3. 복합 역량 통합 검증 필요

3. 복합 역량 통합 검증 필요

솔루션

1. 사용자 인터뷰 기반 요구사항 정의 및 태스크 설계

1. 사용자 인터뷰 기반 요구사항 정의 및 태스크 설계

2. 업무 맥락 반영 평가 영역 및 방식 구축

2. 업무 맥락 반영 평가 영역 및 방식 구축

3. 고객사 맞춤형 평가 데이터셋 20,000건+ 구축

3. 고객사 맞춤형 평가 데이터셋 20,000건+ 구축

4. 벤치마크 기반 성능 검증 환경 구축

4. 벤치마크 기반 성능 검증 환경 구축

데이터 예시

활용분야

기업 내부 LLM 성능 검증

AI 서비스 출시 전 품질 평가

모델 비교 및 평가 체계 구축

기업 내부 LLM 성능 검증

AI 서비스 출시 전 품질 평가

모델 비교 및 평가 체계 구축

Related Posts

AI 서비스 평가 기준 만드는 방법

셀렉트스타 ‘LLM 무해성 평가 데이터’ 국내 첫 데이터품질 인증 획득

LLM 성능 높이기? Think on Graph! – 2편

AI Data

AI Evaluation

Resources

IR

Company