...
벤치마크

맞춤형 LLM 평가 벤치마크 체계 및 데이터셋 구축

고객
글로벌 빅테크 기업
분야
수학, 교육 AI, LLM 성능 고도화
유형
텍스트, 수식(LaTeX), 구조화 데이터(JSON)
고객
국내 금융 공공기관
분야
금융, 기업 내부 AI, LLM 평가
유형
텍스트, 평가데이터, 평가 체계

실무 시나리오 기반 약 20,000건 규모의 데이터 구축 및 성능 검증 체계 수립

실무 시나리오 기반 20,000건+ 규모의 데이터 구축 및 성능 검증 체계 수립

AI평가데이터
LLM 평가
LLM 평가
RAG평가
업무시나리오
태스크설계
평가프레임워크
AI평가데이터
LLM평가
벤치마크
RAG평가
업무시나리오
태스크설계
평가프레임워크

프로젝트 개요

업무 시나리오 기반 평가 체계 설계

고객사 실제 업무 환경과 활용 시나리오를 반영해 범용 벤치마크를 넘어선 맞춤형 LLM 평가 체계 구축

태스크 기반 평가 데이터셋 구축

지식, 추론, 생성, 요약, RAG 등 다양한 업무 태스크를 포괄하는 고객사 맞춤형 평가 데이터셋 20,000건+ 구축

다층 평가 프레임워크 구현

정량 지표와 LLM Judge 기반 평가 방식을 결합해 모델 성능을 비교 검증할 수 있는 평가 프레임워크 마련

업무 시나리오 기반 평가 체계 설계

고객사 실제 업무 환경과 활용 시나리오를 반영해 범용 벤치마크를 넘어선 맞춤형 LLM 평가 체계 구축

태스크 기반 평가 데이터셋 구축

지식, 추론, 생성, 요약, RAG 등 다양한 업무 태스크를 포괄하는 고객사 맞춤형 평가 데이터셋 20,000 건+ 구축

다층 평가 프레임워크 구현

정량 지표와 LLM Judge 기반 평가 방식을 결합해 모델 성능을 비교·검증할 수 있는 평가 프레임워크 마련

문제점

1. 범용 평가셋의 한계
1. 범용 평가셋의 한계

범용 벤치마크만으로는 고객사 내부 업무 환경에서의 실제 활용 성능을 정밀하게 검증하기 어려운 한계

범용 벤치마크만으로는 고객사 내부 업무 환경에서의 실제 활용 성능을 정밀하게 검증하기 어려운 한계

2. 실무형 평가 기준 부재
2. 실무형 평가 기준 부재

실제 업무 시나리오를 반영한 평가 태스크와 기준 부족으로 인한 모델 업무 적합성의 객관적 측정 한계

실제 업무 시나리오를 반영한 평가 태스크와 기준 부족으로 인한 모델 업무 적합성의 객관적 측정 한계

3. 복합 역량 통합 검증 필요
3. 복합 역량 통합 검증 필요

지식, 추론, 생성, 요약, RAG 등 LLM의 다양한 능력을 통합적으로 평가할 수 있는 체계의 필요

지식, 추론, 생성, 요약, RAG 등 LLM의 다양한 능력을 통합적으로 평가할 수 있는 체계의 필요

솔루션

1. 사용자 인터뷰 기반 요구사항 정의 및 태스크 설계
1. 사용자 인터뷰 기반 요구사항 정의 및 태스크 설계
• 서비스 개발 조직과 내부 사용자 인터뷰를 바탕으로 요구사항 정의
• 실제 업무 사례 기반 평가 시나리오와 태스크 설계
• 서비스 개발 조직과 내부 사용자 인터뷰를 바탕으로 요구사항 정의
• 실제 업무 사례 기반 평가 시나리오와 태스크 설계
2. 업무 맥락 반영 평가 영역 및 방식 구축
2. 업무 맥락 반영 평가 영역 및 방식 구축
• 경제·금융 지식, RAG, 업무 지시 이행, 문서 작성 등 다양한 평가 영역 구성
• Accuracy와 LLM Judge(Binary/Likert)를 결합한 다층 평가 방식 설계
• 경제·금융 지식, RAG, 업무 지시 이행, 문서 작성 등 다양한 평가 영역 구성
• Accuracy와 LLM Judge(Binary/Likert)를 결합한 다층 평가 방식 설계
3. 고객사 맞춤형 평가 데이터셋 20,000건+ 구축
3. 고객사 맞춤형 평가 데이터셋 20,000건+ 구축
• 원천데이터 선별 및 정제·전처리, LLM 기반 데이터 생성, 작업자 검수 및 보완 수행
• 경제·금융 지식, RAG, 생성·추론 태스크를 포괄하는 실무형 평가 데이터셋 구축
• 원천데이터 선별 및 정제·전처리, LLM 기반 데이터 생성, 작업자 검수 및 보완 수행
• 경제·금융 지식, RAG, 생성·추론 태스크를 포괄하는 실무형 평가 데이터셋 구축
4. 벤치마크 기반 성능 검증 환경 구축
4. 벤치마크 기반 성능 검증 환경 구축
• 단순 QA를 넘어 지식·추론·생성·요약 등 복합 성능을 비교할 수 있는 벤치마크 체계 구축
• 고객사 특화 LLM의 실효성 검증 기반 마련
• 단순 QA를 넘어 지식·추론·생성·요약 등 복합 성능을 비교할 수 있는 벤치마크 체계 구축
• 고객사 특화 LLM의 실효성 검증 기반 마련

데이터 예시

  {
//…(이전 메타데이터 생략)

…
"evaluation_metrics": [
{
"name": "Accuracy",
"description": "정답 일치도"
}
],
"evaluation_rubric_id": "SEL-RUBRIC-V1",
"security_level": "공개"
},
"items": [
{
"item_id": "9001",
"difficulty": "중",
"turns": [
{
"turn_id": "turn_1",
"prompt": "주어진 질문에 대한 코드와 답을 제시하시오.\n\n단계적으로 생각하되, 최종 답의 마지막 줄은 아래 형식으로 출력하시오. \n- 출력 형식(마지막 줄 고정): 정답은 [x1] 입니다. \n- 출력 예시: 정답은 [\"10.5\"] 입니다.",
"context": "다음은 2022년 지역별 매출 데이터이다 (단위: 백만 달러).\n\n| 지역 | 매출 |\n| --- | --- |\n| 북미 | 520 |\n| 유럽 | 340 |\n| 아시아 | 260 |\n| 남미 | 80 |\n| 기타 | 40 |\n\n총 매출은 1,240 백만 달러이다.",
"question": "전체 매출 대비 유럽과 아시아 매출의 합이 차지하는 비율은 얼마인가?",
"answer": [
"0.4838709677"
],
"program": "유럽 = 340 아시아 = 260 총매출 = 1240 합계 = 유럽 + 아시아 비율 = 합계 / 총매출 answer = 비율"
}
]
}
]
}  

활용분야

기업 내부 LLM 성능 검증

내부 업무 환경에 적합한 LLM의 성능과 활용 가능성 검증

AI 서비스 출시 전 품질 평가

출시 전 단계에서 모델 품질 수준을 점검하고 개선 과제 도출

모델 비교 및 평가 체계 구축

후보 모델 간 성능 비교와 고객 맞춤형 평가 체계 수립에 활용

기업 내부 LLM 성능 검증

내부 업무 환경에 적합한 LLM의 성능과 활용 가능성 검증

AI 서비스 출시 전 품질 평가

출시 전 단계에서 모델 품질 수준을 점검하고 개선 과제 도출

모델 비교 및 평가 체계 구축

후보 모델 간 성능 비교와 고객 맞춤형 평가 체계 수립에 활용

외 다양한 사례에 적용 가능합니다.