...
멀티모달

한국형 VLM·SLM·OMNI 멀티모달 평가셋 구축

고객
국내 통신사
분야
멀티모달 AI, VLM · Omni-Language, 음성(SLM), AI 평가데이터
유형
이미지·음성·텍스트 QA, MCQ, Rationale, JSON/XLSX
고객
국내 통신사
분야
멀티모달 AI, VLM · Omni-Language, 음성(SLM), AI 평가데이터
유형
이미지·음성·텍스트 QA, MCQ, Rationale, JSON/XLSX

통합 추론 성능 검증을 위한 고변별 평가셋·휴먼평가 체계 구축

통합 추론 성능 검증을 위한 고변별 평가셋·휴먼평가 체계 구축

AI학습데이터
RAG
문서구조화
전처리파이프라인
사내챗봇
메타데이터설계
Instruction데이터
AI평가데이터
멀티모달평가
VLM
OMNI
SLM
모달리티검수
휴먼평가
MCQ
Reasoning

프로젝트 개요

한국형 멀티모달 평가셋 구축

KT 한국형 멀티모달 모델 Mi의 VLM·OMNI·SLM 성능을 정량 검증하기 위한 평가 데이터셋 구축

고변별 통합 추론 데이터 설계

이미지·음성·텍스트가 모두 결합되어야 정답을 도출할 수 있는 멀티모달 MCQ 평가 문항 설계

자동·휴먼 기반 평가 체계 확보

LLM 생성, 자동 검증, 모달리티 검수, 휴먼평가를 결합한 다단계 품질관리 및 모델 비교 평가 수행

한국형 멀티모달 평가셋 구축

멀티모달 모델 성능 정량 검증을 위한 VLM 약 1,500건, OMNI 약 600건, SLM 약 1,000건 규모의 평가 데이터 구축

6개 도메인 기반 고변별 문항 설계

문서, 수학, 과학, 한국역사, 한국사회, 이벤트상황 등 6개 도메인 기반의 이미지·음성·텍스트 결합형 통합 추론 문항 설계

자동 검증과 휴먼평가 결합 품질관리

LLM 자동 생성, 자동 형식 검증, 모달리티 검수, 휴먼 검수를 거친 데이터 정합성 확보 및 6개 모델 대상 약 33,000건 규모의 휴먼 비교 평가 수행

문제점

1. 단일 모달로 풀리는 평가 데이터의 한계
1. 단일 모달로 풀리는 평가 데이터의 한계

텍스트나 이미지만으로 정답 도출이 가능한 데이터로는 실제 멀티모달 통합 추론 능력 평가에 한계

 


텍스트나 이미지만으로 정답 도출이 가능한 데이터로는 실제 멀티모달 통합 추론 능력 평가에 한계

2. 한국형 멀티모달 평가셋 부족
2. 위치·관계·속성 기반 복합 추론 데이터 부족

한국어, 한국 사회, 한국 역사 맥락을 반영한 고품질 멀티모달 평가 원천 데이터 부족

한국어, 한국 사회, 한국 역사 맥락을 반영한 고품질 멀티모달 평가 원천 데이터 부족

3. 도메인·Task별 균형 확보 어려움
3. 도메인·Task별 균형 확보 어려움

6개 도메인과 다중 Task, 난이도 조건을 충족하는 균형 잡힌 평가 데이터 확보 필요

6개 도메인과 다중 Task, 난이도 조건을 충족하는 균형 잡힌 평가 데이터 확보 필요

4. 대규모 휴먼평가 일관성 확보 필요
4. 대규모 휴먼평가 일관성 확보 필요

6개 모델과 다수 평가자가 참여하는 비교 평가에서 일관된 기준과 신뢰도 높은 결과 관리 필요

6개 모델과 다수 평가자가 참여하는 비교 평가에서 일관된 기준과 신뢰도 높은 결과 관리 필요

솔루션

1. VLM·OMNI·SLM 통합 평가셋 설계
1. VLM·OMNI·SLM 통합 평가셋 설계
• 이미지 기반 시각 추론, 이미지·음성·텍스트 통합 추론, 음성합성·번역 평가를 단일 방법론으로 구축
• VLM 약 1,500건, OMNI 약 600건, SLM 약 1,000건 규모의 평가 데이터 구성
• 이미지 기반 시각 추론, 이미지·음성·텍스트 통합 추론, 음성합성·번역 평가를 단일 방법론으로 구축
• VLM 약 1,500건, OMNI 약 600건, SLM 약 1,000건 규모의 평가 데이터 구성
2. 6개 도메인 × 다중 Task 균형 설계
2. 6개 도메인 × 다중 Task 균형 설계
• 문서, 수학, 과학, 한국역사, 한국사회, 이벤트상황 등 6개 도메인 반영
• OMNI 8개 Task × 난이도 2단계, VLM 11개 Layer × L1~L3 난이도 구조로 평가 범위 확장
• 문서, 수학, 과학, 한국역사, 한국사회, 이벤트상황 등 6개 도메인 반영
• OMNI 8개 Task × 난이도 2단계, VLM 11개 Layer × L1~L3 난이도 구조로 평가 범위 확장
3. 고변별 멀티모달 MCQ 문항 생성
3. 고변별 멀티모달 MCQ 문항 생성
• Question, Choice, GT Answer, Rationale을 포함한 4지선다 MCQ 평가 문항 생성
• 단일 모달이나 배경지식만으로 풀 수 있는 문항을 제외하고, 필요한 모달 정보가 모두 결합되어야 풀리는 데이터 설계
• Question, Choice, GT Answer, Rationale을 포함한 4지선다 MCQ 평가 문항 생성
• 단일 모달이나 배경지식만으로 풀 수 있는 문항을 제외하고, 필요한 모달 정보가 모두 결합되어야 풀리는 데이터 설계
4. 자동 생성·모달리티 검수 체계 구축
4. 자동 생성·모달리티 검수 체계 구축
• LLM 기반 문항 초안 생성 후 형식, 답변, 근거, Task 적합성 자동 검증 수행
• 일부 모달만으로 정답이 가능한 문항은 폐기하고, 3모달 결합 필수 데이터만 채택
• LLM 기반 문항 초안 생성 후 형식, 답변, 근거, Task 적합성 자동 검증 수행
• 일부 모달 정보만으로 정답이 가능한 문항은 폐기하고, 3모달 결합 필수 데이터만 채택
5. 대규모 휴먼 비교 평가 수행
5. 대규모 휴먼 비교 평가 수행
• 6개 모델 대상 VLM·OMNI 데이터 × 6모델 × 3인 구조의 휴먼 비교 평가 수행
• 약 33,000건 규모의 평가 결과 분석 및 평가 기준 표준화를 통한 모델 성능 비교의 일관성과 신뢰도 확보
• 6개 모델 대상 VLM·OMNI 데이터 × 6모델 × 3인 구조의 휴먼 비교 평가 수행
• 약 33,000건 규모의 평가 결과 분석 및 평가 기준 표준화를 통한 모델 성능 비교의 일관성과 신뢰도 확보

활용분야

한국형 멀티모달 모델 성능 평가

VLM·OMNI 모델의 이미지·음성·텍스트 통합 추론 성능 정량 평가 및 벤치마킹

음성 SLM 성능 검증

음성합성·음성번역 등 SLM 모델의 출력 품질과 언어 처리 성능 평가

휴먼평가 기반 품질 리포트 산출

다수 모델·평가자·지표 기반 비교 평가 결과를 활용한 모델 품질 검증 및 정량 리포트 작성

한국형 멀티모달 모델 성능 평가

VLM·OMNI 모델의 이미지·음성·텍스트 통합 추론 성능 정량 평가 및 벤치마킹

음성 SLM 성능 검증

음성합성·음성번역 등 SLM 모델의 출력 품질과 언어 처리 성능 평가

휴먼평가 기반 품질 리포트 산출

다수 모델·평가자·지표 기반 비교 평가 결과를 활용한 모델 품질 검증 및 정량 리포트 작성

외 다양한 사례에 적용 가능합니다.