멀티모달
한국형 VLM·SLM·OMNI 멀티모달 평가셋 구축
고객
분야
유형
고객
분야
유형
통합 추론 성능 검증을 위한 고변별 평가셋·휴먼평가 체계 구축
통합 추론 성능 검증을 위한 고변별 평가셋·휴먼평가 체계 구축
AI학습데이터
RAG
문서구조화
전처리파이프라인
사내챗봇
메타데이터설계
Instruction데이터
프로젝트 개요
한국형 멀티모달 평가셋 구축
KT 한국형 멀티모달 모델 Mi의 VLM·OMNI·SLM 성능을 정량 검증하기 위한 평가 데이터셋 구축
고변별 통합 추론 데이터 설계
이미지·음성·텍스트가 모두 결합되어야 정답을 도출할 수 있는 멀티모달 MCQ 평가 문항 설계
자동·휴먼 기반 평가 체계 확보
LLM 생성, 자동 검증, 모달리티 검수, 휴먼평가를 결합한 다단계 품질관리 및 모델 비교 평가 수행
한국형 멀티모달 평가셋 구축
멀티모달 모델 성능 정량 검증을 위한 VLM 약 1,500건, OMNI 약 600건, SLM 약 1,000건 규모의 평가 데이터 구축
6개 도메인 기반 고변별 문항 설계
문서, 수학, 과학, 한국역사, 한국사회, 이벤트상황 등 6개 도메인 기반의 이미지·음성·텍스트 결합형 통합 추론 문항 설계
자동 검증과 휴먼평가 결합 품질관리
LLM 자동 생성, 자동 형식 검증, 모달리티 검수, 휴먼 검수를 거친 데이터 정합성 확보 및 6개 모델 대상 약 33,000건 규모의 휴먼 비교 평가 수행
문제점
1. 단일 모달로 풀리는 평가 데이터의 한계
1. 단일 모달로 풀리는 평가 데이터의 한계
텍스트나 이미지만으로 정답 도출이 가능한 데이터로는 실제 멀티모달 통합 추론 능력 평가에 한계
텍스트나 이미지만으로 정답 도출이 가능한 데이터로는 실제 멀티모달 통합 추론 능력 평가에 한계
2. 한국형 멀티모달 평가셋 부족
2. 위치·관계·속성 기반 복합 추론 데이터 부족
한국어, 한국 사회, 한국 역사 맥락을 반영한 고품질 멀티모달 평가 원천 데이터 부족
한국어, 한국 사회, 한국 역사 맥락을 반영한 고품질 멀티모달 평가 원천 데이터 부족
3. 도메인·Task별 균형 확보 어려움
3. 도메인·Task별 균형 확보 어려움
6개 도메인과 다중 Task, 난이도 조건을 충족하는 균형 잡힌 평가 데이터 확보 필요
6개 도메인과 다중 Task, 난이도 조건을 충족하는 균형 잡힌 평가 데이터 확보 필요
4. 대규모 휴먼평가 일관성 확보 필요
4. 대규모 휴먼평가 일관성 확보 필요
6개 모델과 다수 평가자가 참여하는 비교 평가에서 일관된 기준과 신뢰도 높은 결과 관리 필요
6개 모델과 다수 평가자가 참여하는 비교 평가에서 일관된 기준과 신뢰도 높은 결과 관리 필요
솔루션
1. VLM·OMNI·SLM 통합 평가셋 설계
1. VLM·OMNI·SLM 통합 평가셋 설계
2. 6개 도메인 × 다중 Task 균형 설계
2. 6개 도메인 × 다중 Task 균형 설계
3. 고변별 멀티모달 MCQ 문항 생성
3. 고변별 멀티모달 MCQ 문항 생성
4. 자동 생성·모달리티 검수 체계 구축
4. 자동 생성·모달리티 검수 체계 구축
5. 대규모 휴먼 비교 평가 수행
5. 대규모 휴먼 비교 평가 수행
활용분야
한국형 멀티모달 모델 성능 평가
VLM·OMNI 모델의 이미지·음성·텍스트 통합 추론 성능 정량 평가 및 벤치마킹
음성 SLM 성능 검증
음성합성·음성번역 등 SLM 모델의 출력 품질과 언어 처리 성능 평가
휴먼평가 기반 품질 리포트 산출
다수 모델·평가자·지표 기반 비교 평가 결과를 활용한 모델 품질 검증 및 정량 리포트 작성
한국형 멀티모달 모델 성능 평가
VLM·OMNI 모델의 이미지·음성·텍스트 통합 추론 성능 정량 평가 및 벤치마킹
음성 SLM 성능 검증
음성합성·음성번역 등 SLM 모델의 출력 품질과 언어 처리 성능 평가
휴먼평가 기반 품질 리포트 산출
다수 모델·평가자·지표 기반 비교 평가 결과를 활용한 모델 품질 검증 및 정량 리포트 작성
외 다양한 사례에 적용 가능합니다.

