멀티모달
VLM 공간추론 평가·학습용 고난도 VQA 데이터셋 구축
고객
분야
유형
고객
분야
유형
VLM의 시점·공간관계·속성 기반 Multi-hop 추론과 Grounding을 평가하는 Spatial Reasoning VQA 데이터셋 구축
VLM의 시점·공간관계·속성 기반 Multi-hop 추론과 Grounding을 평가하는 Spatial Reasoning VQA 데이터셋 구축
AI학습데이터
RAG
문서구조화
전처리파이프라인
사내챗봇
메타데이터설계
Instruction데이터
프로젝트 개요
복합 공간추론 VQA 데이터셋 구축
객체 간 위치, 관계, 속성, 시점 변화를 종합적으로 판단하는 고난도 Spatial Reasoning VQA 데이터셋 구축
Ego·Exo 시점 기반 추론 구조 설계
1인칭·3인칭 시점을 균형 있게 반영해 실제 환경에서 필요한 장면 이해와 공간 관계 추론 능력 평가
Multi-hop·BBOX 기반 평가 체계
1-hop부터 3-hop까지 단계별 질의응답과 정답 근거 BBOX를 포함해 VLM의 추론 과정까지 검증
복합 공간추론 VQA 데이터셋 구축
객체 간 위치, 관계, 속성, 시점 변화를 종합적으로 판단하는 고난도 Spatial Reasoning VQA 데이터셋 구축
Ego·Exo 시점 기반 추론 구조 설계
1인칭·3인칭 시점을 균형 있게 반영해 실제 환경에서 필요한 장면 이해와 공간 관계 추론 능력 평가
Multi-hop·BBOX 기반 평가 체계
1-hop부터 3-hop까지 단계별 질의응답과 정답 근거 BBOX를 포함해 VLM의 추론 과정까지 검증
문제점
1. 단순 인식 중심의 기존 VQA 한계
1. 단순 인식 중심의 기존 VQA 한계
기존 VQA 데이터는 객체 인식이나 단일 속성 질의에 집중되어, 복합적인 공간추론 능력 평가에 한계가 있음
기존 VQA 데이터는 객체 인식이나 단일 속성 질의에 집중되어, 복합적인 공간추론 능력 평가에 한계가 있음
2. 위치·관계·속성 기반 복합 추론 데이터 부족
2. 위치·관계·속성 기반 복합 추론 데이터 부족
객체의 위치, 관계, 속성 정보를 조합해 판단해야 하는 Multi-hop 공간추론 데이터가 부족함
객체의 위치, 관계, 속성 정보를 조합해 판단해야 하는 Multi-hop 공간추론 데이터가 부족함
3. 시점 변화에 따른 공간 이해 평가 어려움
3. 시점 변화에 따른 공간 이해 평가 어려움
Ego-centric / Exo-centric 등 관찰 시점 변화에 따른 장면 이해와 공간 관계 판단 데이터를 확보하기 어려움
Ego-centric / Exo-centric 등 관찰 시점 변화에 따른 장면 이해와 공간 관계 판단 데이터를 확보하기 어려움
4. 정답 근거 검증을 위한 Grounding 체계 필요
4. 정답 근거 검증을 위한 Grounding 체계 필요
정답만으로는 모델이 어떤 객체를 근거로 판단했는지 검증하기 어려워 BBOX와 Rationale 기반 검수 체계가 필요함
정답만으로는 모델이 어떤 객체를 근거로 판단했는지 검증하기 어려워 BBOX와 Rationale 기반 검수 체계가 필요함
솔루션
1. 공간추론 중심 VQA 데이터 구조 설계
1. 공간추론 중심 VQA 데이터 구조 설계
2. ATT·POS·REL 기반 Multi-hop 질의응답 설계
2. ATT·POS·REL 기반 Multi-hop 질의응답 설계
3. Ego·Exo 시점 기반 공간 이해 데이터 구축
3. Ego·Exo 시점 기반 공간 이해 데이터 구축
4. LMM 기반 초안 생성 및 자동 검증
4. LMM 기반 초안 생성 및 자동 검증
5. BBOX·Rationale 기반 휴먼 검수 체계 구축
5. BBOX·Rationale 기반 휴먼 검수 체계 구축
데이터 예시
{
"idx": 6404,
"image_id": 7921,
"image_path": "/000000007921.jpg",
"image_resolution": "640x562",
"question": "From the perspective of the man wearing black, what is the white object in front of him? (a) doll, (b) game controller, (c) mirror, (d) cup And provide the bounding box coordinate of the region related to your answer.",
"response": "(b) game controller",
"rationale": "The question is ego-centric: The front of the man in black clothes is the left of the image. The doll is on the right so exclude. The cup and the mirror are not white so exclude. Therefore game controller.",
"bbox": [
311.82,
453.12,
28.95,
66.08
],
"view": "ego"
} 활용분야
VLM 공간추론 성능 평가
시점, 위치, 관계, 속성 정보를 종합적으로 활용하는 VLM의 공간 이해·추론 능력 평가
Spatial Reasoning 벤치마크 구축
Ego·Exo 시점과 Multi-hop 질의응답을 기반으로 고난도 공간추론 평가 데이터 구축
로봇·Embodied AI 시각 이해
실제 환경의 장면, 객체 관계, 시점 전환 이해가 필요한 로봇·Embodied AI 학습에 활용
VLM 공간추론 성능 평가
시점, 위치, 관계, 속성 정보를 종합적으로 활용하는 VLM의 공간 이해·추론 능력 평가
Spatial Reasoning 벤치마크 구축
Ego·Exo 시점과 Multi-hop 질의응답을 기반으로 고난도 공간추론 평가 데이터 구축
로봇·Embodied AI 시각 이해
실제 환경의 장면, 객체 관계, 시점 전환 이해가 필요한 로봇·Embodied AI 학습에 활용
외 다양한 사례에 적용 가능합니다.


