...
멀티모달

VLM 공간추론 평가·학습용 고난도 VQA 데이터셋 구축

고객
국내 연구기관
분야
멀티모달 AI, VLM, 공간지능, AI 평가데이터
유형
이미지 기반 VQA, Response, Rationale, Bounding Box, JSON/CSV
고객
국내 연구기관
분야
멀티모달 AI, VLM, 공간지능, AI평가데이터
유형
이미지 기반 VQA, Response, Rationale, Bounding Box, JSON/CSV

VLM의 시점·공간관계·속성 기반 Multi-hop 추론과 Grounding을 평가하는 Spatial Reasoning VQA 데이터셋 구축

VLM의 시점·공간관계·속성 기반 Multi-hop 추론과 Grounding을 평가하는 Spatial Reasoning VQA 데이터셋 구축

AI학습데이터
RAG
문서구조화
전처리파이프라인
사내챗봇
메타데이터설계
Instruction데이터
AI 학습데이터
VLM평가
공간추론 VQA
Multi-hop
Ego/Exo-centric
BBOX Grounding

프로젝트 개요

복합 공간추론 VQA 데이터셋 구축

객체 간 위치, 관계, 속성, 시점 변화를 종합적으로 판단하는 고난도 Spatial Reasoning VQA 데이터셋 구축

Ego·Exo 시점 기반 추론 구조 설계

1인칭·3인칭 시점을 균형 있게 반영해 실제 환경에서 필요한 장면 이해와 공간 관계 추론 능력 평가

Multi-hop·BBOX 기반 평가 체계

1-hop부터 3-hop까지 단계별 질의응답과 정답 근거 BBOX를 포함해 VLM의 추론 과정까지 검증

복합 공간추론 VQA 데이터셋 구축

객체 간 위치, 관계, 속성, 시점 변화를 종합적으로 판단하는 고난도 Spatial Reasoning VQA 데이터셋 구축

Ego·Exo 시점 기반 추론 구조 설계

1인칭·3인칭 시점을 균형 있게 반영해 실제 환경에서 필요한 장면 이해와 공간 관계 추론 능력 평가

Multi-hop·BBOX 기반 평가 체계

1-hop부터 3-hop까지 단계별 질의응답과 정답 근거 BBOX를 포함해 VLM의 추론 과정까지 검증

문제점

1. 단순 인식 중심의 기존 VQA 한계
1. 단순 인식 중심의 기존 VQA 한계

기존 VQA 데이터는 객체 인식이나 단일 속성 질의에 집중되어, 복합적인 공간추론 능력 평가에 한계가 있음

기존 VQA 데이터는 객체 인식이나 단일 속성 질의에 집중되어, 복합적인 공간추론 능력 평가에 한계가 있음

2. 위치·관계·속성 기반 복합 추론 데이터 부족
2. 위치·관계·속성 기반 복합 추론 데이터 부족

객체의 위치, 관계, 속성 정보를 조합해 판단해야 하는 Multi-hop 공간추론 데이터가 부족함

객체의 위치, 관계, 속성 정보를 조합해 판단해야 하는 Multi-hop 공간추론 데이터가 부족함

3. 시점 변화에 따른 공간 이해 평가 어려움
3. 시점 변화에 따른 공간 이해 평가 어려움

Ego-centric / Exo-centric 등 관찰 시점 변화에 따른 장면 이해와 공간 관계 판단 데이터를 확보하기 어려움

Ego-centric / Exo-centric 등 관찰 시점 변화에 따른 장면 이해와 공간 관계 판단 데이터를 확보하기 어려움

4. 정답 근거 검증을 위한 Grounding 체계 필요
4. 정답 근거 검증을 위한 Grounding 체계 필요

정답만으로는 모델이 어떤 객체를 근거로 판단했는지 검증하기 어려워 BBOX와 Rationale 기반 검수 체계가 필요함

정답만으로는 모델이 어떤 객체를 근거로 판단했는지 검증하기 어려워 BBOX와 Rationale 기반 검수 체계가 필요함

솔루션

1. 공간추론 중심 VQA 데이터 구조 설계
1. 공간추론 중심 VQA 데이터 구조 설계
• 객체 인식 중심 질의를 넘어 위치, 관계, 속성, 시점 정보를 반영한 공간추론형 질문 구조 설계
• Question, Choice, Answer, Response, Rationale, BBOX를 포함한 고난도 VQA 데이터 포맷 정의
• 객체 인식 중심 질의를 넘어 위치, 관계, 속성, 시점 정보를 반영한 공간추론형 질문 구조 설계
• Question, Choice, Answer, Response, Rationale, BBOX를 포함한 고난도 VQA 데이터 포맷 정의
2. ATT·POS·REL 기반 Multi-hop 질의응답 설계
2. ATT·POS·REL 기반 Multi-hop 질의응답 설계
• Attribute, Position, Relation 조건을 조합해 1-hop부터 3-hop까지 단계별 추론 난이도 구성
• 단일 요소 판단부터 복합 조건 기반 추론까지 평가 가능한 질의응답 데이터 생성
• Attribute, Position, Relation 조건을 조합해 1-hop부터 3-hop까지 단계별 추론 난이도 구성
• 단일 요소 판단부터 복합 조건 기반 추론까지 평가 가능한 질의응답 데이터 생성
3. Ego·Exo 시점 기반 공간 이해 데이터 구축
3. Ego·Exo 시점 기반 공간 이해 데이터 구축
• 1인칭 Ego-centric과 3인칭 Exo-centric 시점을 균형 있게 반영한 데이터 설계
• 실제 환경에서 필요한 시점 변화, 장면 이해, 객체 간 공간 관계 판단 능력 학습 지원
• 1인칭 Ego-centric과 3인칭 Exo-centric 시점을 균형 있게 반영한 데이터 설계
• 실제 환경에서 필요한 시점 변화, 장면 이해, 객체 간 공간 관계 판단 능력 학습 지원
4. LMM 기반 초안 생성 및 자동 검증
4. LMM 기반 초안 생성 및 자동 검증
• LMM을 활용해 Question, Choice, Response, Rationale 초안 생성
• ATT·POS·REL 태그, 4지선다 구성, 방향 표현, 정답·근거 형식 등 자동 검증 수행
• LMM을 활용해 Question, Choice, Response, Rationale 초안 생성
• ATT·POS·REL 태그, 4지선다 구성, 방향 표현, 정답·근거 형식 등 자동 검증 수행
5. BBOX·Rationale 기반 휴먼 검수 체계 구축
5. BBOX·Rationale 기반 휴먼 검수 체계 구축
• 정답 객체 BBOX 태깅과 Rationale 검수를 통해 모델 판단 근거의 정합성 확보
• 내부 검수 툴 기반으로 오답 수정, 신규 어노테이션 등록, 작업 불가 데이터 분류까지 관리
• 정답 객체 BBOX 태깅과 Rationale 검수를 통해 모델 판단 근거의 정합성 확보
• 내부 검수 툴 기반으로 오답 수정, 신규 어노테이션 등록, 작업 불가 데이터 분류까지 관리

데이터 예시

  {
    "idx": 6404,
    "image_id": 7921,
    "image_path": "/000000007921.jpg",
    "image_resolution": "640x562",
    "question": "From the perspective of the man wearing black, what is the <ATT>white object</ATT> <POS>in front of</POS> him? <choice>(a) doll, (b) game controller, (c) mirror, (d) cup</choice> And provide the bounding box coordinate of the region related to your answer.",
    "response": "(b) game controller",
    "rationale": "The question is ego-centric: The front of the man in black clothes is the left of the image. The doll is on the right so exclude. The cup and the mirror are not white so exclude. Therefore game controller.",
    "bbox": [
      311.82,
      453.12,
      28.95,
      66.08
    ],
    "view": "ego"
  }  

활용분야

VLM 공간추론 성능 평가

시점, 위치, 관계, 속성 정보를 종합적으로 활용하는 VLM의 공간 이해·추론 능력 평가

Spatial Reasoning 벤치마크 구축

Ego·Exo 시점과 Multi-hop 질의응답을 기반으로 고난도 공간추론 평가 데이터 구축

로봇·Embodied AI 시각 이해

실제 환경의 장면, 객체 관계, 시점 전환 이해가 필요한 로봇·Embodied AI 학습에 활용

VLM 공간추론 성능 평가

시점, 위치, 관계, 속성 정보를 종합적으로 활용하는 VLM의 공간 이해·추론 능력 평가

Spatial Reasoning 벤치마크 구축

Ego·Exo 시점과 Multi-hop 질의응답을 기반으로 고난도 공간추론 평가 데이터 구축

로봇·Embodied AI 시각 이해

실제 환경의 장면, 객체 관계, 시점 전환 이해가 필요한 로봇·Embodied AI 학습에 활용

외 다양한 사례에 적용 가능합니다.