.
데이터 개요
소개
AI허브 제공 중인 비전 분야 음식이미지 및 영양정보 데이터셋을 구성하는 원천데이터를 다양한 음식으로 확장 구축하고, 음식분류와 양 인식을 위한 원천 및 라벨링 데이터 등을 추가, 보완하여 데이터의 유용성과 활용도를 높이기 위한 데이터 고도화
구축목적
기 구축되어있는 음식이미지데이터의 경우, 한식메뉴 중심에 국한되다 보니 빠르게 변화하는 식문화 트랜드를 반영하지 못함 다양한 퀴진을 포함하여 폭넓은 가격대의 외식메뉴, 요즘의 식생활 형태를 반영할 수 있는 800종의 음식을 구축
메타데이터 구조표
데이터 영역
영상이미지
데이터 유형
이미지
데이터 형식
jpg
데이터 출처
이미지
라벨링 유형
바운딩박스(이미지) , 영양정보(텍스트)
라벨링 형식
json
데이터 활용 서비스
식단 관리 앱, 헬스케어 서비스 등
데이터 구축년도/ 데이터 구축량
2022년/232,087장
데이터 통계
1. 데이터 구축 규모
총 네 개의 카테고리로 분류된 특수외식메뉴, 일반외식·배달메뉴, 끼니대체메뉴, 음료 및 차류 등 이미지 데이터 및 영양정보 텍스트데이터
2. 데이터 분포
음식 중분류 카테고리 분포
촬영 각도 분포
활용 AI 모델 및 코드
모델 학습
기존의 Pascal VOC 데이터셋 타입을 음식 데이터셋에 적합하게 개선하여 커스텀 음식 데이터셋을 정의하였다. 해당 데이터셋은 8:1:1 비율로 Train / Vaildation / Test 용 데이터셋으로 활용되었다.
- 수집된 학습용 데이터에서 라벨링 된 2D 및 3D 바운딩박스는 학습서버를 통해 음식탐지 및 분류모델과 중량예측 모델을 개발
크라우드소싱 플랫폼 '캐시미션' 툴로써 사용
계정 생성, 정보, 집계, 정산, 관리자 기능 사용
- 수집을 위한 크라우드 소싱 플랫폼 제공
- 수집된 사진 209,000장에 대한 바운딩박스 및 검수
- 209,000장에 대한 3D-Cuboid 검수
연도 : 2022년
이미지 데이터 / JSON 형식
셀렉트스타의 데이터 구축 사례를 더 확인해보세요!
“셀렉트스타의 플랫폼을 통해 대량의 OCR 데이터 가공을 신속하고 정확하게 완료할 수 있었습니다. 내부 파트타임을 고용하였을 경우 6개월이 걸리는 분량을 1달이채 안되게 처리해주셨고 지속적인 커뮤니케이션을 통해서 즉각적인 업데이트와 피드백이 가능했습니다. 비용, 품질, 속도 모두 좋았고 덕분에 내부 리소스를 많이 절감하게 되었습니다.”
SKTelecom
“전문 성우 분들의 음성 데이터가 필요해서 셀렉트스타에 의뢰를 드리게 되었습니다. 초반에 성우 선별을 위한 샘플 데이터를 꼼꼼하게 챙겨 주셔서 좋았고, 최종 전달받은 데이터의 퀄리티도 매우 만족스러웠습니다. 다음 번에도 셀렉트스타와 함께 일할 수 있기를 희망합니다.”
삼성전자
“셀렉트스타 플랫폼 덕분에 빠른 시간 내에 한국어 질문-답변 데이터셋인 KorQuad 2.0을 구축할 수 있었습니다. 다양한 작업자의 참여로 데이터 편향성을 방지하였고 품질 또한 만족스러웠습니다. 특히, 당사의 데이터 요건과 작업자의 이해를 모두 잡은 작업자 교육자료가 인상깊었습니다.”
LG CNS
“셀렉트스타와 KLUE 데이터셋을 구축하며 가장 인상적이었던 부분은 데이터 품질 관리였습니다. 상당히 어려운 난이도와 촉박한 일정이었음에도 불구하고 일관된 데이터 작업이 가능하도록 가이드라인이 수립되었고, 고품질 데이터를 만들 수 있는 작업자 선발과 교육, 전수 검사가 이뤄졌습니다. 셀렉트스타 담당자 분들의 역량과 열정 덕분에 대표 한국어 NLP 벤치마크 데이터셋인 KLUE가 무사히 세상에 나올 수 있었다고 생각합니다.”
업스테이지
“셀렉트스타의 플랫폼을 통해 대량의 OCR 데이터 가공을 신속하고 정확하게 완료할 수 있었습니다. 내부 파트타임을 고용하였을 경우 6개월이 걸리는 분량을 1달이 채 안되게 처리해주셨고 지속적인 커뮤니케이션을 통해서 즉각적인 업데이트와 피드백이 가능했습니다. 비용, 품질, 속도 모두 좋았고 덕분에 내부 리소스를 많이 절감하게 되었습니다.”
롯데정보통신
“셀렉트스타와 협업하며 가장 놀라웠던 것은 데이터 품질이었습니다. 상당히 촉박한 프로젝트 일정에도 불구하고 멋진 퀄리티의 데이터를 전달해 주셨고, 자율주행 로봇에 탑재할 이미지 Segmetation 모델을 개발하는데 큰 도움이 되었습니다. 다음 프로젝트에도 꼭 셀렉트스타와 함께 할 계획입니다. .”
뉴빌리티
“셀렉트스타와 함께 의류 및 패션 이미지 데이터 레이블링 프로젝트 (Bounding Box, Tagging, Landmark)를 진행했습니다. 원하는 데이터셋의 스펙을 서로 맞추기 위한 의사소통 과정이 원활하게 이루어졌으며, 합리적인 가격으로 내부의 니즈에 맞는 데이터셋을 확보할 수 있었습니다.”
옴니어스
“스마트홈 AI 개발을 위해 실내 사진 수집 및 레이블링을 셀렉트스타에 의뢰했습니다. 다양한 집안 환경 사진을 수집해야 해 내부적으로 진행이 어려웠는데, 셀렉트스타의 크라우드소싱 방식이 빛을 발하여 많은 사람들로부터 데이터를 얻을 수 있었습니다. 전문성을 갖고 데이터 품질, 속도, 프로젝트 관리를 진행해주셨고 좋은 결과를 얻었습니다.”
엘컴택
“수집과 가공에 다소 시간과 노력이 많이 필요한 데이터인 다양한 책에서 많은 수의 문제를 생성하는 프로젝트를 셀렉트스타와 함께 진행했습니다. 또한 데이터의 제공으로 끝나는 것이 아니라 재검토 과정을 거치고, 그 재검토 과정에서 발생한 문제점들에 대해서 끝까지 해결해 주셔서 양질의 데이터를 얻을 수 있었습니다.”