2022년 데이터구축 수량
184,699개 .mp4 및 .json
레이블링 방법
panoptic segmentation, 텍스트 생성, 영상 태깅
- 비디오 전환 경계 추론 데이터
- 비디오 장면 설명문 생성 데이터
영상 내 사건 경계 타임스탬프, 바운딩 박스, 사건 경계별 상황에 대한 자연어 캡션을 통한 영상 속 등장 인물 및 사물의 행동을 포괄적으로 이해하기 위한 인공지능 학습 데이터를 구축주류 객체 정보 수집 및 자연어 묘사 데이터가 포함된 멀티모달 데이터 수집
![](https://selectstar.ai/ko/wp-content/uploads/2023/09/스크린샷-2023-09-22-오전-9.33.45.webp)
json 실제 예시
{
"video_name": "D2_AN_0531_000002.mp4",
"width": 1920,
"height": 1080,
"frame_rate": 30,
"duration": 60.0,
"total_frame": 1800.0,
"film_method": "filmed_directly",
"filmed_date": "2022-05-31",
"domain_id": "AN",
"place": "outdoor",
"f1_consis": [
1
],
"f1_consis_avg": 1,
"annotated_date": "2022-08-22",
"version": 1,
"revision_history": "N/A",
"seg_annotator_id": [
282,
161,
336,
807,
618
],
"seg_confirmer_id": [
331,
674,
312,
710,
116
],
"distributor": "selectstar",
"trigger_info": [
{
"timestamps": [
"0:00.00000",
"0:16.00000"
],
"trigger": "Change of action",
"trigger_object": "휴대폰",
"trigger_action": "여자가 휴대폰으로 사진을 찍는다.",
"bbox": {
"x1": 0.47987416144579403,
"y1": 0.19551638529754684,
"x2": 0.5091957049242872,
"y2": 0.35008483091943976
},
"time": "0:08.00000"
},
{
"timestamps": [
"0:15.92013",
"0:15.92013"
],
"trigger": "Change due to cut",
"trigger_object": "null",
"trigger_action": "null"
},
json 형식
▼video info {19}
video_name: D2_AN_0531_000002.mp4
width: 1920
height: 1080
frame_rate: 30
duration: 60.0
total_frame: 1800.0
film_method: filmed_directly
filmed_date: 2022-05-31
domain_id: AN
place": outdoor
f1_consis: 1
f1_consis_avg: 1,
annotated_date: 2022-08-22
version": 1
revision_history: N/A
▼seg_annotator_id [5]
282,
...
seg_confirmer_id [5]
331,
...
distributor: selectstar
▼trigger_info {4} or {6}
timestamps:
0:00.00000,
0:16.00000
trigger: Change of action or Change due to cut
trigger_object: 사건 유발 객체
trigger_action: 사건 유발 설명문
bbox:
x1: 0.47987416144579403,
y1: 0.19551638529754684,
x2: 0.5091957049242872,
y2: 0.35008483091943976
time: 0:08.00000
셀렉트스타의 데이터 구축 사례를 더 확인해보세요!
![콘텐츠디스커버리개발팀 박지형](https://selectstar.ai/ko/wp-content/uploads/2022/11/Frame-2405-e1667971926409.png)
“셀렉트스타의 플랫폼을 통해 대량의 OCR 데이터 가공을 신속하고 정확하게 완료할 수 있었습니다. 내부 파트타임을 고용하였을 경우 6개월이 걸리는 분량을 1달이채 안되게 처리해주셨고 지속적인 커뮤니케이션을 통해서 즉각적인 업데이트와 피드백이 가능했습니다. 비용, 품질, 속도 모두 좋았고 덕분에 내부 리소스를 많이 절감하게 되었습니다.”
SKTelecom
![AI 개발그룹](https://selectstar.ai/ko/wp-content/uploads/2022/11/Frame-2402.png)
“전문 성우 분들의 음성 데이터가 필요해서 셀렉트스타에 의뢰를 드리게 되었습니다. 초반에 성우 선별을 위한 샘플 데이터를 꼼꼼하게 챙겨 주셔서 좋았고, 최종 전달받은 데이터의 퀄리티도 매우 만족스러웠습니다. 다음 번에도 셀렉트스타와 함께 일할 수 있기를 희망합니다.”
삼성전자
![AI빅데이터연구소](https://selectstar.ai/ko/wp-content/uploads/2022/11/Frame-2400-e1667972091917.png)
“셀렉트스타 플랫폼 덕분에 빠른 시간 내에 한국어 질문-답변 데이터셋인 KorQuad 2.0을 구축할 수 있었습니다. 다양한 작업자의 참여로 데이터 편향성을 방지하였고 품질 또한 만족스러웠습니다. 특히, 당사의 데이터 요건과 작업자의 이해를 모두 잡은 작업자 교육자료가 인상깊었습니다.”
LG CNS
![KLUE 프로젝트 총괄 박성준 연구원](https://selectstar.ai/ko/wp-content/uploads/2022/11/Frame-2404-e1667972021570.png)
“셀렉트스타와 KLUE 데이터셋을 구축하며 가장 인상적이었던 부분은 데이터 품질 관리였습니다. 상당히 어려운 난이도와 촉박한 일정이었음에도 불구하고 일관된 데이터 작업이 가능하도록 가이드라인이 수립되었고, 고품질 데이터를 만들 수 있는 작업자 선발과 교육, 전수 검사가 이뤄졌습니다. 셀렉트스타 담당자 분들의 역량과 열정 덕분에 대표 한국어 NLP 벤치마크 데이터셋인 KLUE가 무사히 세상에 나올 수 있었다고 생각합니다.”
업스테이지
![.](https://selectstar.ai/ko/wp-content/uploads/2022/11/Frame-2401-e1667972077637.png)
“셀렉트스타의 플랫폼을 통해 대량의 OCR 데이터 가공을 신속하고 정확하게 완료할 수 있었습니다. 내부 파트타임을 고용하였을 경우 6개월이 걸리는 분량을 1달이 채 안되게 처리해주셨고 지속적인 커뮤니케이션을 통해서 즉각적인 업데이트와 피드백이 가능했습니다. 비용, 품질, 속도 모두 좋았고 덕분에 내부 리소스를 많이 절감하게 되었습니다.”
롯데정보통신
![.](https://selectstar.ai/ko/wp-content/uploads/2022/11/Frame-2403-e1667972049472.png)
“셀렉트스타와 협업하며 가장 놀라웠던 것은 데이터 품질이었습니다. 상당히 촉박한 프로젝트 일정에도 불구하고 멋진 퀄리티의 데이터를 전달해 주셨고, 자율주행 로봇에 탑재할 이미지 Segmetation 모델을 개발하는데 큰 도움이 되었습니다. 다음 프로젝트에도 꼭 셀렉트스타와 함께 할 계획입니다. .”
뉴빌리티
![.](https://selectstar.ai/ko/wp-content/uploads/2022/11/Frame-2408-e1667972141194.png)
“셀렉트스타와 함께 의류 및 패션 이미지 데이터 레이블링 프로젝트 (Bounding Box, Tagging, Landmark)를 진행했습니다. 원하는 데이터셋의 스펙을 서로 맞추기 위한 의사소통 과정이 원활하게 이루어졌으며, 합리적인 가격으로 내부의 니즈에 맞는 데이터셋을 확보할 수 있었습니다.”
옴니어스
![.](https://selectstar.ai/ko/wp-content/uploads/2022/11/Frame-2406-e1667972112911.png)
“스마트홈 AI 개발을 위해 실내 사진 수집 및 레이블링을 셀렉트스타에 의뢰했습니다. 다양한 집안 환경 사진을 수집해야 해 내부적으로 진행이 어려웠는데, 셀렉트스타의 크라우드소싱 방식이 빛을 발하여 많은 사람들로부터 데이터를 얻을 수 있었습니다. 전문성을 갖고 데이터 품질, 속도, 프로젝트 관리를 진행해주셨고 좋은 결과를 얻었습니다.”
엘컴택
![.](https://selectstar.ai/ko/wp-content/uploads/2022/11/Frame-2407-e1669719112324.png)
“수집과 가공에 다소 시간과 노력이 많이 필요한 데이터인 다양한 책에서 많은 수의 문제를 생성하는 프로젝트를 셀렉트스타와 함께 진행했습니다. 또한 데이터의 제공으로 끝나는 것이 아니라 재검토 과정을 거치고, 그 재검토 과정에서 발생한 문제점들에 대해서 끝까지 해결해 주셔서 양질의 데이터를 얻을 수 있었습니다.”