수집 가공 프로세스
2억 건 이상데이터 구축 노하우
구인부터 작업, 검수까지 셀렉트스타의 체계적인 데이터 구축 인프라 및 기술을 소개합니다.
기술
Segment-Anything Model
최고 성능(SOTA) 오픈 소스 모델을 활용해 데이터를 효율적으로 가공합니다.
메타의 이미지 분할 인공지능 'SAM'을 캐시미션에 접목해 빠르고 정확한 반자동 라벨링을 지원합니다.
작업
고객사 내부망을 활용한 On-premise
고객사 내부망에 LabelingTool 설치, 완벽한 데이터 보안. 필요 시 내부 인력 파견을 통한 데이터 생산 (보안서약서 작성)
CashMission:Spike
-고객사 내부망에 설치한 CashMission : Spike로 작업 진행
-전문 인하우스 인력 Pool 활용 최고품질 데이터 생산
-휴대폰 본인 인증 및 개인정보보호 서약서 작성
-필요 시 내부 인력 및 작업자 파견을 통한 데이터 구축
PM 책임 교육
셀렉트스타의 데이터 라벨러 교육은 일관된 집체 교육에 그치지 않습니다.
프로젝트 매니저(PM)가 상주 인력과 직접 소통하며, 교육 자료를 만들고 작업을 관리합니다.
셀렉트스타 데이터 구축 프로젝트 '대화문 생성하기' 교육 자료 일부
검수
국내・외 레이블링 플랫폼 중 유일하게 보유한 '레이블링 UI'
• 객체의 경계가 Bounding Box와 Guide Box 사이에 있는지를 기준으로 작업/검수함으로써 객체에 밀접하고 일관된 Bounding Box 작업 가능
• 객체의 경계가 Bounding Box의 간격이 일관되게 작업하기 위해 Bounding Box 안쪽에 Guide Box 생성
• Guide Box는 Bounding Box를 기준으로 설정된 IoU(Intersection over Union) 값에 따라 생성
* 특허 제 10-2176458호
작업자 신뢰 데이터 활용 알고리즘
데이터 라벨러의 작업 능력을 수치화하여 검수에 활용 합니다. 하나의 데이터에 대해 검수 작업자들의 판정이 갈리는 경우, 작업자의 신뢰도 데이터를 의사 결정에 반영합니다.
* 관련 특허 등록 번호(10-2333644-0000)
딥러닝 기반 유사 데이터 탐지 알고리즘
인공지능 학습 시 유사 데이터가 많을수록 데이터셋 효용성이 낮아집니다. 셀렉트스타는 데이터의 Feature Vector를 활용해 유사 데이터를 검출하고 부적합 작업자를 필터링합니다.
* 관련 특허 등록 번호(10-2114223-0000)