수집 가공 프로세스

1억 7000만
데이터 구축 노하우

구인부터 작업, 검수까지 셀렉트스타의 체계적인 데이터 구축 인프라 및 기술을 소개합니다.

모집

캐시미션

크라우드 소싱 플랫폼 캐시미션에는 작업자 24.5만 명이 등록돼 있습니다(22년 11월 기준).

작업자는 앱과 웹을 활용해 언제 어디서나 원하는 만큼 작업에 참여할 수 있습니다.

인하우스

작업 난도가 높거나 각별한 보안이 요구되는 프로젝트, 작업 참여 조건이 까다로운 프로젝트 비중이 높아지고 있습니다.

셀렉트스타는 사내 녹음실, 라벨러 작업실 등 고난도 수집 가공 프로젝트 수행에 필요한 시설과 인력을 갖추고 있습니다.

기술

Segment-Anything Model

최고 성능(SOTA) 오픈 소스 모델을 활용해 데이터를 효율적으로 가공합니다.

메타의 이미지 분할 인공지능 'SAM'을 캐시미션에 접목해 빠르고 정확한 반자동 라벨링을 지원합니다.

작업
고객사 내부망을 활용한 On-premise

고객사 내부망을 활용한 On-premise

고객사 내부망에 LabelingTool 설치, 완벽한 데이터 보안. 필요 시 내부 인력 파견을 통한 데이터 생산 (보안서약서 작성)

CashMission:Spike

완벽한 보안을 위해 고객사 내부망에 설치하는 CashMission Tool

-고객사 내부망에 설치한 CashMission : Spike로 작업 진행

-전문 인하우스 인력 Pool 활용 최고품질 데이터 생산

-휴대폰 본인 인증 및 개인정보보호 서약서 작성

-필요 시 내부 인력 및 작업자 파견을 통한 데이터 구축 

PM 책임 교육

셀렉트스타의 데이터 라벨러 교육은 일관된 집체 교육에 그치지 않습니다.

프로젝트 매니저(PM)가 상주 인력과 직접 소통하며, 교육 자료를 만들고 작업을 관리합니다.

셀렉트스타 데이터 구축 프로젝트 '대화문 생성하기' 교육 자료 일부

검수
Intro

국내・외 레이블링 플랫폼 중 유일하게 보유한 '레이블링 UI'

• 객체의 경계가 Bounding Box와 Guide Box 사이에 있는지를 기준으로 작업/검수함으로써 객체에 밀접하고 일관된 Bounding Box 작업 가능

• 객체의 경계가 Bounding Box의 간격이 일관되게 작업하기 위해 Bounding Box 안쪽에 Guide Box 생성

• Guide Box는 Bounding Box를 기준으로 설정된 IoU(Intersection over Union) 값에 따라 생성

* 특허 제 10-2176458호

작업자 신뢰 데이터 활용 알고리즘

데이터 라벨러의 작업 능력을 수치화하여 검수에 활용 합니다. 하나의 데이터에 대해 검수 작업자들의 판정이 갈리는 경우, 작업자의 신뢰도 데이터를 의사 결정에 반영합니다.

* 관련 특허 등록 번호(10-2333644-0000)

딥러닝 기반 유사 데이터 탐지 알고리즘

인공지능 학습 시 유사 데이터가 많을수록 데이터셋 효용성이 낮아집니다. 셀렉트스타는 데이터의 Feature Vector를 활용해 유사 데이터를 검출하고 부적합 작업자를 필터링합니다.

* 관련 특허 등록 번호(10-2114223-0000)