2021 오픈데이터셋 컨퍼런스 1: 고품질 데이터의 4가지 조건

2021 오픈데이터셋 컨퍼런스 1: 고품질 데이터의 4가지 조건

AI의 생명을 불어넣어주는 ‘학습데이터’. 셀렉트스타 김세엽 대표가 들려주는 인공지능 학습데이터 이야기입니다.
세엽님의 강의를 축약한 것으로 ‘여기 👇에서 전체 강의를 들을 수 있습니다 😃

고품질 데이터란 무엇인가? 어떻게 만들어지는가?

인공지능은 사람이 작업한 데이터를 보고 따라하면서 지능을 얻습니다. 그걸 우리는 인공지능 ‘학습데이터’라 일컫습니다.
인공지능과 그 생명력을 불어넣어주는 학습데이터는 우리의 일상생활 속 곳곳에 자리매김하고 있습니다.

쉬운 예를 들어보면, 사람이 직업 레이블링한 데이터를 바탕으로 인공지능이 물체 위치 및 종류 파악하고 이것을 바탕으로 만들어 지는 것이 바로 자동차의 ‘자율주행’입니다.

이제는 Data-centric AI 시대입니다.

“학습데이터 없이는 인공지능을 개발할 수 없고, 양질의 데이터가 없으면 더더욱 좋은 인공지능을 개발할 수 없다”

좋은 데이터를 수집하고 가공하는 것이 AI를 만드는 과정의 80%를 차지한다. 이는 데이터가 인공지능의 Core Part임을 의미한다.”

by Andrew Ng, co-founder of Landing AI (세계적 인공지능 석학)

기존에는 AI개발에 대한 고민을 하는 시대였다면, 지금은 학습데이터를 어떻게 만들까 라는 고민이 더 중요해지는 시대가 도래했습니다.
-From model-centric to Data-centric AI

 
그렇다면 좋은 데이터란 무엇일까요?


김세엽 대표는 좋은 데이터를 이렇게 4가지로 분류하여 정의했습니다.

ACCURACY, CONSISTENCY, COVERAGE, BALANCE

1. Accuracy 의도에 맞는 정확한 데이터

 
위의 예시와 같이 레이블링은 출제자의 의도에 맞춰 정확하게 작업이 되어야 합니다. 가이드라인에 위배되는 데이터가 없게 하는 것이 관건입니다. 결국 사람이 하는 작업이기 때문에, 작업자에게 충분히 가이드라인을 숙지시키고, 정확한 검수를 통해 데이터의 Accuracy를 만족 시켜야 합니다.

Key 역할은 가독성 높은 가이드라인!

 

국내 최초로 전문 가이드라인 팀을 회사 설립 초기부터 운영해왔고, 사용자에게 초점을 맞춰 최대한 전문용어를 지양하고 ‘쉬운 용어’로 작성하여 더욱 효과적인 가이드를 구성하고 있습니다. 알기 쉽고 이해하기 편한 용어의 가이드라인은 작업의 효율을 극대화합니다.

'캐시미션' 앱 가이드 화면

‘정확한 가이드라인 수립 → 작업자에게 가이드라인 충분한 숙지 → 양질의 데이터’ 

더욱 정확한 결과 도출을 위한 작업 전 테스트 수행!

 

가이드라인에 맞는 고단이도 테스트를 구성하여 통과한 작업자만이 작업에 참여할 수 있게 하여, 더욱 높은 데이터 퀄리티를 보장하는 것이 우리만의 데이터 구축 노하우입니다.

셀렉트스타만의 노하우를 통한 정확한 검수

 

숙련된 작업자 + 인하우스 검수자들이 ‘교차검수’를 통해 더욱 정확하게 필터링을 합니다.

나아가, 우리만의 수학적 알고리즘을 통해서 각 검수자의 신뢰도를 가중치로 반영해 보다 정확한 검수합니다. 국내외 주요 플랫폼 중 셀렉트스타가 유일합니다.

단일 검수

→ 검수자의 정확도 및 집중력의 의존도가 너무 큼

다수결 교차 검수

→ 정확도가 상대적으로 떨어지는 검수자가 다수일 경우 잘하는 소수가 이길 수 없음

신뢰도를 가중치로 반영해 교차 검수 결과를 결정하기에 단일, 다수결 검수보다 정확한 검수

국내외 주요 플랫폼 중 유일

2. Consistency 일관된 레이블링 작업 결과

작업자에 무관하게 동일 작업 → 동일 결과

작업의 주관성을 최대한 배제한 ‘작업원칙’ 수립!

 

주관적인 부분을 최대한 객관화하여 일관된 레이블링 결과를 도출하는 것이 가능합니다.

예를 들어, 음성이나 감정 등 주관적인 부분을 최대한 객관화할 수 있도록 보다 정확하고 이해가 쉬운 가이드라인을 수립하고 유저들의 일관된 작업을 확보하기 위해 노력을 기울이고 있습니다.

일관성 있는 작업을 위한 기술은 어떤 것이 있을까요?
Bounding Box를 예시로 알아보겠습니다.

UI를 통한 Bounding Box 작업 일관성 확보

특허 제 10-2176458호

UI를 통한 Bounding Box 작업 일관성 확보

Bounding Box와 객체 경계와의 간격이 일관되게 작업하기 위해 BBOX 안쪽에 가이드 Box 생성

물체 경계가 BBOX와 가이드 BOX 사이에 위치해 있는지를 기준으로 작업/검수함으로써 객체에 밀접하고 일관된 BBOX 작업 가능

국내외 주요 레이블링 플랫폼 중 유일하게 보유한 UI

Bounding box의 경우 수작업으로 이뤄지는 만큼 작업자마다 박스의 크기가 다른 경우가 많이 발생합니다. 위의 그림에서 보는 것처럼, 어떤 이는 Box 1이, 다른 이는 Box 2가 올바른 Bounding box라고 할 수 있습니다.

이러한 혼돈을 방지하기 위해 국내 레이블링 플랫폼들 중 유일하게 [가이드 박스]를 자동으로 생성하는 UI를 개발 적용하여 보다 ‘일관성’있는 데이터 가공이 가능하게 하였습니다. 가이드 box가 있음으로서 유저들이 직접 bounding box를 그리기 전 정확한 예시를 보고 우리가 원하는 방향에 최대한 맞춤 작업이 될 수 있다는 이점이 있습니다.

2편에서 COVERAGE, BALANCE를 소개해드리도록 하겠습니다.

AI의 생명을 불어넣어 주는 ‘학습데이터’ 2편

Related Posts