인공지능 학습데이터 플랫폼 셀렉트스타가 업계 최초로 인공지능(AI) 학습데이터 구축 트렌드를 담은 ‘셀렉트스타 인공지능 인사이트’를 발표한다고 6월 1일 밝혔다. ‘셀렉트스타 인공지능 인사이트’는 지난 2018년부터 2022년 상반기까지 진행된 수백 개의 프로젝트를 분석해 업계 동향을 제시한다.
인공지능 업계가 주목하는 8가지 데이터셋 키워드
1억 3,000만 건의 AI 학습데이터 구축 프로젝트 자체 분석
셀렉트스타가 이 인사이트를 발표할 수 있던 이유는 인공지능을 개발하는데 필수적인 ‘학습데이터’를 생산하는 회사이기 때문이다. 대기업부터 중견기업과 스타트업까지 200개 이상의 기업의 인공지능 학습용 데이터를 만들면서 어떤 회사에서 어떤 인공지능을 만드는지 파악할 수 있었다.
셀렉트스타는 크게 14개 카테고리의 데이터를 수집ˑ가공했다. 이중 ‘언어(40.2%)’ 카테고리의 비중이 가장 컸다. 이어서 뷰티 (6.4%)
예술(5.6%)
사람(5.3%)
건강(4.4%)
동물(4%)
자동차(3.8%)
식품(3.7%)
순이었다. (프로젝트 금액 기준)
작업 형태별로 보면, 원천 데이터를 받아 일정 기준에 맞게 가공하는 방식이 주를 이뤘으며, 새롭게 데이터를 수집하는 경우 뿐만 아니라 가공과 수집을 모두 진행한 경우도 있었다.
셀렉트스타는 이전까지 진행한 프로젝트를 자체 분석하여 아래 세 가지 트렌드를 제시했다.
작업 형태별로 보면, 원천 데이터를 받아 일정 기준에 맞게 가공하는 방식이 주를 이뤘으며, 새롭게 데이터를 수집하는 경우 뿐만 아니라 가공과 수집을 모두 진행한 경우도 있었다.
셀렉트스타는 이전까지 진행한 프로젝트를 자체 분석하여 아래 세 가지 트렌드를 제시했다.
1. AI 성능의 Key, 알고리즘에서 데이터로
“MLOps에서 가장 중요한 일은 데이터의 일관성을 유지할 수 있도록 체계화하는 일”
이전까지 AI 성능 향상은 모델 중심(Model-centric)으로 이뤄진다는 인식이 일반적이었다. 모델 중심의 AI 개발이란, 데이터는 전처리과정을 거친 상태로 고정되어 있고, 코드와 알고리즘을 개선하는 방식이다.
하지만 최근 모델 중심 AI보다 데이터 중심(Data-centric) 개발이 모델 성능 향상에 훨씬 효율적이라는 논리가 대두되고 있다. 즉, 코드와 알고리즘은 고정된 상태에서 데이터로 모델을 학습시키고, 해당 모델이 어느 데이터에서 오류가 발생하는지 확인한 뒤, 오류 데이터를 더 많이 수집하거나 오류 데이터를 일관성 있게 수정하고, 다시 모델을 학습시켜 성능을 개발하는 방식이다.
AI 분야 세계 4대 석학으로 꼽히는 앤드류 응(Andrew Ng) 교수는 데이터 중심 AI(Data-centric AI)의 중요성을 강조하면서 “좋은 데이터를 만들고 수집하는 것이 AI를 만드는 과정의 80%를 차지한다”며 “MLOps (AI 시스템을 관리하는 과정)에서 가장 중요한 일은 데이터의 일관성을 유지할 수 있도록 체계화하는 일”이라고 전했다.
실제 국내 AI 개발 업계에서도 데이터의 중요성이 커지면서 ‘데이터 구축’ 영역이 하나의 전문 서비스로 인식되는 추세다. 특히 일관된 기준으로 수집ˑ가공된 데이터에 대한 니즈가 크다.
데이터의 일관성을 확보하기 위해 셀렉트스타는 업계 최초로 AI 개발 담당자와 데이터 기준을 수립하고, 작업자들을 위한 교육용 자료를 제작하는 전담 팀을 운영하고 있다.
특히 자사 플랫폼인 ‘캐시미션’에서는 체계적인 데이터 가공 작업 환경을 마련했다. 캐시미션은 크라우드 소싱 기반 데이터 수집가공 플랫폼으로, 누구나 데이터 작업에 참여할 수 있다. 누구나 참여할 수 있기에 작업 속도가 매우 빠르지만, 작업 정확도와 일관성이 인하우스*에 비해 낮을 수 있다는 우려가 있다.
*특정 프로젝트에만 속해 작업하는 형태
위와 같은 문제를 해소하기 위해 캐시미션은 작업자(유저) 선별 장치인 ‘테스트셋’, ‘페이크셋’ 등을 활용한다. ‘테스트셋’은 일종의 통과 테스트로, 작업자는 테스트를 통과해야 정식으로 작업에 참여할 수 있다. 작업 중에는 일정 확률로 함정 문제인 ‘페이크셋’이 등장한다. 일정 기준 이상 함정 문제를 틀리면 더 이상 작업에 참여할 수 없게 된다. 이 외에도 자체 연구ˑ개발한 신뢰도 추론 알고리즘을 통해 정확도 높은 작업자를 파악하고, 이들이 더 많은 작업에 참여할 수 있도록 하는 시스템을 도입했다.
크라우드 소싱 데이터 작업에서도 일관된 기준에 맞게 정확한 작업이 가능해지면서, 캐시미션을 통해 진행되는 프로젝트 수도 점점 늘어나고 있다. 현재까지 캐시미션을 통해 수집ˑ가공된 데이터는 1억 3,000만 개에 이른다.
2. AI어천가: 한국어 데이터셋은 진화 중
지난 5년간 셀렉트스타는 ‘언어’ 분야의 데이터를 가장 많이 다루었다.(프로젝트 금액 기준)
언어 데이터는 주로 자연어 처리(NLP)*나 자연어 이해(NLU)**에 활용된다. NLP/NLU는 스마트 어시스턴트, 음성 인식, 검색 결과, 언어 번역, 텍스트 분석, 키워드 분석 등 활용 범위가 넓기에, 최근 기업들의 구축 의지가 상당히 높아진 기술이다.
*인간의 언어 현상을 컴퓨터가 묘사할 수 있도록 연구하고 구현하는 인공지능의 주요 분야 중 하나.
**자연어 표현을 컴퓨터(기계)가 이해할 수 있는 형태로 변환하여, 기계가 사람의 의도를 빠르게 이해하도록 하는 기술
자연히 모델 학습을 위한 데이터의 수집ˑ가공 역시 활발히 진행 중이다. 특히 국내에서는 한국어 데이터가 주로 구축된다. 지난 2020년 셀렉트스타는 LG CNS와 함께 ‘코쿼드(KorQuAD) 2.0’ 프로젝트를 진행한 바 있다. 약 5만여 개 위키피디아 글을 바탕으로 약 8만여 개 질의-응답 쌍으로 이뤄진 학습 데이터로, AI 학습용 한국어 표준 데이터 세트로는 국내 유일의 표준 데이터다.
관련 글: 한국어 기계독해의 범위를 넓히다 : LG CNS ‘KorQuAD2.0’
이처럼 연구, 개발이 속속 진행되면 AI 모델 수준도 고도화되고 있다. 초기 AI가 단순하게 문구 혹은 문서 자체를 인식했다면, 이제는 사람의 감정이나 특징(사투리, 악플 등)을 파악하고자 한다.
음성 분야도 비슷한 상황이다. 인공지능 스피커, 음성 인식 검색, 음성 자동 생성 등 이미 음성 AI는 일상 생활에서 흔히 볼 수 있는 서비스다. 음성 AI 역시 초기에는 단순히 언어를 인식하는 데에서 출발했지만, 이제는 인식을 넘어 사람의 감정까지 읽거나 표현하는 단계로 진화하고 있다.
데이터 구축 방면에서 본다면, 데이터가 점점 ‘까다로워’지고 있다는 의미다. 예전에는 발음이 정확한 발화 데이터가 필요했다면, 이제 그 안에 감정까지 포함되어야 한다. 사실 목소리만으로 감정을 구분하기란 생각보다 쉽지 않다. 분노와 놀람, 공포와 슬픔처럼 비슷한 결의 감정이라면 특히 어렵다.
독자적인 ‘감정 음성 데이터셋 수집 위한 가이드라인’ 구축, 정확도 90% 상승
셀렉트스타는 음성 프로젝트를 진행하며 쌓인 데이터, 경험, 노하우를 바탕으로 ‘감정 음성 데이터셋 수집 위한 가이드라인’을 구축했다. 감정별로 음성의 높이나 폭, 두께, 끝음 처리 등 발화 특징을 정리한 것이다. 실제로 2021년 진행한 한 음성 수집 프로젝트에서 감정 오류율 80% 이상이었던 음성 데이터셋이 해당 가이드라인 적용 후 정확도가 90%까지 상승하기도 했다.
감정 | 음성의 높이나 폭, 두께, 끝음 처리 등 발화 특징 예시 |
슬픔 | 끝음 처리는 길고 흩어지며 첫음은 비교적 낮은 음으로 시작 |
놀람 | 중간이의 끝을 올리며 숨을 들이켜는 소리가 남 |
‘사람이 느끼는 감정이라는 매우 주관적 영역을 학습이 가능한 형태인 높은 정확률 데이터로 구축하여야 하는 프로젝트였다. 특정 감정을 담아 문장을 읽어 녹음한 목소리를 5인에게 들려준 후 4인 이상이 그 감정으로 느낄 수 있으면 정확한 감정 음성 데이터로 처리하였다.
하지만, 문장이 가진 감정과 음성이 가진 감정이 충돌할 시 문제가 생겼다. 예를 들어, ‘나는 오늘 일찍 퇴근하여 기분이 너무 좋아’ 와 같은 문장이다. 문장에서 ‘기쁨’이라는 감정이 담겨 있지만 해당 문장을 ‘공포’ 또는 ‘슬픔’ 과 같은 충돌되는 음성으로 표현해야 하는 경우이다.
감정마다 음성에서 나오는 특징을 잡아내어야 했다. 슬픔일 경우, 끝을 처리는 길고 흩어지며 첫음은 비교적 낮은 음으로 시작된다. 놀람일 경우, 중간이의 끝을 올리며 숨을 들이켜는 소리가 난다. 이렇듯 구축하고자 하는 감정의 공통적인 특징을 먼저 분석하고 해당 특징일 경우 사람이 해당 감정을 느끼는 것을 먼저 알아내 기준을 정리하였다.’
최선나 PM 후기
음성 상담이 필요한 회사의 경우, 수만 시간의 상담 중 몇 %만 AI 상담으로 대체해도 한 달에 수 억 이상을 절감할 수 있는 것으로 알려져 있다. 셀렉트스타는 주관적이라 여겼던 영역까지 객관적인 기준을 제시하여 효율적인 데이터셋 구축을 이뤄내고 있다.
3. AI는 어떻게든 방법을 찾아낸다
영화 <쥬라기 공원>에서 사람들은 공원을 통제하기 위해 암컷 공룡만을 복원했는데, 자연 상태의 알이 발견됐다. “암컷들만 존재하는 집단에서 자연 번식이 가능한가?”라는 질문에 이안 말콤은 “삶은 어떻게든 방법을 찾아낸다”고 답한다. 생명은, 그리고 삶은 통제할 수 없다는 것이다.* 제자리를 지키기도 어려운 시기, 셀렉트스타와 함께 방법을 찾아내는 이들의 사례를 소개한다.
*‘트렌드 코리아 2022, 서울대 소비트렌드 분석센터의 2022 전망’, 김난도 , 전미영 , 최지혜 , 이향은 , 이준영 , 이수진 , 서유현 , 권정윤 , 한다혜 , 이혜원 지음, 미래의창
제4차 산업혁명, 팬데믹 시대에 접어들면서 산업 환경이 빠르게 변화하고 있다. 지난 10년 동안 디지털 전환의 영향을 받지 않은 산업은 찾아보기 드물다. 디지털로 고객과 연결된 세상에서는 새로운 기회들이 포착된다. 이 와중에 코로나19 팬데믹으로 우리 생활에는 ‘원격’ ‘가상’이 자리 잡았다. 소비 시장에서는 시장의 중심이 판매자에서 소비자로 옮겨갔고, ‘언택트 소비’ ‘구독 소비’ ‘가치 소비’ 등 현상도 나타났다.
특히 2020년 전후로 ‘AI 기반 초개인화’ 기술의 연구개발이 활발히 이어지고 있다. ‘초개인화’란 소비자의 정보와 행동 데이터를 수집해, AI가 이를 분석하여 소비자에게 최적화된 서비스를 제공하는 것이다. 셀렉트스타 추천, 고급 검색, 채굴, 매칭 알고리즘 등 초개인화 AI 개발 및 고도화를 위한 학습용 데이터를 다수 진행한 바 있다.
불확실성이 어느 때보다 큰 시대, 기존 시장 참여자들은 위기 돌파와 미래 대비를 위한 전략으로 AI 기술을 활용하고자 한다. AI 기술 기반으로 시장에 뛰어든 스타트업들은 기존의 생태계를 혁신하는 ‘게임체인저’로 성장하고 있다.
뷰티
마크비전은 AI 기반으로 온라인몰의 위조 상품을 모니터링하는 솔루션을 제공한다. 2021년 셀렉트스타가 8만 건의 온라인 상품에 대해 라벨링을 진행했고, 이는 AI 고도화에 활용됐다. 마크비전 측에 따르면, 캐시미션을 통해 구축된 데이터의 오류율은 타 업체의 1/10 수준이었다.
현재 마크비전은 아마존, 이베이(미국), 알리바바 등 10개국 25개 업체와 연계해 위조 상품 포착, 신고, 분석 솔루션 시스템을 모니터링하고 있다.
또한, 셀렉트스타는 이미지 기반으로 패션 상품의 속성을 인식해 소비자가 원하는 상품을 찾아낼 수 있는 ‘패션 초개인화 솔루션’을 제공하는 프로젝트도 진행했다. 의류 및 패션 이미지 데이터 레이블링 프로젝트 (Bounding Box, Tagging, Landmark)를 하며 색상, 디자인 등 카테고리를 수십 가지로 세분화하여 이미지를 더 세밀하게 분류했다.
이외에도 셀렉트스타는 소비자 취향이나 만족도를 자동 분석하는 AI를 위한 상품 리뷰의 긍정, 부정, 신뢰도를 측정 데이터셋을 구축한 바 있다.
캐시미션(앱)에서 사람들이 남긴 리뷰에 대한 감정 분류 작업 예시
예술
셀렉트스타는 음악에 달린 댓글에 대해 감정 태깅, 영상 속 백그라운드 음악에 대해 구간 태깅과 소음 데이터 수집을 실시했고, 해당 데이터는 음악 인식 알고리즘 개선에 활용됐다. AI를 활용해 고객이 자주 듣는 음악의 분위기, 가수의 특징, 청취 이력 등을 분석해 정교한 음악 추천 서비스를 구현하고 있다.
크라우드 소싱 ‘캐시미션(앱)’에서 음악 카테고리 데이터 수집, 가공 미션 진행 화면 예시
사람
GIST(광주과학기술원) SCI(Soft Computing & Interaction) 연구실(이하 ‘GIST SCI랩’)은 HCI분야*에 AI 기술을 접목한 문화기술을 연구한다. AI기술 기반으로 공예품 검색, 창작지원 등의 기술개발과 청각, 발달 장애인들의 문화기술 향유를 돕는 시스템 개발 등 문화와 기술을 융합해 다양한 분야에 적용하는 연구를 수행하고 있다.
*Human Computer Interaction. 사람과 컴퓨터의 상호작용에 대해 연구하는 분야.
2021년 GIST SCI랩과 셀렉트스타는 205개의 손담(몸짓 언어) 제스처에 대해 2만1000여 개의 영상 데이터를 수집했다. 손담 데이터셋은 기존 수어 기반이었던 중증 장애인의 의사소통 수단에 대한 보완 대책 연구개발에 활용될 예정이다.
관련 글: 사회적 약자를 위한 AI 기술 발전 3
코클리어닷에이아이는 비언어적(환경음)을 이해하는 ‘사운드 AI’를 개발한다. 2021년, 사운드 AI의 성능 향상을 위해 셀렉트스타는 캐시미션을 통해 주택가, 음식점, 지하철역, 버스 안 등 ‘장소 소음’과 지하철 안내 방송, 자동차 경적 소리, 발걸음 소리 등 ‘이벤트 소음’ 총 2만 8000여 건을 수집헸다. 해당 데이터셋을 통해 사운드 AI는 더 넓은 범위의 소리를 더 정확하게 인지할 수 있게 됐다.
관련 글: 더욱 스마트한 삶을 위한 음성데이터셋: cochl.ai
이외에 셀렉트스타는 마스크를 쓴 사람의 얼굴 사진을 수집, 라벨링하는 프로젝틀 진행하기도 했다. 해당 데이터는 코로나19 시대에 마스크 쓴 얼굴 인식을 위한 AI 개발에 활용됐다.
건강
- 신체 일부분이 좋지 않을 때, 그것이 홍채에 나타나기도 한다. 셀렉트스타는 홍채의 특정 부분과 패턴에 대해 라벨링을 진행했고, 해당 데이터는 홍채를 인식해 건강 이상을 확인하는 AI 연구개발에 활용됐다.
- 약을 꾸준히 복용해야 할 때, 약통(디바이스)를 어플과 연동시킨다면 약과 복용 주기를 잘 관리할 수 있다. 셀렉트스타는 다양한 약 사진을 수집하고 이에 대해 라벨링을 진행했다. 해당 데이터는 약을 인식하고 약을 관리할 수 있도록 하는 AI 연구개발에 활용됐다.
동물
가축 관리 시스템 및 애완동물 관련 서비스에도 AI가 활용되고 있다.
2020년 셀렉트스타는 한국축산데이터와 협업해 가축(축우, 양돈, 계사) 라벨링 데이터셋을 구축했다. 소와 돼지의 경우, 특정 부위나 자세를 분류했고, 계사(닭 우리) 내 닭의 밀집도도 분류했다.
해당 데이터셋은 가축의 행동 분석, 개체 추적을 위한 것으로, AI 가축 관리 시스템 개발의 기반이 될 수 있다. 나아가 농가 상태에 따른 가축 건강관리, 사육관리, 질병관리 등 서비스에도 활용도 기대된다. 해당 데이터셋은 현재 AI Hub에 공개되어 있다.
이 외에도 셀렉트스타는 반려동물 서비스와 관련한 데이터셋도 구축한 바 있다. 주로 이미지 인식 AI의 학습용 데이터로 활용됐으며, 크라우드 소싱의 장점을 살려 캐시미션을 통해 수집을 진행했다.
가령 강아지 비문 인식 AI 개발을 위해 강아지 비문(코 무늬) 이미지를 수집했다. 강아지의 비문은 사람의 지문과 같아, 비문을 통해 반려동물을 잃어버렸을 때 쉽게 주인을 찾는데 활용될 수 있다.
또한 반려견 관절 질환 조기 탐지 솔루션 개발을 위해 강아지 뒷모습이 담긴 이미지 데이터셋도 구축한 바 있다.
자동차
초창기 자동차 관련 인공지능 데이터는 도로 환경 인식을 위한 Bounding Box 데이터가 주를 이루었다. 보행자나 신호등 등 도로 주변의 객체 인식을 위해 이미지 안에서 해당 객체들의 좌표값을 추출하는 방식이었다.
최근 들어서는, 도로 주변의 객체 인식 뿐만 아니라 수리, 관리 등 자동차 관련 서비스가 등장하면서 다양한 주제의 데이터도 구축되고 있다. 셀렉트스타에서도 자동차 정비 관련 질의응답과 타이어 마모도 이미지 수집 등의 프로젝트를 진행한 바 있다.
식품
전통주 추천 AI 소믈리에를 개발하기 위한 전통주 20종 시음하고 설문조사에 참여하는 미션 홍보
개인의 생활습관 및 건강, 취향 등이 상품 구매에 미치는 영향이 커지면서, 식품 유통업계에서도 ‘개인 맞춤형 추천 서비스’가 활발히 도입되고 있다. 셀렉트스타는 식단 관리 서비스 스타트업와 함께 식품 영양 정보가 담긴 텍스트 수집 및 가공을 진행했다.
또한, 개인의 취향이 중요한 주류 및 음료 분야의 데이터 활용 의지도 강한 편이다. 셀렉트스타는 전통주 술 정기 구독 서비스 담화컴퍼니, 차 정기 구독 서비스 스타트업과 함께 칵테일, 위스키 전통주 등 다양한 주류 이미지 및 리뷰 데이터를 구축한 바 있다.
AI 성능 향상, 데이터 생산・관리 수준 규모와 비례
이처럼 셀렉트스타는 지난 5년 동안 다양한 산업군, 규모의 기업과 함께 데이터셋을 구축했다. 해를 거듭할수록 신선한 서비스와 AI가 더 많이 등장하고 있고, 이를 뒷받침하는 학습용 데이터 역시 그 종류가 다양화, 고도화되고 있다.
다만 아쉬운 것은, 현재 국내 시장에서는 POC(검증) 형태의 시도가 주를 이룬다는 점이다. 학습 데이터 구축 규모 역시 다소 제한적인 분위기다. 아직까지 서비스나 사업의 성공에서 ‘AI 성능’ 보다 다른 요인의 영향이 비교적 크기 때문이다.
하지만 시도가 계속되면 성공이 찾아오기 마련이다. 산업 전반에서 AI 활용도가 증가하고 있고, 실제로 비즈니스 모델에 절묘하게 AI 기술을 접목하고 데이터를 관리하여 혁혁한 성과를 거둔 이들도 있다. 테슬라는 자율 주행 중 실시간으로 에러 데이터나 예외 상황을 중앙으로 보내 분석하고 다시 학습하도록 한다. 네이버의 번역 서비스 파파고는 번역 오류가 발생했을 때, 이를 다시 학습해 업데이트를 진행한다.
결국 AI 성능은 상품ˑ서비스의 품질과 직결되며 고객 만족임을 이해하고, AI 성능 향상을 위해 데이터의 생산 및 관리 수준과 규모를 높이려는 노력이 필요하다.
신호욱 셀렉트스타 대표는 “AI 성능 향상은 데이터의 생산 및 관리 수준 규모와 비례한다”며 “AI Transformation이 전세계적인 트렌드인 만큼 국내 AI시장의 잠재력은 높다. 다양한 분야에서 AI로 문제를 해결하려는 기업들이 AI 성능 경쟁을 본격적으로 시작할 것”이라고 전했다.
2022 셀렉트스타 인사이트 다운로드
셀렉트스타에서 2018년부터 2022년 상반기까지 1억 3,000만 건의 AI 학습데이터 구축 프로젝트를 자체 분석한 리포트로 새로운 인사이트를 얻으세요.