스마트한 삶을 위한 음성 데이터셋 Cochl AI

정확하고 넓은 범위를 인지하는 사운드 AI 기술 구축

코클리어닷에이아이는 음성인식을 넘어 우리 주변에 있는 다양한 소리들을 모두 알아들을 수 있는 사운드 AI 기술을 만듭니다. 인공지능이 사람처럼 자연스러운 청각 인지능력을 가질 수 있도록 하고, 이를 통해 사람들이 안전하고 자동화된, 그리고 편리하고 개인화된 일상생활을 누릴 수 있도록 만드는 연구기반 스타트업입니다. 소리의 비언어적인 부분까지 감지할 수 있는 인공지능을 만들고자 코클리어닷에이아이와 셀렉트스타가 함께 하였습니다.

보다 정확하고 넓은 범위를 인지하는 사운드 AI 기술을 구축하기 위해 주택가, 음식점, 지하철 안내 방송 소리, 자동차 경적 소리, 발걸음 소리 등 이벤트에 따른 소음을 수집하기 위해서는 주의해야 할 사항이 있었습니다. 셀렉트스타는 이를 어떻게 해결했을까요?

데이터셋 스펙

데이터셋 구축 목적

주택가, 음식점, 지하철역, 지하철 안 등 장소에 따른 소음과, 지하철 안내 방송 소리, 자동차 경적 소리, 발걸음 소리 등 이벤트에 따른 소음을 수집하여 보다 정확하고 넓은 범위를 인지하는 사운드 데이터셋

수량

교통 관련 소음 – 총 6,292건
ex. 자동차 경적 소리, 자동차 문 여닫는 소리, 지하철 도착하는 소리 등

장소 소음 – 총 13,300건
ex. 주택가, 음식점, 지하철역, 지하철 안 등

기타 소음 – 총 8,000건
ex. 웅성거리는 소리, 음악 소리 속 대화 소리, 걸음 소리, 달릴 때 나는 발소리 등

데이터 수집 및 가공 방법
셀렉트스타의 모바일 크라우드소싱 플랫폼인 캐시미션의 음성 수집 기능을 통해 진행

음성 데이터 수집은 셀렉트스타의 모바일 크라우드소싱 플랫폼인 캐시미션의 음성 수집 기능을 통해 진행했습니다.

인위적인 소리 걸러내기

녹음 기준과 상관없이 예전에 녹음한 음원 파일을 제출하는 것을 방지하기 위해, 현장에서 녹음한 파일만 제출할 수 있도록 현장 녹음 기능을 새롭게 구현했습니다. 이는 셀렉트스타의 크라우드소싱 플랫폼 캐시미션의 모바일 버전으로 진행하여 언제, 어디서든 녹음할 수 있도록 하였습니다.

코너케이스 방지하기

카테고리별 예상되는 코너케이스를 명확하게 분류하기 위해 셀렉트스타와 코클리어닷은 다양한 고민을 했습니다. 일부를 공개하자면 아래와 같습니다.

쇼핑몰 vs 음악이 나오는 의류 매장 분류

✔️ 타임스퀘어, 여의도 현대 백화점과 같은 쇼핑몰과 음악이 나오는 의류 매장 소음 (ex. 강남역 자라 매장)의 특징을 분리하여 수집할 수 있을까?
✔️ 검수 기준의 모호함 쇼핑몰 vs 음악이 나오는 의류 매장 분류
✔️ AI가 각각의 소음을 분리하여 학습할 수 있는가?
✔️ 두 장소를 분리하여 각각 소음을 수집하려는 고객사의 의도는 무엇인가?

공원 VS 주택가 VS 도로변

✔️ 세 장소에서 수집되길 기대하는 각 장소별 특정적인 소음이 있는가?

✔️ 공원의 종류 세분화 필요 (아파트 단지 내 작은 공원과 서울숲 공원, 한강 공원과 같이 규모가 큰 공원에서 수집되는 소음이 다르지 않을지)

✔️ 주택가와 도로변 모두 “자동차” 소음이 포함될텐데, 각 장소별 소음에 반드시 포함되어야 하는, 또는 포함되면 안되는 소음의 기준 제시 필요

가정 내 소음 구체화

✔️ 원룸의 경우 부엌, 화장실, 거실이 분리되어 있지 않아 모든 소음이 섞여있을 수 있음

✔️ 공중 화장실이나 사무실에서 녹음이 이루어지더라도 검수자 입장에서는 가정 내 소음이라고 생각할 수 있음

✔️ 소음 조건을 구체화하여 가정에서 녹음된 것이 맞는지 확인할 수 있는 기준 마련 필요

자동차 경적 소리 기준 상세화

✔️ 도로변에서 들려오는 크고 작은 경적 소리도 모두 통과 기준에 부합하는 경적 소리인가?

✔️ 경적 소리의 장단은 무관한가?

음악 재생 소리의 기준 세분화

✔️음악이 사람 말소리와 같은 기타 소음보다 커도 되는지, 크면 안되는지

✔️스피커에서 재생된 음악이 아니라 핸드폰 벨소리, TV 방송에서 재생되는 bgm 등도 모두 음악 재생 소리로 인정될 수 있는 것인지?

사생활 보호하기

아무래도 주변 소음을 녹음하는 프로젝트이다보니, 의도치 않게 타인, 혹은 녹음하는 본인의 개인정보가 포함될 수 있다고 판단하였습니다. 이에 따라 셀렉트스타는 소음을 수집하고 검사하는 튜토리얼에 각각 이에 대한 안내를 명시하여 사생활 유출을 미연에 방지하고자 하였습니다. 또한, 셀렉트스타는 최종 검수하는 과정에서 다시 한번 사생활 유출의 위험이 있는 내용을 필터링하고 삭제하였습니다.

더 자세한 가이드가 궁금하다면?

캐시미션 가이드 다운로드

이 데이터셋은 실제로 어떻게 사용될까?

코클리어닷과 셀렉트스타가 함께 구축한 넓은 범위를 포함하는 사운드 데이터셋은 우리의 삶을 더욱 편리하게 만들고 미처 인지하지 못한 중대한 상황을 알려 이에 대한 빠른 대처를 할 수 있는 기술에 큰 도움을 줄 수 있습니다.

다양한 비언어적인 소리를 학습한 AI는 다양한 실생활 속 상황들을 인지해위험을 감지하고 즉각적인 대처를 가능하게 합니다. 유리창이 깨지는 소리, 아기가 우는소리, 총 소리 등 신속한 대응이 필요한 응급 상황을 빠르게 알릴 수 있으며 특히 장애를 가진 이들이 인지하기 어려운 부분을 AI가 대신 인식해 위급한 상황을 전달합니다. 또한 휘파람, 핑거 스냅, 노크 등의 비언어적 명령으로 IoT를 제어해 스마트한 생활환경을 제공하는 기술의 발전에 기여하고 있습니다.

셀렉트스타는 “데이터를 통해 IT 산업을 발전시켜 세상을 더 편하게 만든다”라는 미션을 가지고, 계속해서 앞으로 나아가고 있습니다. 스마트한 세상과 삶을 위해 만들어진 이 데이터셋이 미래를 앞당길 수 있기를 바랍니다.