한국어 대화 음성 데이터

주요 키워드

AI학습데이터, 일상대화, 음성데이터, 어노테이션, 메타데이터, 라벨링

분야

한국어

유형

오디오, 텍스트

수행 내용 요약

연도 : 2020년

크라우드소싱을 활용한 수집, 검수

출처: aihub.or.kr /한국인 대화음성

한국어 대화 음성-텍스트 페어 200만 건 4개월 만에 수행

우리의 고유 언어인 한국어. 다양한 상황과 응용 도메인에 맞는 한국어 음성 데이터셋. 글로벌 음성 데이터셋의 비교와 한국인 대화 음성 데이터의 기능

구축 내용 및 제공 데이터량

원본 음성 데이터: 2,000H
방송 콘텐츠(춘천 MBC, EBS 시사) 음원 데이터: 2,000H
성별, 지역, 연령, 주제어 등의 메타데이터 정보 제공
FILE 위치, FILE 명, FILE 시작위치, FILE 종료위치, FILE 재생시간 등의 어노테이션 구조 JSON 형태의 파일로 제공
파일의 후 처리(개체정보, 형태소분석 등)의 가공 처리 후 JSON 형태의 파일 제공

방송콘텐츠는 춘천 MBC와 EBS의 음원을 추출하여 데이터를 획득하고 확보된 음원파일을 통해서 텍스트 전사(STT 엔진을 활용하여 음성파일을 텍스트로 변환)하고 검수를 진행한다.
(음원 파일: PCM 형식, 텍스트 파일: TEXT 형식)

크라우드소싱 업체의 캐시미션 플랫폼을 활용하여 음원 녹음기능을 통해서 음원파일과 전사파일을 확보한다. 확보된 음원파일을 통해서 텍스트 전사(사람이 직접 음원파일 청취 후 전사)작업을 진행하고 매 업무마다 약식검수(크라우드소싱 업체 녹음자들이 크로스 체크를 통해서 검수 진행)를 진행한다.

데이터 구조

원시데이터(음성)PCM, 전사파일 (TXT) 데이터셋

데이터셋 AI-hub 확인

셀렉트스타의 데이터 구축 사례를 더 확인해보세요!

감성 대화 말뭉치 구축

Projects

1 2 3 4 5

“셀렉트스타의 플랫폼을 통해 대량의 OCR 데이터 가공을 신속하고 정확하게 완료할 수 있었습니다. 내부 파트타임을 고용하였을 경우 6개월이 걸리는 분량을 1달이채 안되게 처리해주셨고 지속적인 커뮤니케이션을 통해서 즉각적인 업데이트와 피드백이 가능했습니다. 비용, 품질, 속도 모두 좋았고 덕분에 내부 리소스를 많이 절감하게 되었습니다.”

SKTelecom

콘텐츠디스커버리개발팀 박지형

“전문 성우 분들의 음성 데이터가 필요해서 셀렉트스타에 의뢰를 드리게 되었습니다. 초반에 성우 선별을 위한 샘플 데이터를 꼼꼼하게 챙겨 주셔서 좋았고, 최종 전달받은 데이터의 퀄리티도 매우 만족스러웠습니다. 다음 번에도 셀렉트스타와 함께 일할 수 있기를 희망합니다.”

삼성전자

AI 개발그룹

“셀렉트스타 플랫폼 덕분에 빠른 시간 내에 한국어 질문-답변 데이터셋인 KorQuad 2.0을 구축할 수 있었습니다. 다양한 작업자의 참여로 데이터 편향성을 방지하였고 품질 또한 만족스러웠습니다. 특히, 당사의 데이터 요건과 작업자의 이해를 모두 잡은 작업자 교육자료가 인상깊었습니다.”

LG CNS

AI빅데이터연구소

“셀렉트스타와 KLUE 데이터셋을 구축하며 가장 인상적이었던 부분은 데이터 품질 관리였습니다. 상당히 어려운 난이도와 촉박한 일정이었음에도 불구하고 일관된 데이터 작업이 가능하도록 가이드라인이 수립되었고, 고품질 데이터를 만들 수 있는 작업자 선발과 교육, 전수 검사가 이뤄졌습니다. 셀렉트스타 담당자 분들의 역량과 열정 덕분에 대표 한국어 NLP 벤치마크 데이터셋인 KLUE가 무사히 세상에 나올 수 있었다고 생각합니다.”

업스테이지

KLUE 프로젝트 총괄 박성준 연구원

“셀렉트스타의 플랫폼을 통해 대량의 OCR 데이터 가공을 신속하고 정확하게 완료할 수 있었습니다. 내부 파트타임을 고용하였을 경우 6개월이 걸리는 분량을 1달이 채 안되게 처리해주셨고 지속적인 커뮤니케이션을 통해서 즉각적인 업데이트와 피드백이 가능했습니다. 비용, 품질, 속도 모두 좋았고 덕분에 내부 리소스를 많이 절감하게 되었습니다.”

롯데정보통신

“셀렉트스타와 협업하며 가장 놀라웠던 것은 데이터 품질이었습니다. 상당히 촉박한 프로젝트 일정에도 불구하고 멋진 퀄리티의 데이터를 전달해 주셨고, 자율주행 로봇에 탑재할 이미지 Segmetation 모델을 개발하는데 큰 도움이 되었습니다. 다음 프로젝트에도 꼭 셀렉트스타와 함께 할 계획입니다. .”

뉴빌리티

“셀렉트스타와 함께 의류 및 패션 이미지 데이터 레이블링 프로젝트 (Bounding Box, Tagging, Landmark)를 진행했습니다. 원하는 데이터셋의 스펙을 서로 맞추기 위한 의사소통 과정이 원활하게 이루어졌으며, 합리적인 가격으로 내부의 니즈에 맞는 데이터셋을 확보할 수 있었습니다.”

옴니어스

“스마트홈 AI 개발을 위해 실내 사진 수집 및 레이블링을 셀렉트스타에 의뢰했습니다. 다양한 집안 환경 사진을 수집해야 해 내부적으로 진행이 어려웠는데, 셀렉트스타의 크라우드소싱 방식이 빛을 발하여 많은 사람들로부터 데이터를 얻을 수 있었습니다. 전문성을 갖고 데이터 품질, 속도, 프로젝트 관리를 진행해주셨고 좋은 결과를 얻었습니다.”

엘컴택

“수집과 가공에 다소 시간과 노력이 많이 필요한 데이터인 다양한 책에서 많은 수의 문제를 생성하는 프로젝트를 셀렉트스타와 함께 진행했습니다. 또한 데이터의 제공으로 끝나는 것이 아니라 재검토 과정을 거치고, 그 재검토 과정에서 발생한 문제점들에 대해서 끝까지 해결해 주셔서 양질의 데이터를 얻을 수 있었습니다.”

한국어 대화 음성 데이터

주요 키워드

분야

유형

데이터 구조

한국어 대화 음성 데이터

감성 대화 말뭉치 구축

SKTelecom

삼성전자

LG CNS

업스테이지

롯데정보통신

뉴빌리티

옴니어스

엘컴택

와이드브레인

데이터 사업

LLM Evaluation

AI 사업

고객

리소스

회사