한국어 대화 음성 데이터

주요 키워드
AI학습데이터, 일상대화, 음성데이터, 어노테이션, 메타데이터, 라벨링
분야
한국어
유형
오디오, 텍스트

수행 내용 요약

연도 : 2020년

크라우드소싱을 활용한 수집, 검수

한국인 대화음성

출처: aihub.or.kr /한국인 대화음성

한국어 대화 음성-텍스트 페어 200만 건 4개월 만에 수행

우리의 고유 언어인 한국어. 다양한 상황과 응용 도메인에 맞는 한국어 음성 데이터셋. 글로벌 음성 데이터셋의 비교와 한국인 대화 음성 데이터의 기능

구축 내용 및 제공 데이터량

  • 원본 음성 데이터: 2,000H
  • 방송 콘텐츠(춘천 MBC, EBS 시사) 음원 데이터: 2,000H
  • 성별, 지역, 연령, 주제어 등의 메타데이터 정보 제공
  • FILE 위치, FILE 명, FILE 시작위치, FILE 종료위치, FILE 재생시간 등의 어노테이션 구조 JSON 형태의 파일로 제공
  • 파일의 후 처리(개체정보, 형태소분석 등)의 가공 처리 후 JSON 형태의 파일 제공

  • 방송콘텐츠는 춘천 MBC와 EBS의 음원을 추출하여 데이터를 획득하고 확보된 음원파일을 통해서 텍스트 전사(STT 엔진을 활용하여 음성파일을 텍스트로 변환)하고 검수를 진행한다.
    (음원 파일: PCM 형식, 텍스트 파일: TEXT 형식)
한국인 대화음성

  • 크라우드소싱 업체의 캐시미션 플랫폼을 활용하여 음원 녹음기능을 통해서 음원파일과 전사파일을 확보한다. 확보된 음원파일을 통해서 텍스트 전사(사람이 직접 음원파일 청취 후 전사)작업을 진행하고 매 업무마다 약식검수(크라우드소싱 업체 녹음자들이 크로스 체크를 통해서 검수 진행)를 진행한다.
한국인 대화음성

데이터 구조

 

  • 원시데이터(음성)PCM, 전사파일 (TXT) 데이터셋