한국어 대화 음성 데이터

한국어 대화 음성-텍스트 페어 200만 건 4개월 만에 수행

주요 키워드
AI 학습데이터, 일상 대화, 음성 데이터, 어노테이션, 메타 데이터, 라벨링
분야
한국어
유형
오디오, 텍스트

데이터 개요

소개
• 한국인 일상 대화를 인식하고 음성을 문자로 실시간 변환하는 AI 개발용 한국어 대화 음성 데이터
• 다양한 상황과 응용 도메인에 맞는 한국어 음성 데이터셋. 글로벌 음성 데이터셋의 비교와 한국인 대화 음성 데이터의 기능
구축목적
연령ㆍ원거리ㆍ노이즈ㆍ다자발화 등 다양한 환경을 인식할 수 있는 대화ㆍ음성 데이터 셋 구축

메타데이터 구조표

데이터 영역

데이터 형식

라벨링 유형

데이터 활용 서비스

한국어

-

-

-

데이터 유형

데이터 출처

라벨링 형식

데이터 구축년도/데이터 구축량

오디오, 텍스트

-

-

2020년/595만

데이터 영역

데이터 형식

라벨링 유형

데이터 활용 서비스

한국어

-

-

-

데이터 유형

데이터 출처

라벨링 형식

데이터 구축년도/데이터 구축량

오디오, 텍스트

-

-

2020년/595만

데이터 구조

데이터 구축 프로세스
• 데이터 설계, 수집, 가공, 검수 및 AI 모델링 수행

출처: aihub.or.kr /한국인 대화음성

• 파일의 후 처리(개체 정보, 형태소 분석 등)의 가공 처리 후 json 형태의 파일 제공
대표도면
• 방송콘텐츠는 춘천 MBC와 EBS의 음원을 추출하여 데이터 획득
• 확보된 음원 파일을 통해 텍스트를 전사(STT 엔진을 활용하여 음성파일을 텍스트로 변환)하고 검수 진행 (음원 파일: PCM 형식, 텍스트 파일: TEXT 형식)

출처: aihub.or.kr /한국인 대화음성

자사 크라우드소싱 플랫폼 '캐시미션' 활용

• 크라우드소싱 플랫폼 '캐시미션'을 활용, 음원 녹음 기능을 통해 음원 파일과 전사 파일을 확보
• 확보된 음원 파일을 통해 텍스트 전사작업 진행(사람이 직접 음원 파일 청취 후 전사)
• 매 업무마다 약식 검수 진행('캐시미션' 녹음자들이 크로스 체크를 통해 검수 진행)