한국어 대화 음성 데이터

한국어 대화 음성-텍스트 페어 200만 건 4개월 만에 수행

주요 키워드
AI 학습데이터, 일상 대화, 음성 데이터, 어노테이션, 메타 데이터, 라벨링
분야
한국어
유형
오디오, 텍스트
주요 키워드
AI 학습데이터, 일상 대화, 음성 데이터, 어노테이션, 메타 데이터, 라벨링
분야
한국어
유형
오디오, 텍스트

데이터 개요

소개
• 한국인 일상 대화를 인식하고 음성을 문자로 실시간 변환하는 AI 개발용 한국어 대화 음성 데이터
• 다양한 상황과 응용 도메인에 맞는 한국어 음성 데이터셋. 글로벌 음성 데이터셋의 비교와 한국인 대화 음성 데이터의 기능
구축목적
연령ㆍ원거리ㆍ노이즈ㆍ다자발화 등 다양한 환경을 인식할 수 있는 대화ㆍ음성 데이터 셋 구축

메타데이터 구조표

데이터 영역

데이터 형식

라벨링 유형

데이터 활용 서비스

한국어

-

-

-

데이터 유형

데이터 출처

라벨링 형식

데이터 구축년도/데이터 구축량

오디오, 텍스트

-

-

2020년/595만

데이터 영역

데이터 형식

라벨링 유형

데이터 활용 서비스

한국어

-

-

-

데이터 유형

데이터 출처

라벨링 형식

데이터 구축년도/데이터 구축량

오디오, 텍스트

-

-

2020년/595만

데이터 구조

데이터 구축 프로세스
• 데이터 설계, 수집, 가공, 검수 및 AI 모델링 수행

출처: aihub.or.kr /한국인 대화음성

• 파일의 후 처리(개체 정보, 형태소 분석 등)의 가공 처리 후 json 형태의 파일 제공
대표도면
• 방송콘텐츠는 춘천 MBC와 EBS의 음원을 추출하여 데이터 획득
• 확보된 음원 파일을 통해 텍스트를 전사(STT 엔진을 활용하여 음성파일을 텍스트로 변환)하고 검수 진행 (음원 파일: PCM 형식, 텍스트 파일: TEXT 형식)

출처: aihub.or.kr /한국인 대화음성

자사 크라우드소싱 플랫폼 '캐시미션' 활용

• 크라우드소싱 플랫폼 '캐시미션'을 활용, 음원 녹음 기능을 통해 음원 파일과 전사 파일을 확보
• 확보된 음원 파일을 통해 텍스트 전사작업 진행(사람이 직접 음원 파일 청취 후 전사)
• 매 업무마다 약식 검수 진행('캐시미션' 녹음자들이 크로스 체크를 통해 검수 진행)