한국어 질문-답변 KorQuad Dataset 2.0 전량 크라우드 소싱 구축. 카카오, 네이버 등 주요 기업들의 기계독해 AI 모델 성능의 척도가 되는 데이터셋
기계독해(MRC;Machine Reading Comprehension)는 기계가 주어진 지문과 질문을 이해하여 지문 내에서 답변 영역을 찾아야 하는 자연어처리 과제로 자동 질의응답 기술의 핵심 토대가 되는 기술입니다. 기계독해를 위한 한국어 표준 데이터셋으로는 KorQuAD 1.0이 있으며 모델 학습에 이용할 수 있을 뿐만 아니라 여러 모델 간 의 성능 평가를 위한 객관적 기준이 됩니다.
기존에 공개된 한국어 데이터셋은 위키백과나 한 문단의 짧은 뉴스 기사와 같은 평문으로 구성된 지문에서 질의응답을 수행했습니다. 하지만 실무에서 만나게 되는 문서(웹 문서, 상품 매뉴얼, 이용 약관 문서, 표, 리스트의 형태 등)는 다양한 구조와 길이, 형태가 존재하며 문단이 아닌 문서 안에서 기계독해를 수행해야 하는 경우가 대부분입니다. 이처럼 실제로 필요한 질의응답 태스크와 학계의 연구 사이에는 괴리가 있어 데이터셋에 대해 제대로 질의응답할 수 있는 알고리즘 일지라도 현실의 문제에서는 적용이 되지 않는 경우가 많습니다.
이러한 문제를 해결하기 위해 LG CNS AI빅데이터연구소에서는 다양한 구조와 길이를 가진 문서에서 기계독해를 위한 데이터셋 korQuAD 2.0을 구축했습니다. 셀렉트스타는 약 5만여 개 위키피디아 글을 바탕으로 약 8만여 개 질의응답 쌍으로 이뤄진 학습 데이터를 수집했으며 LG CNS와 함께 기존의 KorQuad 1.0 데이터 2만 건과 합쳐 총 10만 건의 데이터셋을 구축했습니다.
출처: https://korquad.github.io/dataset/KorQuAD_2.0/KorQuAD_2.0_paper.pdf
프로젝트 요약
데이터 구축 내용
LG CNS와 함께 국문 위키피디아 문서에 대한 질문-답변 쌍 8만 건을 구축한 ‘웹문서 기계 독해를 위한 한국어 질의응답 데이터셋’ 으로 기존 KorQuad 1.0 데이터 2만 건과 합쳐 총 10만 건의 데이터셋 구축
데이터 구성
문서 및 질문 개수
학습 | 검증 | 평가 | 합계 | |
문서 | 38,496 | 4,736 | 4,736 | 47,957 |
질문 | 83,486 | 10,165 | 9,309 | 102,960 |
답변 유형 비율
답변 길이에 따라 Short와 Long으로 구분했으며 각각 유형마다 Text, Table, List로 구분
Short | Long | |||
Text | 문단 내에서 답변을 선택 | 문단 전체를 답변으로 선택 | ||
Table | 표 내에서 답변을 선택 | 표 전체를 답변으로 선택 | ||
List | 리스트 내에서 답변을 선택 | 리스트 전체를 답변으로 선택 |
Long 답변 예시
Long 답변 | ||||
소제목 중복 (38%) | Q. 피터슨과 노먼 그란츠의 관계는 어떤 과정을 통해 형성되었는가? | |||
Title. 오스카 피터슨 - #생애 - #노먼 그란츠 | ||||
소제목 변형 (47%) | Q. 이경직의 가족 관계는 어떻게 이루어져 있는가? | |||
Title. 이경직 - #가계 | ||||
자체 제작 (15%) | Q. 문화재를 보존하기 위해 시행하는 법은 무엇일까? | |||
Title. 거문오름 용암동굴계 상류동굴군 - #공개제한 |
*Long 답변은 해당 Title 섹션 내 문단 전체를 의미
Short 답변 예시
Short 답변 | ||||
구문 변형 (48.0%) | Q. 외국인들을 위해 먹는 샘물이 일시 판매되었던 년도는 언제일까? | |||
‧‧‧1988년 서울 올림픽 무렵 외국인들을 위하여 일시 판매를 허용했던 적이 있으나, 다시 판매를 제한하였다.‧‧‧ | ||||
어휘 변형 (15.4%) | Q. 2009년 시즌 도중 경질된 지바 롯데의 감독은? | |||
‧‧‧시즌 도중에 바비 밸러나인 감독의 해임이 발표되자 일부 팬들은‧‧‧ | ||||
여러 문장 종합적 활용 (8.0%) | Q. 'Don't Cha'는 한국 휴대전화 기기 제조사의 휴대전화 CM송으로도 사용되었는데 그 제조사는 어디인가? | |||
‧‧‧첫 싱글 'Don't Cha'는 영국, 오스트레일리아, 캐나다 등의 나라에서 1위에‧‧‧ 또한 이 노래는 한국의 휴대전화 기기 제조사 SKY의 휴대전화 CM송으로 쓰여‧‧‧ | ||||
표/리스트 (27.7%) | Q. 득표율 2위를 한 사람은 어느 정당 소속인가? | |||
기타 출제 오류 (0.9%) | Q.꽃가루가 식물에 전이되어 수정을 거쳐 유성 생식에 이를 수 있게 하는 과정을 일으키는 말은? (지문에서 관련 설명을 찾을 수 없음) | |||
‧‧‧이것으로 파리를 불러들여 수분(꽃가루받이)을 한다고 한다. 꽃덮이조각은‧‧‧ |
수량
총 10만 건
참여 인원
1,372 명
프로젝트 기간
2019년 7월 ~ 8월
다양하고 편향성 없는 고품질 데이터
다양한 작업자의 참여로 데이터 편향성을 방지하였고 품질 또한 만족스러웠습니다.
AI 빅데이터 연구소
셀렉트스타 플랫폼 덕분에 빠른 시간 내에 한국어 질문-답변 데이터셋인 KorQuad 2.0을 구축할 수 있었습니다. 다양한 작업자의 참여로 데이터 편향성을 방지하였고 품질 또한 만족스러웠습니다. 특히, 당사의 데이터 요건과 작업자의 이해를 모두 잡은 작업자 교육자료가 인상깊었습니다.
LG CNS AI 빅데이터 연구소
한국어 질문 - 답변 데이터셋
문서 수집
위키백과 문서들 활용
질문 - 답변 생성
자사의 크라우드 소싱 플랫폼을 통해 다양한 작업자 참여
검수
전량 교차 검수
프로젝트 진행 과정
문서 수집
질문-답변 생성
검수
데이터의 품질을 높이는 상세한 가이드라인
캐시미션 앱 미션 튜토리얼 화면
작업자는 위와 같은 사전 테스트를 통과 해야만 정식작업에 참여할 수 있습니다. 사전 테스트는 다양한 질문의 예시를 보여주고 질문이 올바르게 만들어졌는지, 아니라면 어떤 이유에서인지까지 판단하는 과정을 통해 해당 태스크의 목적과 방향성에 대해 확실하게 인지하여 보다 정확한 데이터를 수집할 수 있도록 하였습니다.
NLP 분야의 현실적 문제를 해결할 수 있는 데이터
출처: https://korquad.github.io/
KorQuAD 2.0은 현재 누구나 사용 가능하도록 공개되어 있으며 카카오, SDS, 네이버 등 주요 기업들의 기계독해 AI 모델 성능의 척도가 되고 있습니다. 평문에 한정되어 있던 기계 독해의 범위를 길고 복잡한 문서의 양식으로 확장하며 NLP 분야에서 현실적으로 맞닥뜨리던 문제에 대해 해결할 수 있는 데이터를 확보했습니다. 더 나아가 성능에 대한 공정한 평가까지 이루어지고 있으며 이를 바탕으로 실효성을 갖춘 자연어처리 모델을 개발하는데 단단한 발판을 다지고 있습니다.
참고자료
https://korquad.github.io/dataset/KorQuAD_2.0/KorQuAD_2.0_paper.pdf
https://korquad.github.io/