국내 최초 한국형 LLM 평가 데이터셋, KorNAT

지난 19일, 셀렉트스타의 논문이 NLP 분야의 최고 컨퍼런스인 Association for Computational Linguistics(이하 ACL) 2024에 채택됐습니다.

KorNAT

KorNAT: LLM Alignment Benchmark for Korean Social Values and Common Knowledge

이번 논문은 셀렉트스타의 김민우 연구원이 공동 제 1저자로, 김정환 연구원이 제 3저자로 참여했는데요. 국내 AI데이터 기업 최초로 ‘데이터셋’을 주제로 Top AI 학회에 등재된 논문입니다.

셀렉트스타는 작년 한국지능정보사회진흥원(NIA)의 인공지능 학습용 데이터 구축 사업의 일환으로 “국내 최초 한국형 LLM 신뢰성 벤치마크 구축”을 완료했는데요. KorNAT 논문은 이 과업의 연구 성과로, 특성상 정량 평가가 어려운 자연어를 정량적으로 평가할 수 있는 벤치마크 데이터셋입니다.

김민우 연구원(왼쪽)*과 김정환 연구원(오른쪽)**이 직접 들려주는 논문 이야기를 들어볼까요?

*NIA 사업 선정부터 연구 마무리까지 AI쪽에서 전 과정 총괄
** 데이터셋 구축과 데이터셋의 검증 그리고 데이터셋에 대한 모델 실험 진행

Interview

– NLP 분야 최고 컨퍼런스인 ACL에 논문이 채택된 것을 정말 축하드립니다! 논문 소개를 부탁드려요.

정환: 감사합니다. 이 논문은 KorNAT(Korean National Alignment Test)이라는 한국의 사회적 가치와 일반 지식에 맞춘 대형 언어 모델(LLM) 정렬 벤치마크입니다. 사회적 가치와 일반 지식, 이 두 가지 측면에서 LLM의 정렬을 측정하는데요. 6,174명의 한국인을 대상으로 한 대규모 설문조사와 한국 교과서 및 GED 참고 자료를 기반으로 한 샘플을 사용하여 데이터를 구축하였습니다.

– National alignment 개념이 궁금한데요. 조금 더 설명해 주실 수 있나요?

민우: 이번 논문을 통해 최초로 제시한 National alignment는 LLM이 국가별로 사회적 가치와 공통 지식에 대해 국가 구성원들과 잘 일치하는지 평가하는 개념입니다.

– KorNAT 논문이 갖는 의미가 깊은 것 같습니다.

정환: 네, 이 논문은 한국이라는 특정 문화적 맥락에서 LLM의 성능을 평가합니다. 이는 국가별 요구에 맞춘 모델을 개발하는 데 중요한 기초 자료가 될 수 있습니다. 또한, 정부의 승인을 받은 TTA라는 기업의 평가를 통과한 데이터셋으로 신뢰성을 갖추고 있고요. 이번 논문은 한국을 기반으로 하였지만, 다른 국가에도 적용할 수 있는 아이디어를 전달한다는 의미에서 한 분야의 시발점을 만들었다고 생각합니다.

– KorNAT이 ACL에 등재된 소감은 어떠신가요?

민우: KorNAT은 정부 데이터 구축 사업의 일환으로 자연어처리 최고 학회에 등재된 첫 논문이자, 국내에서 대국민 설문조사를 바탕으로 LLM 벤치마크를 구축한 첫 논문입니다. 최초로 이 두가지를 달성하여 매우 기쁘게 생각합니다.

정환: ACL이라는 세계적인 학회에 등재된 논문에 참여할 수 있다는 점에서 매우 큰 영광입니다. 논문 작성 과정에서 많은 소통과 협업 과정을 겪었는데요. 제 부족함을 느끼는 동시에 많은 걸 배웠습니다. 항상 겸손하고 발전하는 삶을 살 수 있도록 하겠습니다. 감사합니다!

KorNAT 연구를 통해 셀렉트스타는 LLMxHuman 파이프라인을 통한 보다 효율적인 데이터 구축 방법을 찾아 데이터 생성에 적용하여 LLMxHuman 파이프라인 실용성을 증명했습니다. 또한, LLM을 단순 성능적인 부분만이 아닌 문화성과 신뢰성 같이 숫자로 나타내기 힘든 부분 또한 평가할 수 있는 방법론을 증명했습니다. 앞으로도 안전하고 뛰어난 LLM을 위한 NLP팀의 연구는 계속 될 예정이니, 많은 관심 부탁드립니다!

국내 최초 한국형 LLM 평가 데이터셋, KorNAT이 궁금하다면? 🤔

논문 읽기