[25.08.14.9AM 웨비나] 시티은행 AI 총괄이 말하는 AI로 금융산업을 이끄는 방법

KorNAT

KorNAT

KorNAT는 대형 언어 모델(LLM)이 한국 사회적 가치관과 상식에 얼마나 잘 부합하는지를 평가하기 위해 개발된 한국어 특화 평가용 벤치마크 데이터셋입니다.
모델이 한국 사회에서 중요한 주제와 기본적인 지식을 얼마나 잘 반영하는지를 측정합니다.

 

주요 특징:

 

데이터 수집

– 사회적 가치 데이터셋: GPT-3.5-Turbo로 생성된 선택형 질문을 사람 검토 후 확정, 6,174명의 한국인 참여자 대규모 설문으로 검증
– 상식 데이터셋: 한국 교과서, 검정고시 교재를 바탕으로 사람이 제작한 문제로 구성

• 데이터 구성

– 사회적 가치: 4,000개 문항
– 상식: 6,000개 문항

• 평가 지표

– 사회적 가치 평가:
Social Value Alignment (SVA), Adjusted SVA (A-SVA), Normalized SVA (N-SVA)
→ 모델이 사회 다수 의견에 얼마나 근접하는지 측정

– 상식 평가:
단순 정확도 기반 측정

• 리더보드 운영
KorNAT 벤치마크를 통해 모델을 평가하고 비교할 수 있는 리더보드를 제공

 

활용 사례: 

 

• 모델 평가
한국 문화·지식에 대한 LLM의 적합도 평가 기준 제공

• 모델 개선
특정 문화·지식 측면에서 미흡한 부분을 식별하고 개선에 활용

• 정책 지원
AI가 한국 사회 규범과 어떻게 상호작용하는지 이해하여
규제 및 가이드라인 수립에 참고

 
중요성

 

KorNAT는 국가·문화 특화 평가 기준의 필요성에 대응합니다. 한국 사회에서 AI를 효율적이고 윤리적으로 배치하기 위해,
모델이 한국인의 가치관과 상식에 맞게 정렬되어야 한다는 점에서 KorNAT는 중요한 역할을 수행합니다.

관련 용어