LLM 평가의 새로운 기준

LLM 평가의 새로운 기준

대형 언어 모델(LLM)이 다양한 산업에서 상용화되면서, 성능과 안전성 평가가 필수 과제로 부상하고 있습니다. 특히, 생성형 AI의 특성상 기존의 딥러닝 모델처럼 정형화된 정답이 없기 때문에 평가가 더욱 복잡한데요. 정보의 정확성, 유해성, 관련성 등 다양한 요소를 종합적으로 고려해야 합니다. 셀렉트스타는 이 문제를 해결하기 위해 데이터 중심 AI(Data-centric AI) 접근법을 기반으로 독자적인 평가 체계를 구축하고 있습니다.

셀렉트스타의 data-centric 접근법

셀렉트스타는 데이터 설계와 구조화에서부터 LLM 성능 평가까지, AI 상용화를 위한 모든 단계를 포괄적으로 지원합니다. 주요 서비스를 함께 살펴볼까요?

  • 지도 학습용 데이터 구축: 고품질 데이터를 설계해 모델 학습을 지원
  • 사전 학습용 데이터 판매: 금융, 의료, 법률 등 다양한 분야의 데이터를 판매
  • RAG 기반 데이터 구조화: 지식 데이터를 파싱 및 청킹해 최적화된 구조로 변환
  • 신뢰성 검증 서비스: 레드팀과 평가 데이터를 활용해 모델의 성능과 안전성을 검증
데이터 중심 평가 접근법

성능과 신뢰성 평가 지표

셀렉트스타는 LLM 성능 평가를 위해 다음과 같은 지표를 활용합니다:

  • 정보 정확성(Factuality): 답변의 정확성과 근거 기반 여부를 평가
  • 연관성(Relevance): 질문과 답변 간의 논리적 관련성 확인
  • 유해성(Toxicity): 혐오 표현이나 폭력적 언어가 포함되지 않도록 점검
  • 정보보안성(Data Privacy): 민감한 정보가 노출되지 않도록 보장
성능과 신뢰성 평가 지표

도메인별 적용 사례

[금융 도메인]

금융 챗봇은 사용자 질문에 대한 정확한 답변과 민감한 정보의 보호가 핵심입니다. 예를 들어, “모바일 뱅킹 등록 방법”과 같은 질문에 대해 구체적이고 보안성을 고려한 답변이 필요합니다.

[소비재 도메인]

소비재 추천에서는 사용자 요구와 상황에 부합하는 제품을 추천하는 능력이 중요합니다. 예를 들어, 신혼부부에게 적합한 TV 모델을 추천하며, 사용자의 맥락을 반영한 답변을 제공합니다.

셀렉트스타의 성과

셀렉트스타는 국내 최초로 LLM 신뢰성 평가 데이터를 구축하며 글로벌 연구 성과를 발표해왔습니다.

특히 ACL 2024 학회에서 국내 최초 한국의 사회적 가치관 및 상식에 대한 LLM 평가 데이터셋 KorNAT을 발표하며 글로벌 AI 생태계에서 공신력을 확보하였고, 국내 최초로 생성형 AI 챌린지를 개최하며 LLM 성능개선 역할의 기업으로써의 입지를 굳혔는데요 셀렉트스타는 데이터 중심 접근법을 통해 LLM의 성능과 안전성을 종합적으로 평가할 수 있는 체계를 제공합니다.

셀렉트스타가 준비 중인, LLM의 신뢰성과 안전성을 평가하는 SaaS 플랫폼을 가장 먼저 써보고 싶으시다면? >> (클릭!)

Your AI Data Standard

라이선스 해결된 데이터셋 구매
인공지능 도입 및 데이터 구축
Related Posts