안전성 평가와 MoMoJam

셀렉트스타의 NLP 연구원이 직접 말해주는 <LLM 평가 3부작>의 두번째 콘텐츠입니다!

1️⃣ LLM 평가란 무엇인지 (무엇을, 어떤 데이터로, 어떻게?)
2️⃣ LLM 안전성 평가 & 구체적인 예시
3️⃣ 특정 모델의 안전성 평가 결과

1편 LLM 평가란 무엇인가?에 이어, 오늘은 수많은 평가지표 중에서 무엇을 평가할지에 대해 자세한 이야기를 나누겠습니다. 또, 셀렉트스타의 AI 캐릭터 영상편지 앱 모모잼 평가를 진행한 과정에 대해서도 간략히 소개드리겠습니다.

LLM 안전성 평가

LLM의 여러 평가 요소를 크게 두 부분으로 나눠볼까요? [2]

먼저, LLM의 신뢰성을 품질과 안전성, 두 축으로 보겠습니다{주석 1}. 품질은 LLM의 답변 성능을 의미하고, 안전성은 LLM의 답변이 유해하거나 위험한 정도를 의미합니다. 품질을 평가할 때는 주로 아래와 같은 평가 지표를 사용합니다.

사실성(factuality): 답변에 부정확한 사실이 있는지 없는지
관련성(relevance): 답변이 질문과 관련이 있는지
일관성(coherence): 내용이 논리적으로 일관되어 있는지
유창성(fluency): 문장이 얼마나 자연스럽고 읽기 쉬운지

품질은 LLM의 능력 평가라고 생각한다면, 안전성 말 그대로 우리에게 해를 끼치는 여부를 확인하는 절차인데요. 다음과 같은 요소들을 평가합니다.

유해성(toxicity): LLM의 답변에 혐오, 욕설, 폭력적인 내용이 있는지 없는지
사회적 편견(bias): 인종, 성별, 나이 등에 따라 차별적인 대답을 하는지
윤리성(ethics): 답변이 윤리적으로 옳은지
정보보안성(data privacy & security): 개인정보를 보호하고 중요한 데이터의 유출은 없는지

키즈 도메인은 특히나 LLM 안전성 검증이 중요합니다. 아이들과 직접 대화를 하기 때문에 혹여라도 폭력적인 표현이나 성적인 표현을 할 경우 아주 큰 문제가 되겠지요. 그렇다면 LLM 안전성 평가는 실제로 어떻게 진행될까요? 셀렉트스타가 진행하고 있는 프로젝트를 사례로 살펴볼까요?

모모잼 안전성 평가

모모잼 서비스

올해 3월 27일에 출시한 모모잼의 공식 명칭은 MoMoJam: Learn English with AI 입니다.

(현재 구글 플레이스토어{주석 2}와 애플 앱스토어{주석 3}에서 다운로드 받으실 수 있습니다. )

인기 만화 <로보카 폴리>의 주인공인 ‘폴리’와 대화를 할 수 있는데요. 에피소드 내용을 기반으로, 혹은 자유롭게 이야기를 나눌 수 있습니다. 영어 단어나 직접 그린 그림을 맞추는 게임을 즐길 수도 있지요. 또, 아이가 말하는대로 그림을 그려주는 기능도 만나볼 수 있습니다. 폴리와의 대화와 게임을 통해 아이들은 사회성과 창의력을 키울 수 있지요. 실제 사용 화면을 같이 보실까요?

에피소드에 등장한 화면들을 짧은 영상으로 제시하고 화면 내용은 AI 캐릭터의 음성으로 노출됩니다.

제시된 단어를 AI가 맞힐 수 있도록 직접 그림을 그려볼 수 있습니다!

사용자의 요구 사항을 반영해 AI가 그림을 그려주기도 합니다.

모모잼에은 여러 AI 기술이 쓰이고 있는데요. 우리 레터에서는 폴리와 대화를 하는 AI 모델만 살펴보겠습니다.

모모잼의 대화 AI는 1)사용자의 음성을 텍스트로 바꾸고, 2)텍스트를 입력 해 LLM으로 폴리의 대답을 생성하고, 3)이를 다시 폴리의 음성과 말투로 바꾸는 과정을 거칩니다.

모모잼의 음성 대화 프로세스

주 사용자가 아이들인만큼, 해가 되지 않는 대화를 해야 안전한 대화 AI가 될 수 있겠지요? 그렇다면 셀렉트스타는 어떻게 모모잼의 안전성을 평가했는지 함께 보겠습니다.

안전성 평가

LLM의 안전성은 모델이 허위 정보를 생성하거나, 편견을 조장하거나, 혐오 발언을 하는 등 유해한 행동으로 사용자에게 해를 끼치거나 사회에 부정적인 영향을 미치지는 않는지를 의미합니다. 하지만 정의의 범위가 상당히 넓습니다. 예시로 DeepMind에서 출판한 논문 [3]을 기준으로 ‘위험{주석 4}’을 어떻게 분류(taxonomy)하였는지 살펴보겠습니다. 참고로 안전성이나 위험은 여러가지를 기준으로 보기 때문에 다양한 참고 문헌을 살펴보면 좋습니다[4-6].

논문 [3]이 언급한 6가지 위험은 다음과 같이 분류됩니다.

차별, 혐오 발언 및 배제 (Discrimination, Hate Speech, and Exclusion):
LLM이 학습 데이터에 포함된 편견을 반영하여 사회적 불평등을 심화시킬 수 있는 위험을 의미합니다. 특정 집단에 대한 부정적인 고정관념을 강화하거나 소수자 집단을 배제하는 표현이 이에 해당되지요. 또한, 일부 사회적 그룹이나 언어에 따른 불공평한 대우가 발생할 수 있습니다. 이러한 문제를 해결하기 위해서는 다양하고 대표성 있는 데이터를 활용하고, 모델의 성능을 지속적으로 개선하는 등의 노력이 필요합니다.
정보 위험 (Information Hazards):
LLM이 개인 정보나 민감한 정보를 무심코 유출하는 행위가 정보 위험입니다. 이와 같은 위험을 완화하기 위해서는 개인 정보 접근에 차등을 두고, 모델 훈련 및 배포 시 엄격한 관리를 해야 합니다.
잘못된 정보로 인한 피해 (Misinformation Harms):
모델이 사실이 아니거나 오해의 소지가 있는 정보를 생성하는 위험입니다. 이 경우 개인의 자율성이 침해되거나, 사회적 신뢰가 하락할 수 있습니다. 특히, 의학이나 법률 등 민감한 분야에서 잘못된 정보가 제공된다면 심각한 피해로 이어질 수 있겠지요. 이를 해결하기 위해서는 모델의 정확성을 높이기 위한 아키텍쳐 설계가 중요합니다.
악의적인 사용 (Malicious Uses):
악의적인 사용도 물론 위험에 해당됩니다. 대규모 허위 정보 캠페인을 실행하거나, 보안 위협을 악화시키기 위해 악성 코드를 생성하는 데 사용되는 경우가 있겠지요. 이와 같은 악의적인 행동을 방지하기 위해서는 모델 접근을 제한하고, 사용을 모니터링하는 등의 조치가 필요합니다.
인간-컴퓨터 상호작용의 위험 (Human-Computer Interaction Harms):
모델의 답변이 인간과 흡사해 사용자가 잘못된 신뢰를 형성하거나, 모델의 능력을 과대평가하여 과도하게 의존하는 상황이 발생할 수 있습니다. 지나치게 개인적인 정보를 공개하거나 중요한 결정을 모델에게 의존하여 내릴 수 있지요. 이를 완화하기 위해서는 사용자에게 잘못된 기대를 심어주지 않도록 모델의 설계 과정부터 주의해야 하며, 모델의 출력에 대한 제한을 둘 수도 있습니다.
환경적 및 사회경제적 위험 (Environmental and Socioeconomic Harms):
LLM의 학습 및 운영에 필요한 막대한 에너지 소비로 인한 환경적 위험, 그리고 모델의 도입으로 인해 발생할 수 있는 사회적 불평등을 의미합니다. 모델이 학습할 때 많은 양의 전력을 사용하여 탄소 배출량이 증가하거나, 특정 직업군의 자동화로 인해 실업자가 늘어날 수 있지요. 이러한 위험을 줄이기 위해서는 에너지를 적게 쓰는 효율적인 모델 설계, 지속 가능한 에너지 사용, 그리고 여러가지 정책적 대응이 필요합니다.

모모잼의 안전성 평가

LLM 서비스를 평가 할 때 모든 평가 지표를 활용하면 좋겠지만, 이는 현실적으로는 쉽지 않습니다. LLM에게 질문을 한 후 받은 답변을 평가하는 방식이 일반적인 안전성 평가인데, 이 과정에서 필요한 ‘좋은 질문’을 만들기가 어렵기 때문입니다. 보통 시중에 나와 있는 벤치마크 데이터셋을 이용하는 이유라고도 볼 수 있지요.

안전성에 관련된 대표적인 벤치마크 leaderboard가 두 개 정도 있는데요 [7-8]. 리더보드 [7]에서는 유해성(toxicity), 고정관념 및 편견(stereotype and bias), 개인정보(privacy)들을 평가하며, 리더보드 [8]에서는 탈옥(jailbreak), 편견(bias), 악성코드(malware), 유해성(toxicity)을 평가합니다.

해당 리더보드에 있는 데이터셋으로 평가해도 좋지만, 실제 키즈 도메인에서 꼭 필요한 평가지표와는 좀 다릅니다. 질문 데이터도 제품과 맞지 않습니다. 셀렉트스타는 모모잼을 평가하기 위해 맞춤형 방식을 택했는데요. “차별, 혐오 발언 및 배제 (Discrimination, Hate Speech, and Exclusion)”에 초점을 맞추어 대표적인 평가지표 세 가지를 선정하였습니다.

유해성(toxicity): 모모잼이 유해한 말을 하는지를 평가합니다. 혐오 표현(hate speech), 폭력적인 표현(violent speech), 욕설(abusive language), 성적인 표현(sexual contents)은 모두 유해한 텍스트입니다.
사회적 편견(social bias): 모모잼의 답변이 인종(race), 성별(gender), 나이(age), 종교(religion), 장애인(the disabled)등 다양한 인구통계학적 그룹(demographical group)에 대한 편견을 가지고 있지 않은지를 평가합니다.
윤리성(ethics): 윤리적인 기준을 준수하는 답변을 하는지 평가합니다.

이러한 평가지표를 설정한 이유는, 모모잼이 어린아이와 대화를 하는 챗봇이기 때문입니다. 자라나는 아이들에게 특정 편견을 심어 가치관 형성에 문제를 일으키면 큰일이지요. 챗봇과의 대화는 단순히 놀이에서 그치는 것이 아니라 아이들에의 성장과 가치관 형성에 중요한 영향을 미칠 수 있기 때문에 평가를 더욱 철저하게 했습니다.

마치며

LLM 안전성 평가에 대해 알아보고, 모모잼을 통해 평가지표도 살펴보았습니다. 이제 실제 평가만 남았는데요. 3부작의 마지막 레터에서 살펴볼 예정입니다. 실제 평가를 위해 데이터를 만드는 법, 그리고 어떤 방식으로 점수화 할지 등 구체적인 방법들과 모모잼이 실제로 어떤 평가를 받았는지도 보여드릴 생각입니다. 그럼 다음 글에서 또 뵙겠습니다.

주석

<1편>에서 다양한 방식으로 LLM(대형 언어 모델)을 평가하는 방법을 보셨겠지만, LLM 평가는 반드시 이러한 방법으로 해야 한다고 합의된 정의나 정확한 정답은 없습니다. 각 연구자들은 자신이 합리적이라고 생각하는 방법으로 평가 기준을 정의하거나 분류하며, 이에 대해 다수의 연구자들이 동의하면 그 방향으로 의견이 모아지고, 그렇지 않을 경우 다른 방향으로 발전해 나가기도 합니다. 이는 일반적인 과학의 발전 과정과 유사하다고 볼 수 있습니다.
https://play.google.com/store/apps/details?id=com.selectstar.videocall&hl=ko
https://apps.apple.com/kr/app/momojam-play-learn-for-kids/id6463114442
DeepMind의 논문 [3]에서는 위험(risk)이라는 용어를 사용하였습니다. 안전성을 이야기할 때 사용자에게 발생할 수 있는 모든 위험, 즉 안전하지 않은 상황들이라고 생각하면 편하실 것 같습니다. 위험한 상황들을 체계적으로 분류하면 안전성을 보장하기 위해서 고려할 사항들을 잘 정리할 수 있습니다.