ROUGE는 자연어 처리(NLP) 분야에서 자동 요약, 기계 번역, 텍스트 생성 시스템의 출력 품질을 평가하기 위해 사용되는 대표적인 지표 세트입니다.
사람이 쓴 정답(reference)과 기계가 생성한 텍스트 간의 겹치는 정도(중복)를 기반으로 정밀도(precision), 재현율(recall), F1-score를 계산합니다.
모델 성능을 정량적으로 비교할 수 있게 해주는 간단하면서도 효과적인 방법입니다.
주요 특징:
• 재현율 중심 평가 방식
기계 출력이 얼마나 많이 사람 정답의 정보를 포함하고 있는지를 중심으로 평가합니다.
• 다양한 변형 지표 제공
– ROUGE-N: n-그램(단어 n개 연속)의 중복 정도
– ROUGE-L: 최장 공통 부분 수열(Longest Common Subsequence)
– ROUGE-S: skip-bigram(비연속 쌍) 기반 평가
• 간단하면서 효과적인 구조
정성 평가 없이도 빠르게 텍스트 품질을 수치로 측정할 수 있습니다.
• 언어 중립적 적용 가능성
적절한 토크나이징만 제공된다면 언어에 상관없이 사용 가능합니다.
• NLP 분야의 표준 지표
논문 및 벤치마크 테스트에서 가장 널리 사용되는 요약/번역 성능 평가 도구입니다.
• 대규모 테스트에 적합
수천 개의 예제도 자동으로 빠르게 처리 가능해 연구 및 실험에 유리합니다.
활용 사례:
• 자동 요약 품질 평가
기계 요약이 사람 요약과 얼마나 유사한지 정량적으로 측정합니다.
• 기계 번역 성능 검증
원문 의미 보존 여부를 참조 문장과 비교해 판단합니다.
• 텍스트 생성 모델 성능 비교
GPT, T5, BART 등 생성 AI 모델의 출력 결과를 정량적으로 비교할 때 사용합니다.
• 정보 검색 시스템 평가
검색 결과와 정답 문서 간 겹침 정도를 계산해 검색 정확도를 평가합니다.
• 질문 응답 시스템
모델이 제공한 답변이 참조 답변과 얼마나 일치하는지 평가합니다.
• 대화형 AI (챗봇) 성능 측정
대화 응답의 적절성, 일관성, 유창성 등을 부분적으로 측정하는 데 사용됩니다.
중요성
ROUGE는 텍스트 생성 성능을 객관적으로 평가할 수 있는 핵심 도구로, 모델 개발 및 비교, 성능 추적, 벤치마크 실험에서 광범위하게 활용됩니다.
물론 어휘 표현의 다양성이나 의미 일치 평가에는 한계가 있지만, 그 간결함과 확장성 덕분에 여전히 NLP의 기본 평가 지표로 널리 사용되고 있습니다.