BLEU는 자연어 처리(NLP)에서 기계 번역 품질 평가에 널리 사용되는 지표로, 모델이 생성한 텍스트와 정답(reference) 텍스트 사이의 단어 중복 정도를 기반으로 평가합니다.
작동 방식:
• N-그램 일치(N-Gram Matching): 생성된 문장에서 1-그램(단어)부터 4-그램(4단어 연속)에 이르기까지 다양한 길이의 단어 조합을 참조 문장과 비교합니다.
• 정밀도(Precision): 생성된 문장의 n-그램 중 참조 문장에도 존재하는 n-그램의 비율을 계산합니다.
• 짧은 번역에 대한 패널티(Brevity Penalty): 지나치게 짧은 번역이 높은 점수를 받지 않도록 패널티를 적용합니다.
• 최종 점수(Final Score): 각 n-그램의 정밀도를 가중 평균한 값으로, 0에서 1 사이의 값으로 표시됩니다. 점수가 높을수록 참조 문장과의 일치도가 높다는 의미입니다.
중요성
BLEU는 기계 번역 품질을 자동으로 반복 평가할 수 있는 표준 지표로 자리 잡았습니다. 다만, 단어 일치 중심이라 유창성이나 의미 같은 세부적인 품질 요소는 반영하지 못하는 한계가 있습니다. 이런 이유로 BLEU는 최근 ROUGE, BERTScore 같은 다른 평가 지표와 함께 사용하는 경우가 많습니다.
그럼에도 불구하고 BLEU는 모델 간 성능 비교나 시간에 따른 발전 추적에서 여전히 중요한 역할을 하는 기준 지표입니다.