[25.08.14.9AM 웨비나] 시티은행 AI 총괄이 말하는 AI로 금융산업을 이끄는 방법

BERTScore

BERTScore

BERTScore는 자연어 처리(NLP)에서 사용되는 평가 지표로, 모델이 생성한 텍스트와 정답(reference) 텍스트 사이의 유사도를 측정합니다. 기존 BLEU나 ROUGE처럼 단어 일치에만 의존하지 않고, BERT와 같은 트랜스포머 기반 모델의 문맥 임베딩(contextual embeddings)을 활용해 의미적 유사성을 평가합니다. 이로 인해 BERTScore는 미묘한 표현 차이까지 반영하는 보다 정교한 평가가 가능합니다. 특히 텍스트 생성 품질을 평가할 때 더 신뢰할 수 있는 지표로 주목받고 있습니다.

 

BERTScore 평가 과정:

 

1. 토큰 임베딩(Token Embeddings): 모델이 생성한 텍스트와 참조(reference) 텍스트를 사전 학습된 BERT 모델 등을 사용해 각각 단어 임베딩으로 변환합니다.

2. 유사도 계산(Similarity Calculation): 생성된 임베딩을 코사인 유사도(cosine similarity)로 비교하여 두 문장이 의미적으로 얼마나 유사한지 측정합니다.

3. 정밀도, 재현율, F1 점수(Precision, Recall, F1): BERTScore는 생성된 텍스트가 참조 텍스트와 얼마나 잘 일치하는지를 평가하는 정밀도, 참조 텍스트의 내용을 생성된 텍스트가 얼마나 잘 포함하고 있는지를 평가하는 재현율, 그리고 이 두 값을 조화 평균한 F1 점수를 계산합니다.

 

중요성

 

BERTScore는 단어의 정확한 일치보다 의미가 더 중요한 작업에서 특히 효과적입니다. 예를 들어 기계 번역, 텍스트 요약, 창의적 글 생성 같은 작업에서 뛰어난 평가 지표로 활용됩니다. 의미적 미묘한 차이까지 포착할 수 있기 때문에, 기존의 단어 기반 평가 방식이 부족한 상황에서 선호됩니다.

이 방식은 AI가 생성한 텍스트를 보다 정확하게 평가할 수 있게 해주며, 평가 결과가 사람의 품질 판단과 더 가깝게 일치하도록 도와줍니다.

관련 용어
NLP