[25.08.14.9AM 웨비나] 시티은행 AI 총괄이 말하는 AI로 금융산업을 이끄는 방법

Data Augmentation

Data Augmentation

데이터 증강(Data Augmentation)기존 데이터를 변형하거나 수정하여 인위적으로 데이터셋의 크기와 다양성을 확장하는 머신러닝 기법입니다.
이러한 증강을 통해 모델이 현실 세계의 다양한 변형을 시뮬레이션하고, 과적합(overfitting)을 줄이며, 일반화 성능을 개선할 수 있습니다.

 

일반적인 데이터 증강 기법:

 

이미지 데이터(Image Data Augmentation): 이미지 회전, 뒤집기, 자르기, 밝기, 대비, 색상 채도 조절, 노이즈 추가, 블러 적용 등 현실적 결함 시뮬레이션

• 텍스트 데이터(Text Data Augmentation): 동의어 치환, 문장 재작성, 단어 삽입, 삭제, 순서 변경, 역번역(back-translation): 다른 언어로 번역 후 다시 원어로 변환

• 오디오 데이터(Audio Data Augmentation): 음정이나 속도 조절, 배경 소음, 에코 추가, 시간 프레임을 미세하게 이동

• 수치 데이터(Numerical Data Augmentation): 데이터에 스케일링, 회전, 노이즈 적용

 
중요성

 

데이터 증강은 보지 못한 데이터 환경을 흉내 내어 모델의 견고함을 향상시킵니다.
특히 데이터 수집이 어렵거나 비용이 많이 드는 경우, 증강 기법은 매우 효과적입니다.

예를 들어:

•  컴퓨터 비전에서는 조명, 각도가 다른 이미지를 증강으로 시뮬레이션할 수 있습니다.

•  자연어 처리(NLP)에서는 다양한 문맥을 반영하기 위해 텍스트를 증강할 수 있습니다.

데이터셋의 다양성을 인위적으로 확장함으로써, 데이터 증강은 AI 시스템이 현실 환경에서도 더 신뢰성 있게 동작하도록 만들어 줍니다.

  •