[25.08.14.9AM 웨비나] 시티은행 AI 총괄이 말하는 AI로 금융산업을 이끄는 방법

Prompt Injection

Prompt Injection

프롬프트 인젝션은 특히 대형 언어 모델(LLM) 기반 AI 시스템에서 발생하는 보안 취약점입니다. 공격자가 입력 프롬프트에 악의적인 명령을 숨겨 넣음으로써 모델의 동작을 의도치 않게 조작할 수 있습니다. 이로 인해 AI가 필터링 우회, 정보 유출, 의도하지 않은 작업 실행 등의 행동을 하게 됩니다.

 

주요 특징:

 

사용자 입력 조작
겉보기에 정상적인 프롬프트 속에 은밀하거나 속임수 명령어를 삽입하여 모델의 응답을 조작합니다.

• 안전장치 우회
콘텐츠 필터나 정렬(alignment) 기능 등 출력 제어 장치를 회피하는 데 사용됩니다.

• 다양한 인젝션 방식
– 직접 인젝션: 사용자 입력 자체에 악성 명령 포함
– 간접 인젝션: 외부 문서, 웹사이트, 데이터베이스에 숨긴 명령을 모델이 인식하게 유도

• 탐지 어려움
인젝션된 문장이 겉으로는 무해하게 보이기 때문에 자동화된 필터링이나 수동 검토로 식별하기 까다로움

• 영향 범위가 넓음
챗봇, 검색 기반 응용 프로그램, 에이전트 시스템 등 LLM 기반 모든 AI 서비스에 위협이 됨

 

프롬프트 인젝션의 위험 및 공격 사례: 

 

데이터 유출 위협
모델로 하여금 훈련 데이터나 민감한 내부 정보를 의도치 않게 출력하게 만듦

• 시스템 오작동 유도
원래 의도된 목적과 무관한 행동이나 잘못된 판단을 유도할 수 있음

• 콘텐츠 필터 우회
욕설, 폭력, 혐오 콘텐츠 등의 출력 제한을 뚫고 금지된 응답을 생성하게 함

• AI 에이전트 공격
자율 에이전트의 다단계 작업 흐름을 간섭하거나 왜곡시킴

• 공급망 취약점(Supply Chain Attack)
문서, 웹사이트, API 응답 등 외부 컨텐츠를 통해 간접적으로 악성 명령을 주입

 

중요성

 

AI가 점점 더 많은 분야(금융, 의료, 교육, 보안 등)에 실제 적용되는 만큼, 프롬프트 인젝션은 신뢰성과 안전성에 대한 심각한 위협이 됩니다. 따라서 다음과 같은 방어 전략이 중요합니다:

• 입력 검증(Input Validation)

• 프롬프트 정제(Prompt Sanitization)

• 출력 모니터링 및 필터링(Output Monitoring)

프롬프트 인젝션을 이해하고 대응하는 능력은 보안에 강하고 책임감 있는 AI 시스템을 구축하는 데 있어 핵심적인 역량입니다.