AI가 이미지를 이해하고 언어로 표현하는 능력이 점점 좋아지고 있습니다. 하지만 사람처럼 문맥을 파악하고, 이전에 본 정보를 새로운 상황에 적용하는 능력은 여전히 부족한데요. 이번 ICCV 2025에서 발표된 논문 <Teaching VLMs to Localize Specific Objects from In-Context Examples>는 이 한계를 해결하고자 합니다. 연구진은...
AI로 동영상을 만들 수 있다는 사실은 이제 놀랍지 않습니다. 이제는 얼마나 사실적으로, 더 쉽게 만들 수 있는지가 중요할 정도로 동영상 생성 AI는 우리에게 익숙한 존재인데요. AI 영상은 어떻게 만들어지는 걸까요? 오픈AI의 Sora로 만든 영상. 출처: 오픈AI 시작은 노이즈: 확산 모델의...
LLM은 문맥 길이에 제약이 있습니다. 아주 긴 문서를 입력하면 모두 처리하기 어렵고, 입력 토큰 수가 늘어날수록 계산 비용이 가파르게 증가해 버리지요. 이러한 문맥 길이 한계를 어떻게 극복할 수 있을까요? 서점에 가면 종종 책 사진을 찍는 사람들을 봅니다. 마음에 들거나 기억하고...
AI 모델을 오염시키는 가장 직접적인 방법 중 하나는 학습 데이터를 오염시키는 것입니다. 그렇다면, 모델 오염을 위해 필요한 데이터는 얼마나 될까요? 지금까지는 모델이 크면 클수록, 당연히 필요한 오염 데이터 수도 많아진다고 생각해왔습니다. 덕분에 큰 모델이 보다 안전하다는 인식이 있었지요. 하지만 최근...
로봇의 무작위 진입을 막기 위해 종종 뜨는 ‘로봇이 아닙니다’ 문구를 알고 계시지요? ‘캡챠(CAPTCHA)’라고 불리는 이 장치는 사람과 로봇을 구별하기 위한 목적으로 만들어졌습니다. 봇이라면 해결하기 어려운 문제를 내내 사람인지 아닌지 확인하는 절차인데요. 보안 정책상, LLM 기반 에이전트는 캡챠를 풀어서는 안됩니다. 캡챠의...
인공지능은 이제 많은 기업의 핵심 도구로 자리 잡았습니다. 하지만 여전히 할루시네이션을 비롯해 편향이나 프롬프트 공격 등, 다양한 위험에 노출되어 있습니다. 비즈니스 프로세스를 관리하는 회사인 인포시스BPM에 의하면, 2024년 한 설문조사에서 40% 이상의 응답자가 모델의 ‘설명 불가능성’을 AI 도입에 가장 큰 위험으로...
인공지능 언어 모델은 정말 ‘단어 자동완성’일까요, 아니면 생각을 할까요? 놀랍게도 이 질문에 명쾌히 답할 수 있는 사람은 아직 없는데요. 앤트로픽의 연구진은 언어 모델의 내부를 실제로 ‘열어 보는’ 해석 가능성(interpretability) 연구를 진행합니다. 연구진은 이를 소프트웨어 공학보다 오히려 생물학, 그리고 더 정확히는...
오픈AI가 AI 운영의 핵심 원칙으로 삼아온 프라이버시(Privacy), 자유(Freedom), 청소년 보호(Teen Safety) 사이의 충돌과 그에 따른 선택을 공개적으로 설명했습니다. 이는 단순한 기술 정책이 아니라, 앞으로 AI가 우리 삶과 사회에 어떤 방식으로 뿌리내릴지 보여주는 중요한 시그널입니다. 1. 프라이버시 – 가장 비밀스런 대화...
런던과 샌프란시스코, 앤트로픽과 구글 딥마인드의 본사 앞을 지키는 사람들이 있습니다. 음식 섭취도 거부한 채, 오직 물과 전해질, 그리고 비타민만으로 버티며 단식 시위를 이어가고 있는데요. 이유는 단 하나, 인류를 뛰어넘는 슈퍼휴먼 AI 및 범용 인공지능(AGI) 개발 경쟁을 즉시 멈추라는 것입니다. 대체...
AI 활용의 초창기에는 프롬프트 엔지니어링이 주목받았습니다. 어떻게 ‘질문’을 잘 써야 원하는 답을 얻는가에 집중했지요. 이제는 그 단계를 넘어 ‘콘텍스트 엔지니어링(Context Engineering)’이 더 중요한 기술로 자리 잡고 있습니다. 단순히 문장을 다듬는 게 아니라, 모델이 제대로 일할 수 있는 환경과 자료를 설계하는...