얼마 전, 셀렉트스타가 세계 3대 NLP 학회 중 하나인 EMNLP 2025에 논문 세 편이 등재되었습니다! 오늘은 그 중 한 편인 <COBA: Counterbias Text Augmentation for Mitigating Various Spurious Correlations via Semantic Triples>를 살펴보고자 하는데요. COBA는 LLM 기반 텍스트 증강으로 학습 데이터의 편향을...
소설도 쓰고 복잡한 코드도 짜는 AI지만, 여전히 극복하지 못한 약점이 하나 있었습니다. 바로 ‘너무 긴 글은 기억하지 못한다’는 점인데요. 너무 긴 글을 받은 AI는 기존 RNN의 정보 손실로 인해 앞부분 내용을 잊어버리거나, 트랜스포머의 계산 비용이 감당 못 할 정도로 올라가는...
안전한 AI의 기준은 무엇일까요? AI 구축에 집중하던 업계는 이제 검증에 집중하고 있습니다. 기술적인 개발은 상향평준화 되며 비교적 쉬워졌지만, ‘그래서 이거 진짜 배포해도 돼?’라는 질문 앞에서는 망설일 수밖에 없는데요. 안심하고 배포할 수 있는 AI는 어떤 기준으로 세울 수 있을까요? ‘써보니까 꽤 괜찮던데?’와...
최근 몇 주는 자고 일어나면 유독 새로운 기술이나 모델이 많이 나온 듯 합니다. 오픈AI의 챗GPT 5.1, 구글의 제미나이3, 메타의 SAM3, 그리고 어제(25일) 앤트로픽의 클로드 오퍼스 4.5까지 정신이 없는데요. 오늘은 이 치열한 전장 속에서 가장 따끈따끈한 주인공, 클로드 오퍼스 4.5를 좀...
세계 최고 권위를 자랑하는 자연어처리 학회 EMNLP 2025에서 셀렉트스타 연구진이 참여한 논문 3편이 동시에 채택되는 쾌거를 거뒀습니다. 상위 22% 내 메인논문으로 채택된 ‘CoBA: Counterbias Text Augmentation for Mitigating Various Spurious Correlations via Semantic Triples’(이하 CoBA)는 LLM 기반 텍스트 증강으로 학습...
레이블이 없는 데이터에서 스스로 레이블을 생성해 학습하는 방법인 자기지도학습(SSL)은 지난 몇 년 동안 이미지, 텍스트, 음성 등 다양한 분야에서 학습 방식으로 사용됐습니다. 하지만 자기지도학습에는 오랫동안 해결되지 않은 구조적 문제가 있는데요. 바로 ‘임베딩 공간의 붕괴’와 ‘기하학적 왜곡’입니다. 이 문제를 보다 근본적이고...
데이터와 자유롭게 대화할 수 있다면 어떨까요? AI가 데이터 뭉치를 자유롭게 검색하고 분석해, 복잡한 인사이트도 알아서 도출해 자연어로 답변해 줄 수 있다면요. 구글 클라우드와 KAIST 공동 연구팀은 최신 논문 〈DS-STAR: Data Science Agent via Iterative Planning and Verification〉에서 데이터 사이언티스트 역할을 노리는...
지난 3~4일, 코엑스에서 열린 SK AI Summit 2025에 셀렉트스타가 부스 및 발표로 함께했습니다. 셀렉트스타는 ‘국가대표 AI’ 사업이라고도 불리는 한국 독자 AI 파운데이션 모델 구축 프로젝트에서 SKT 컨소시엄의 데이터 파트 총괄로 참여하고 있는데요. 덕분에 AI 얼라이언스(alliance) 관에서 부스를 운영하게 되었습니다. (혹시...
AI가 이미지를 이해하고 언어로 표현하는 능력이 점점 좋아지고 있습니다. 하지만 사람처럼 문맥을 파악하고, 이전에 본 정보를 새로운 상황에 적용하는 능력은 여전히 부족한데요. 이번 ICCV 2025에서 발표된 논문 <Teaching VLMs to Localize Specific Objects from In-Context Examples>는 이 한계를 해결하고자 합니다. 연구진은...