세계 최고 권위를 자랑하는 자연어처리 학회 EMNLP 2025에서 셀렉트스타 연구진이 참여한 논문 3편이 동시에 채택되는 쾌거를 거뒀습니다.
상위 22% 내 메인논문으로 채택된 ‘CoBA: Counterbias Text Augmentation for Mitigating Various Spurious Correlations via Semantic Triples’(이하 CoBA)는 LLM 기반 텍스트 증강으로 학습 데이터의 편향을 줄이고 성능을 높이는 연구로, 진교훈 연구원이 1저자로 참여했습니다.
다음으로 ‘GRADE: Generating multi-hop QA and fine-gRAined Difficulty matrix for RAG Evaluation’(이하 GRADE)는 RAG의 추론·검색 능력을 난이도별로 평가하는 자동화 프레임워크를 제시한 연구로 이정수 연구원과 진교훈 연구원이 1저자로 이름을 올렸습니다.
마지막으로 최성욱 연구원이 교신저자로, 권용훈·이헌득 연구원이 공동 1저자로 참여한 ‘CAC-CoT: Connector-Aware Compact Chain-of-Thought for Efficient Reasoning Data Synthesis Across Dual-System Cognitive Tasks’(이하 CAC-CoT)는 기존 CoT 방식의 비효율성을 해결하는 합성 데이터 생성 기법을 담았습니다.
“데이터로 신뢰할 수 있는 AI를 만든다”
- 셀렉트스타 진교훈·최성욱 연구원 인터뷰
(왼쪽부터)진교훈, 최성훈 연구원이 EMNLP 2025에 채택된 논문에 대해 설명하고 있는 모습
Q. 안녕하세요. 논문 채택을 너무 축하드립니다. EMNLP 등재 소식을 처음 들었을 때 어떤 기분이 드셨나요?
- 최성욱: 국제 학술대회에 논문이 선정된 건 이번이 처음이었습니다. 단순히 논문이 실렸다는 사실보다, ‘세계 연구 커뮤니티의 일원으로 인정받았다’는 소속감이 크게 다가왔어요. 그만큼 더 성장해야겠다는 동기부여도 생겼습니다.
- 진교훈: 공저자로 참여한 경험은 많았지만, 1저자로 채택된 건 이번이 처음이에요. 개인적으로도 이제 연구자로서 한 단계 올라섰다는 느낌이 들었죠.
Q. 이번에 채택된 논문 모두 ‘AI 신뢰성’과 밀접한데, 각각의 연구는 어떤 문제의식에서 시작되었나요?
- 최성욱: 저는 주로 합성 데이터 기반의 추론 연구를 해왔어요. 기존 CoT(Chain-of-Thought)는 “추론 과정이 길수록 좋다”는 전제를 따르는데, 그게 정말 효율적인가에 의문이 들었죠. 그래서 ‘짧고 간결한 사고 과정’으로도 높은 성능을 낼 수 있는 방식을 고민하게 됐습니다.
- 진교훈: 저는 데이터의 편향과 평가 자동화에 관심을 가지고 있었습니다. CoBA는 사실 제 졸업논문에서 시작된 아이디어예요. LLM을 활용해 부족한 표현을 자동으로 보완함으로써 공정성과 다양성을 높이는 데이터 증강 기법을 개발했습니다. 이후에는 “RAG 시스템을 어떻게 객관적으로 평가할 수 있을까”라는 고민으로 이어졌고, 그 결과가 GRADE입니다.
Q. 세 논문을 간단하게 소개해 주시겠어요?
- 진교훈: CoBA는 “LLM이 데이터의 ‘빈 곳’을 자동으로 채워 AI 편향을 줄이고 성능을 안정화한 증강 기법”, GRADE는 “주어진 데이터에 대한 평가용 데이터를 자동으로 생성하는 파이프라인을 제시한 연구”입니다.
- 최성욱: CAC-CoT는 “짧지만 논리적인 추론 데이터를 합성하는 새로운 방식”이라고 할 수 있습니다.
(왼쪽부터)최성훈 연구원과 진교훈 연구원
Q. 각 논문에 대한 더 자세한 설명을 듣고 싶어요.
CoBA — "데이터의 빈 곳을 메운다"
진교훈: 기존의 편향 완화 연구는 대부분 사람이 직접 데이터를 수정하거나, 단순한 필터링에 의존했습니다. CoBA는 PLM(Pretrained Language Model)들을 조합해 데이터의 부족한 표현을 찾아내고 생성한다는 점에서 차별점을 두었습니다. 이를 통해 적은 데이터로도 공정성과 다양성을 확보할 수 있었고, 기술적으로 복잡하지 않으면서도 성능 향상 효과도 확실하게 가져올 수 있습니다.
GRADE — RAG 평가의 공백을 메운 ‘난이도 매트릭스’
진교훈: 지금까지 RAG 시스템의 평가에는 객관적인 지표가 거의 없었습니다. GRADE는 멀티홉 QA 데이터를 자동으로 생성하고, 각 질문의 난이도를 세밀하게 구분한 매트릭스를 제공합니다. 이렇게 하면 단순 질의응답부터 복합 추론까지 정량적으로 비교·검증이 가능해집니다. 그만큼 신뢰성 있는 벤치마크를 제공할 수 있게 됩니다.
CAC-CoT — “짧아도 논리적으로 완결된 추론”
최성욱: 기존 CoT는 “길수록 성능이 좋다”는 믿음이 있었지만, 실제로는 불필요한 노이즈가 많았습니다. 그래서 ‘하지만’, ‘따라서’, ‘그러므로’ 같은 ‘연결구문(connector)’을 활용한 합성 데이터로 접근을 시도했어요. 이를 통해 짧지만 논리적으로 완결된 합성 데이터를 만들 수 있었고, 학습 효율성도 크게 개선되었습니다.
셀렉트스타의 강점은 '아이디어의 날카로움'
2025년 11월 중국 쑤저우에서 열린 EMNLP 2025 학회에 참석한 셀렉트스타 연구진들
Q. 중국 쑤저우에서 열린 EMNLP 현장 분위기는 어땠나요?
- 최성욱: 전체적으로 ‘Safety’(안전성) 관련 연구가 굉장히 많았고, 언어적 다양성을 다루는 ‘Multilingual’ 연구도 활발했어요. 제 발표(CAC-CoT)에서는 ‘커넥터’ 개념에 대한 질문이 정말 많았습니다. “커넥터가 뭐냐”, “왜 이런 접근을 했냐”는 질문이 끊이지 않았죠. 문단과 문단을 잇는 논리적 연결구문을 CoT 합성에 도입한 게 신선하게 받아들여졌던 것 같아요.
- 진교훈: 저는 현장의 전반적인 분위기에서 기술의 평준화를 느꼈어요. 상위 몇몇 연구를 제외하면 대부분의 성능 향상폭이 유사했죠. 대신 새로운 아이디어나 접근 방식의 차별화가 더 중요해졌다는 걸 체감했습니다. 특히 인상 깊었던 논문은, 한국어 악성댓글 분류 연구였어요. 기존 벤치마크의 한계를 공격하는 방식이 흥미로웠습니다. 기술보다는 벤치마크 자체를 재해석하는 시도였거든요.
EMNLP2025 학회에서 포스터 세션을 진행하는 권용훈, 이헌득, 최성욱 연구원의 모습
Q. 포스터 세션은 어떻게 진행되나요?
- 진교훈: 1~1.5시간씩, 저자가 포스터 앞에 서서 Q&A를 이어갑니다. 청중이 끊임없이 바뀌어 체력전이지만, 실시간 피드백을 받으며 아이디어를 다듬을 수 있어 의미있는 시간이었습니다.
Q. 이번 학회를 통해 느낀 셀렉트스타가 가진 기술력의 차별점은 무엇이라고 생각하시나요?
- 진교훈: 기술적인 스펙터클보다 ‘문제를 푸는 아이디어의 날카로움’이 셀렉트스타의 강점이라는 생각이 들었어요.
- 최성욱: 맞아요. 저희 연구들은 모두 도메인 특화 신뢰성 검증에 직접적으로 활용될 수 있는 기술들이에요. 화려하지 않더라도, 실제 산업적 문제를 해결할 수 있는 연구라는 점에서 확실한 차별점이 있다고 생각합니다.
데이터에서 출발해 AI 신뢰성까지
Q. 이번 연구들이 셀렉트스타의 사업 방향과는 어떻게 연결될까요?
- 진교훈: CoBA와 GRADE는 모두 셀렉트스타의 AI 신뢰성 검증 솔루션 'Datumo Eval(다투모 이밸)'의 기반 기술로 확장될 수 있습니다. 특히 GRADE는 AI의 신뢰성을 객관적으로 평가하는 SaaS형 평가 프레임워크로 발전할 가능성이 크죠.
- 최성욱: CAC-CoT는 현재 진행 중인 ‘독자 AI 파운데이션 모델 구축 프로젝트’(일명 ‘국가대표 AI’ 구축 프로젝트)에 활용될 수 있어요. 또한, 신뢰성 평가도 결국 ‘생성’을 잘하는 모델이 필요한 만큼, 합성 CoT가 그 학습 데이터를 만드는데 기여할 수 있죠.
셀렉트스타 진교훈(왼쪽), 최성욱 연구원이 인터뷰를 진행하고 있는 모습
Q. 연구자로서 ‘AI 신뢰성’을 어떻게 정의하시나요?
- 최성욱: 신뢰성의 한 축은 ‘평가’라고 생각해요. 특히 긴 텍스트의 리즈닝(reasoning)을 어떻게 평가할지, 그게 다음 과제입니다. GPT 같은 범용 모델이 잘하긴 하지만, 결국 도메인 특화 신뢰성 평가가 필요합니다. 지금은 셀렉트스타가 금융 도메인에 강점을 가지고 집중하고 있지만, 앞으로는 의료, 법률 등 공개 데이터가 풍부한 분야로 확장해 나갈 계획이에요. 이후 제조·건설 분야로도 차근차근 넓혀갈 계획입니다.
- 진교훈: 앞으로 발전할 수 있는 방향이 무궁무진하다고 생각합니다. 저희 연구도 그 ‘일부’를 다루고 있을 뿐이죠. 아직은 신뢰성 검증이란 개념이 뚜렷하지 않지만 앞으로 더 신뢰성이 구체화되고, 기술적 표준이 정립되는 방향으로 진화할 것이라고 생각합니다.
Q. 마지막으로, 후배 연구자나 팀원들에게 전하고 싶은 메시지가 있다면요?
- 최성욱: 연구라는 게 생각보다 어려운 일은 아닙니다. 중요한 건 꾸준히 시도하는 태도예요.
- 진교훈: 맞아요. 거창한 목표보다, 작은 아이디어 하나를 깊게 파고드는 게 시작입니다. 결국 그게 논문이 되니까요.


