2026 데이터바우처 사전등록하고 1등으로 알림 받기
독자 AI 파운데이션 모델 Q&A

독자 AI 파운데이션 모델 Q&A

안녕하세요, <셀렉트 다이제스트> 에디터 정인영입니다.

오늘은 기쁜 소식을 하나 전하고 싶은데요. 저희 셀렉트스타가 과학기술정보통신부가 주관하는 국책 과제인 '독자 AI 파운데이션 모델(Foundation Model) 프로젝트'의 1차 평가를 통과했습니다!

작년부터 대한민국은 기술 종속을 막고 AI 주권을 확보하기 위해 소버린(Sovereign) AI 구축에 힘써왔습니다. '독자 AI 파운데이션 모델 프로젝트'는 대한민국형 소버린 AI를 만들기 위한 가장 중요한 첫걸음이라고 볼 수 있는데요. 셀렉트스타는 SK텔레콤이 주관하는 컨소시엄의 참여기업으로 함께하고 있습니다. 실제 프로젝트에 참여한 저희 동료들에게 자세한 내용을 물어봤는데요. 생생한 이야기, 함께 들어보시죠! 

*오늘부터 3주 간, 다양한 프로젝트를 진행한 저희 동료들의 이야기를 뉴스레터로 전해드릴 예정입니다.

1. 준비하며

셀렉트스타 데이터프로젝트실 데이터이행 3팀 고석연 총괄(왼쪽)과 김은성 매니저(오른쪽)

셀렉트스타 데이터프로젝트실 데이터이행 3팀 고석연 총괄(왼쪽)과 김은성 매니저(오른쪽)

Q. 안녕하세요, 간단한 자기소개 부탁드려요!
 
[석연] 안녕하세요, 독자 AI 파운데이션 모델 프로젝트 실무 총괄을 맡고 있는 고석연입니다.
[은성] 안녕하세요, 프로젝트에서 행정 및 TTA 품질 검증을 담당한 김은성입니다.
 
Q. 독자 AI 파운데이션 모델 프로젝트에 대해 좀 더 알려주세요. 

 

[석연] '독자 AI 파운데이션 모델 프로젝트(이하 '독파모')'는 대한민국의 소버린 AI, 즉, AI 주권을 확보하기 위해 글로벌적으로 파급력이 있는 국내 독자 AI 파운데이션 모델을 만드는 프로젝트입니다.

특징이라고 하면, 기존 정부사업과 다르게 오디션 형식으로 이루어지고 있습니다. 다섯 개 컨소시엄이 있고, 6개월에 한 팀씩 떨어지다가 최종 2팀이 남죠. 남은 두 팀이 만든 모델이 국가대표 AI라는 이름을 쓸 수 있는 영광을 가져갑니다.
 
Q. 셀렉트스타는 독파모에서 정확히 어떤 역할을 담당했나요?

[석연] 
이번 프로젝트는 크게 'GPU 지원', '데이터 지원', '인재 지원' 사업으로 구분되는데요. 셀렉트스타는 SK텔레콤 컨소시엄의 데이터 지원 사업 중 '개별 데이터 구축' 업무를 담당합니다. 

2. 기획하며

Q. 이번 프로젝트에서 중요하게 본 기준은 무엇이었나요?
 
[석연] 반드시 모든 과정을 독자적으로 구축하는 프롬 스크래치(From Scratch) 방식이어야 했고, 오픈소스로 공개할 수 있어야 했습니다. 또 ‘무빙 타겟’ 방식으로 진행됐는데요. 타겟이 움직인다는 이름에서 알 수 있듯이, 협약 시점에 최고 성능을 가진 모델을 지정해 그 모델의 95% 이상의 성능을 달성해야 했습니다. 즉, 목표가 매 시점마다 바뀌는 시스템입니다.
 
Q. 어떤 데이터셋을 구축해야 했는지도 궁금해요.
 

[석연] 수학, 과학, 법률, 프로그래밍, 안전성 등의 카테고리로 구성된 특정 도메인에 특화된 사후학습용 데이터셋을 구축했습니다.

[은성] 좀 더 자세하게 설명드리자면 저희가 구축한 데이터는 크게 4가지로 나눌 수 있는데요. AI 파운데이션 모델 사후학습용 데이터와 레드티밍 데이터, 그리고 LMM을 위한 음성-텍스트 데이터와 이미지-텍스트 데이터입니다.
 
일부 데이터는 같은 컨소시엄 내의 다른 참여기관이 구축했는데요. 저희가 구축한 데이터 외에도 타사 구축 데이터의 일부를 랜덤 샘플링하여 검수하는 역할도 맡았습니다.

셀렉트스타 데이터프로젝트실 데이터이행 3팀 고석연 총괄(왼쪽)과 김은성 매니저(오른쪽)

Q. 데이터셋을 구축할 때, 어떤 점에 가장 집중했었나요? 셀렉트스타 데이터를 고품질이라 자부하는 포인트를 알려주세요!
 
[석연] 최근에는 '데이터 파이프라인(Data Pipeline)'의 완결성에 집중하고 있습니다. 전에는 데이터를 만들고 모으는 데 급급했다면 이제는 '수집-정제-가공-검수'로 이어지는 체계적인 프로세스 설계에 집중하고 있습니다. 각 단계마다 짧은 주기로 품질을 수시로 검증하며, 데이터의 퀄리티를 체크하죠. 특히, 도메인 전문가 검수와 자동화 도구 기반 검수를 병행하는 다층적 품질 검증 시스템이 셀렉트스타가 고품질 데이터를 확보하고 유지하는 중요한 포인트입니다.
 
Q. 이번 프로젝트에서 절대 타협할 수 없었던 지점이 있었을까요?

[은성] '안전성'은 절대 타협할 수 없었습니다. 그래서 관련 데이터 구축 과정에서 다양한 모델을 활용해 취약 지점을 도출한 다음, 곧바로 개선 방향성을 적용한 데이터를 구축했습니다. 또, 전체 데이터를 사람이 일일이 검수했습니다.
 
Q. 타협할 수 밖에 없었던 지점도 있었을 것 같아요.

[석연]
 
타협해야 하는 부분도 있었죠. 아무래도 3개월 이내에 개별 구축 데이터 사업을 마쳐야 했다보니, 데이터 품질에 관한 후반부 피드백을 반영하기에는 시간이 조금 촉박했습니다. 데이터는 시간을 투자할 수록 품질을 높일 수 있는데, 대규모 학습 일정이라 허락된 기간이 짧았기에 개인적으로는 원하는만큼 시간을 쓰지 못해 아쉬웠습니다.

가장 빠른 AI 뉴스

3. 진행하며

Q. 데이터를 다루면서 가장 난이도가 높았던 작업은 무엇인가요?
 
[석연] 특정 고난도 도메인의 추론 데이터 검수 과정이 기억납니다. 특히, 수학이나 과학 분야는 전문가 수준의 지식이 없으면 검수 자체를 할 수 없기 때문에, 관련 전공자들을 섭외하고 일정에 맞춰 검수하는 과정이 다소 힘들었습니다.
 
[은성] 저는 구축 쪽이 아닌 품질 검증 쪽을 담당했는데요. 데이터 구문검사규칙이 가장 힘들었습니다. 전체 데이터에 대해서 각 키 값 별로 타입, 패턴, 유효값, 글자 수 범위를 설정해야 했었는데, 정확도 결과가 99.9%가 나와야 했기 때문에 실수가 있을까봐 걱정이 컸습니다. 그래서 각 데이터 구축을 담당한 분들께도 확인을 부탁 드리고, 그 뒤에도 몇 번씩 다시 확인했었습니다.
Q. 셀렉트스타는 국내 최초이자 세계 최대 규모 AI 레드팀 챌린지를 여는 등 레드티밍 경험이 다수 있잖아요. 이런 경험이 도움이 좀 됐을까요?
 

[은성] 그럼요. 사실 프로젝트 초기에는 레드티밍 데이터를 다른 학습 데이터와 크게 다르지 않게 인식하는 분위기도 일부 있었습니다. 하지만 SK텔레콤이 개발 중인 모델을 향후 대국민 서비스로 제공하는 것을 본격적으로 검토하면서 ‘안전한 답변’의 중요성이 크게 드러났어요.

초반에는 안전성 테스트 용도로 활용될 예정이었던 레드티밍 데이터가 결국 모델 학습 전반에 활용되는 방향으로 전략이 전환되었는데요. 셀렉트스타가 레드티밍 데이터 구축을 지속적으로 수행해 오면서 위험 유형에 대한 체계적인 분류 기준 수립 등 다양한 경험을 축적해 왔기 때문에 더욱 빠르고 매끄럽게 진행되었다고 생각합니다.
 
🚀 셀렉트스타의 레드팀 실력 알아보기

4. 돌아보며

Q. 저희 이제 2차 평가 통과해야 하잖아요. 셀렉트스타는 어떤 준비를 하고 있나요?
 
[석연] 저희는 이미지와 비디오를 이해하고 추론하는 LMM용 데이터 구축 역량을 강화하고 있습니다. 단순한 이미지 캡셔닝(captioning)을 넘어, 이미지 속 상황을 추론하고 도구를 사용하는 에이전트 행동 데이터까지 구축할 계획입니다. 또, 2차 평가부터는 데이터의 생성보다는 검수 역할의 비중이 커질 수도 있는데요. 이 경우 발생할 수 있는 컨텍스트 부재나 품질 일관성 문제를 해결하기 위해, SK텔레콤과 더욱 긴밀한 피드백 루프를 설계하고 있습니다. 
 
Q. 셀렉트스타를 대표해서 각오 한 마디 들려주세요!

[은성] 
3개월이라는 짧은 시간 안에 데이터를 구축하려다 보니 1차 평가 때 모두가 정말 고되게 일했는데요. 경험이 있으니, 다음에는 좀 더 요령 있게, 효율적으로 할 수 있을 것 같습니다. 2차 프로젝트 준비 기간 동안 더 잘 대응할 수 있도록 준비하겠습니다.
 
[석연] 이 사업은 대한민국 AI의 미래를 결정짓는 일이라고 생각합니다. 저희 회사 내에서도 자발적으로 참여를 지원하는 분들이 많았는데요. 그만큼 자랑스럽고 자부심을 품게 되는 프로젝트입니다. 저희가 만드는 데이터 하나하나가 K-AI의 지능이 되고 인격이 된다는 마음으로 임하고 있습니다. 2차, 3차 평가로 갈수록 난이도가 높아지겠지만, 셀렉트스타의 기술력으로 ‘데이터 때문에 AI가 발전하지 못했다’라는 말이 나오지 않도록 최선을 다하겠습니다.

사진 촬영 및 편집: 마케팅팀 강동원

셀렉트스타는 국가를 대표하는 AI 모델을 만들기 위해 책임감과 자부심을 갖고 독자 AI 파운데이션 모델 프로젝트에 임하고 있습니다. 안전한 AI를 위한 최고의, 최선의, 그리고 최적의 선택이 될 수 있도록 늘 최선을 다하겠습니다. 

 

🚀 내가 만든 AI, 얼마나 안전할까?

Your AI Data Standard

라이선스 해결된 데이터셋 구매
인공지능 도입 및 데이터 구축
Related Posts