안녕하세요, <셀렉트 다이제스트> 에디터 정인영입니다.
오늘은 기쁜 소식을 하나 전하고 싶은데요. 저희 셀렉트스타가 과학기술정보통신부가 주관하는 국책 과제인 '독자 AI 파운데이션 모델(Foundation Model) 프로젝트'의 1차 평가를 통과했습니다!
작년부터 대한민국은 기술 종속을 막고 AI 주권을 확보하기 위해 소버린(Sovereign) AI 구축에 힘써왔습니다. '독자 AI 파운데이션 모델 프로젝트'는 대한민국형 소버린 AI를 만들기 위한 가장 중요한 첫걸음이라고 볼 수 있는데요. 셀렉트스타는 SK텔레콤이 주관하는 컨소시엄의 참여기업으로 함께하고 있습니다. 실제 프로젝트에 참여한 저희 동료들에게 자세한 내용을 물어봤는데요. 생생한 이야기, 함께 들어보시죠!
*오늘부터 3주 간, 다양한 프로젝트를 진행한 저희 동료들의 이야기를 뉴스레터로 전해드릴 예정입니다.
1. 준비하며
셀렉트스타 데이터프로젝트실 데이터이행 3팀 고석연 총괄(왼쪽)과 김은성 매니저(오른쪽)
Q. 안녕하세요, 간단한 자기소개 부탁드려요!
Q. 독자 AI 파운데이션 모델 프로젝트에 대해 좀 더 알려주세요.
[석연] '독자 AI 파운데이션 모델 프로젝트(이하 '독파모')'는 대한민국의 소버린 AI, 즉, AI 주권을 확보하기 위해 글로벌적으로 파급력이 있는 국내 독자 AI 파운데이션 모델을 만드는 프로젝트입니다.
Q. 셀렉트스타는 독파모에서 정확히 어떤 역할을 담당했나요?
[석연] 이번 프로젝트는 크게 'GPU 지원', '데이터 지원', '인재 지원' 사업으로 구분되는데요. 셀렉트스타는 SK텔레콤 컨소시엄의 데이터 지원 사업 중 '개별 데이터 구축' 업무를 담당합니다.
2. 기획하며
Q. 이번 프로젝트에서 중요하게 본 기준은 무엇이었나요?
Q. 어떤 데이터셋을 구축해야 했는지도 궁금해요.
[석연] 수학, 과학, 법률, 프로그래밍, 안전성 등의 카테고리로 구성된 특정 도메인에 특화된 사후학습용 데이터셋을 구축했습니다.
셀렉트스타 데이터프로젝트실 데이터이행 3팀 고석연 총괄(왼쪽)과 김은성 매니저(오른쪽)
Q. 데이터셋을 구축할 때, 어떤 점에 가장 집중했었나요? 셀렉트스타 데이터를 고품질이라 자부하는 포인트를 알려주세요!
Q. 이번 프로젝트에서 절대 타협할 수 없었던 지점이 있었을까요?
Q. 타협할 수 밖에 없었던 지점도 있었을 것 같아요.
[석연] 타협해야 하는 부분도 있었죠. 아무래도 3개월 이내에 개별 구축 데이터 사업을 마쳐야 했다보니, 데이터 품질에 관한 후반부 피드백을 반영하기에는 시간이 조금 촉박했습니다. 데이터는 시간을 투자할 수록 품질을 높일 수 있는데, 대규모 학습 일정이라 허락된 기간이 짧았기에 개인적으로는 원하는만큼 시간을 쓰지 못해 아쉬웠습니다.
가장 빠른 AI 뉴스
3. 진행하며
Q. 데이터를 다루면서 가장 난이도가 높았던 작업은 무엇인가요?
Q. 셀렉트스타는 국내 최초이자 세계 최대 규모 AI 레드팀 챌린지를 여는 등 레드티밍 경험이 다수 있잖아요. 이런 경험이 도움이 좀 됐을까요?
[은성] 그럼요. 사실 프로젝트 초기에는 레드티밍 데이터를 다른 학습 데이터와 크게 다르지 않게 인식하는 분위기도 일부 있었습니다. 하지만 SK텔레콤이 개발 중인 모델을 향후 대국민 서비스로 제공하는 것을 본격적으로 검토하면서 ‘안전한 답변’의 중요성이 크게 드러났어요.
🚀 셀렉트스타의 레드팀 실력 알아보기
4. 돌아보며
Q. 저희 이제 2차 평가 통과해야 하잖아요. 셀렉트스타는 어떤 준비를 하고 있나요?
Q. 셀렉트스타를 대표해서 각오 한 마디 들려주세요!
[은성] 3개월이라는 짧은 시간 안에 데이터를 구축하려다 보니 1차 평가 때 모두가 정말 고되게 일했는데요. 경험이 있으니, 다음에는 좀 더 요령 있게, 효율적으로 할 수 있을 것 같습니다. 2차 프로젝트 준비 기간 동안 더 잘 대응할 수 있도록 준비하겠습니다.
사진 촬영 및 편집: 마케팅팀 강동원
셀렉트스타는 국가를 대표하는 AI 모델을 만들기 위해 책임감과 자부심을 갖고 독자 AI 파운데이션 모델 프로젝트에 임하고 있습니다. 안전한 AI를 위한 최고의, 최선의, 그리고 최적의 선택이 될 수 있도록 늘 최선을 다하겠습니다.


