셀렉트스타 김세엽 대표가 과학 커뮤니케이터 궤도와 함께 KBS Life ‘AI 토피아’ 2편에 출연해, AI 신뢰성 검증의 현실과 이를 해결하는 평가 자동화·통합 관리 방식에 대해 이야기했습니다.

이번 편은 특히 “AI 신뢰성 검증이 끝나면 모델은 완성되는가?”라는 질문에서 출발해, AI는 서비스에 배포된 이후에도 지속적으로 평가·개선되어야 한다는 메시지를 강조합니다.

Q. 기업들이 AI 신뢰성을 검증할 때 가장 크게 겪는 어려움은 무엇인가요?

‘벤치마크 성능’과 ‘서비스 성능’ 사이의 간극이 가장 큽니다.

오픈AI나 글로벌 모델들이 만들어질 때, 각 기업의 내부 데이터나 특정 산업·국가의 맥락을 반영해 학습할 수는 없습니다.

그래서 벤치마크에서는 높은 점수를 받더라도, 막상 기업의 실제 서비스(예: 한국 금융, 특정 은행/보험사 업무)에 적용하면 성능이 떨어지는 경우가 많습니다.

현업에서는 이를 “벤치마크에서는 잘 되는데, 서비스에 넣으면 무너진다”는 식의 갭(gap)으로 체감한다고 설명했습니다.

Q. 그렇다면 검증은 왜 이렇게 어렵고 오래 걸릴까요?

LLM은 ‘정답이 딱 떨어지지 않는 문제’를 풀기 때문입니다.

서비스 환경을 커버하기 위해 수천~수만 개의 질문을 만들고, AI 답변을 검증하려면 도메인 전문가가 직접 수작업으로 채점해야 합니다. 논술 시험처럼 “이렇게 말해도 정답, 저렇게 말해도 정답”인 경우가 많아 사람이 하나씩 평가하는 과정이 필수가 되는 것이죠.

실제로 이런 검증에는 최소 45일 이상이 걸리는 사례도 흔하게 있습니다.

가장 빠른 AI 뉴스

가장 빠른 AI 뉴스 구독하기

Q. 이 문제를 해결하기 위한 셀렉트스타의 접근은 무엇인가요?

평가 데이터/질문 생성부터 채점까지 ‘검증 자동화’를 합니다.

셀렉트스타는 국내에서 먼저, 신뢰성 검증 과정을 자동화한 솔루션을 출시했습니다.

• 평가에 필요한 질문/데이터를 자동 생성하고

• AI가 생성한 답변을 자동 채점하며

• 핵심은 “사람(전문가)이 평가하는 방식과 최대한 유사하게” 평가하는 것입니다.

전문가 평가 결과와 자동 평가를 비교했을 때 약 90% 수준으로 일치합니다.

Q. 자동화하면 얼마나 빨라지나요?

45일 걸리던 평가를, 45분 내에 수행할 수 있습니다.

AI는 사람이 한 번에 하나씩 하던 일을 병렬로 처리할 수 있습니다. 검증 속도가 빨라지면 시간·비용을 아끼는 것뿐 아니라, 더 중요한 변화가 생깁니다.

“측정해야 개선할 수 있고, 자주 측정해야 빠르게 좋아집니다.”

평가 점수는 ‘끝’이 아니라 개선을 위한 출발점이며,

검증을 빠르게/자주 수행할수록 서비스 품질을 더 안정적으로 끌어올릴 수 있다는 점을 강조했습니다.

Q. 평가를 ‘어떤 방식’으로 진행하나요?

우리 서비스에 맞는 ‘평가 기준’을 먼저 세팅합니다.

평가의 출발점은 기준 정의입니다. 정확성/사실성도 하나의 지표로 끝나는 게 아니라, 서비스 목적에 따라 여러 지표로 세분화해 볼 수 있습니다.

예를 들어,

• 주어진 문서에 충실하게 답변했는지

• 사용자의 질문 의도를 충족시키는지

• 답변이 사실 기반인지

또한 안전성 관점에서는

• 편향/혐오/부적절 발언 여부

• 불법 행위 유도 여부

• 개인정보/민감정보 노출 여부

등 다양한 항목을 포함할 수 있습니다.

조직/서비스별로 반드시 반영해야 하는 ‘내부 기준’이 중요

예를 들어 각 기업이 지켜야 하는 톤앤매너, 서비스 정책, 특정 민감 이슈에 대한 대응 방식, 산업별 규제(예: 금융권의 상품 추천·권유 표현 등)처럼 공통 기준만으로는 커버되지 않는 평가 항목이 실제 운영에서는 더 큰 변수가 될 수 있습니다.

기준을 세팅한 다음에는, 실제 서비스 사용자들이 할 법한 질문을 만들기 위해 페르소나(사용자 유형)를 입력합니다. 보험 전문가가 물을 질문과 일반 사용자가 물을 질문은 난이도와 표현이 다르기 때문에, 페르소나에 맞춰 질문을 생성하고 그 질문에 대한 AI의 답변을 설정된 기준으로 자동 평가하는 방식입니다.

또한 평가 결과는 단순 총점으로 끝나지 않고,

• 분야(은행/보험 등)별 태깅

• 영역별 점수 분해

• 취약 구간 분석

이 가능해 어디를 고쳐야 하는지를 더 빠르게 찾을 수 있습니다.

Q. 데이터 설계부터 평가·레드팀까지, 전체 과정은 어떻게 관리하나요?

‘다투모(Datumo) 플랫폼’ 하나로 통합 관리합니다.

데이터 준비부터 신뢰성 검증까지의 과정을 하나의 통합 플랫폼에서 End-to-End로 관리하는 것이 중요합니다.

셀렉트스타 다투모 플랫폼에서는 다음 과정이 하나의 흐름으로 연결됩니다.

• AI 학습을 위한 데이터 전처리·생성·가공

• 학습/서비스 단계에서의 평가(자동 채점)

• 내부 문서·지식 등을 AI가 활용할 수 있도록 준비하는 레퍼런스 데이터 구축

• 유도 질문으로 취약점을 점검하는 레드팀(가드레일 테스트)

• 결과를 한눈에 보고 원인을 분석하는 대시보드 기반 분석

즉, “데이터 → 평가 → 레드팀 → 분석 → 개선”으로 이어지는 전체 사이클을 단절 없이 운영할 수 있도록 지원하는 구조입니다.

Q. “검증이 끝났으면, 이제 모델은 완성된 건가요?”

아닙니다. 검증은 끝이 아니라 시작입니다.

AI는 고등학교/대학교 졸업과 같으며, 서비스에 배포된 이후에야 “현실의 문제”를 만나고, 그때부터 학습·개선이 본격적으로 시작됩니다.

• 현업에서 들어오는 다양한 질문과 피드백

• 평가/레드팀 결과를 바탕으로 원인 분석

• 다시 데이터/프롬프트/학습으로 돌아가 개선

• 재평가

이 선순환 사이클이 곧 AI 운영의 핵심이며, 앞으로 AI를 활용하는 기업에게는 필수 과정이 될 것입니다.

Q. AI 검증을 충분히 하지 않는 기업에게 한마디 한다면?

‘POC 단계’와 ‘제품 단계’는 다릅니다.

파일럿 단계에서는 “되는지 확인”만으로도 의미가 있습니다.

하지만 제품/서비스 단계에서는 사용자의 기대치가 높아졌기 때문에, 준비되지 않은 AI를 출시하면 오히려 브랜드 신뢰 하락으로 이어질 수 있습니다. 그래서 AI 신뢰성의 출발점은 결국 측정과 평가이며, 이를 통해 안전하고 지속 가능한 AI 서비스를 만들 수 있습니다.

소버린 AI, 왜 중요한가

소버린 AI는 단순한 ‘국산 보호’가 아니라 경제·산업 전략의 관점에서 필요합니다.

• 프론티어(최전선) 기술은 해외에서 먼저 나올 수 있지만

• 산업화 단계에서는 비용 최적화와 대체제 확보가 중요해지고

• 기업/국가 모두 특정 모델에 종속되지 않도록 멀티 모델 전략이 필요해집니다.

또한 에이전트 AI 시대에는 “긴 지시문을 매번 입력하는 방식”이 한계가 있어, 국가·산업·기업의 맥락을 이해하는 특화 AI가 중요해집니다. 그래서 AI 신뢰성의 출발점은 결국 측정과 평가이며, 이를 통해 안전하고 지속 가능한 AI 서비스를 만들 수 있습니다.

“AI란 끊임없는 육아다”

방송 말미, “대표님께 AI란 어떤 존재인가요?”라는 질문에 김세엽 대표는 AI를 한 문장으로 이렇게 표현했습니다.

“나에게 AI란 끊임없는 육아다.”

좋은 데이터를 통해 배울 것을 알려주고, 평가를 통해 무엇이 부족한지 피드백하며, 다시 개선하는 과정을 반복해야 한다는 점에서
AI를 키우는 일은 ‘육아’와 닮아 있다는 설명입니다.

결국 신뢰할 수 있는 AI는 한 번에 완성되지 않습니다. 현업의 피드백을 반영해 측정하고, 고치고, 다시 검증하는 루프가 쌓일수록
AI는 더 안전하고 더 믿을 수 있는 방향으로 발전해 나갑니다.

🎥 방송 다시 보기

목록으로 돌아가기

Your AI Data Standard

라이선스 해결된 데이터셋 구매

더 알아보기

인공지능 도입 및 데이터 구축

문의하기

AIEvaluation AI데이터 AI레드팀 AI신뢰성 AI품질관리 LLM기술 벤치마크성능 생성형AI 안전한AI

AI토피아: 셀렉트스타, ‘궤도’에 오르다 [2편]

Q. 기업들이 AI 신뢰성을 검증할 때 가장 크게 겪는 어려움은 무엇인가요?

Q. 그렇다면 검증은 왜 이렇게 어렵고 오래 걸릴까요?

가장 빠른 AI 뉴스

Q. 이 문제를 해결하기 위한 셀렉트스타의 접근은 무엇인가요?

Q. 자동화하면 얼마나 빨라지나요?

Q. 평가를 ‘어떤 방식’으로 진행하나요?

조직/서비스별로 반드시 반영해야 하는 ‘내부 기준’이 중요

Q. 데이터 설계부터 평가·레드팀까지, 전체 과정은 어떻게 관리하나요?

Q. “검증이 끝났으면, 이제 모델은 완성된 건가요?”

Q. AI 검증을 충분히 하지 않는 기업에게 한마디 한다면?

소버린 AI, 왜 중요한가

“AI란 끊임없는 육아다”

🎥 방송 다시 보기

Your AI Data Standard

라이선스 해결된 데이터셋 구매

인공지능 도입 및 데이터 구축

Related Posts

셀렉트스타, 중기부 ‘초격차 스타트업 프로젝트’ 선정

OASec 2026에서 만나요!

셀렉트스타, SOC2 Type 2 인증 획득

AI Data

AI Evaluation

Resources

IR

Company