안녕하세요, <셀렉트 다이제스트> 에디터 정인영입니다.

오늘은 저희 셀렉트스타 동료들의 이야기를 들려드리는 인터뷰 시리즈의 마지막 레터입니다. 셀렉트스타는 국내 최초이자 세계 최대 규모 AI 레드팀 챌린지를 열고, 국내 최초로 생성형 AI 신뢰성 검증 자동화 솔루션인 Datumo Platform 개발하는 등, 신뢰할 수 있는 AI를 위해 열심히 나아가고 있는데요.

셀렉트스타의 자랑인 Datumo Platform의 기획과 기술, 그리고 전략과 영업을 각각 맡고 있는 저희 동료들의 이야기를 들려드리겠습니다. 가시죠! 🚀

📰 1편: <독자 AI 파운데이션 모델 프로젝트> 실무자 인터뷰
📰 2편: <K-콘텐츠 AI 혁신 선도 프로젝트> 실무자 인터뷰

1. 시장의 변화

Q. 안녕하세요, 간단한 자기소개 부탁드려요!

[종영] 안녕하세요, 저는 셀렉트스타 플랫폼 사업본부장으로서, AI 신뢰성 평가 플랫폼 Datumo Platform과 AI 신뢰성 평가 컨설팅 비즈니스를 담당하고 있습니다.

[문휘] 안녕하세요, 저는 셀렉트스타에서 Datumo Platform을 총괄하는 CPO를 담당하고 있습니다.

셀렉트스타 CPO 전문휘(왼쪽)와 플랫폼 사업본부장 이종영(오른쪽)

Q. AI 산업이 무척 빠르게 변화하고 있습니다. 최근 현장에서 만나는 기업 담당자들의 고민도 확실히 달라졌을 것 같은데요. 예전과 다른, 관심사의 이동을 좀 느끼시나요?

[종영] 초기에는 AI가 단순 업무 지원 도구로서 활용되었다면, 최근에는 심심하거나 고민이 있을 때 AI를 상담사나 친구처럼 대하며 감정을 나누는, 인간적 역할이 점점 강해지고 있잖아요? 그래서인지 요즘은 안전하고 신뢰할 수 있는 AI 구축을 어떻게 할 것인지에 대한 고민이 많아진 걸 느낍니다. 또 서비스에 특화된 AI라든가, 국가별 언어적, 문화적, 그리고 법적 특성을 반영한 AI를 구축하는 데도 관심이 쏠리고 있습니다.

[문휘] 맞아요. 예전에는 AI 서비스를 '어떻게 평가해야 하는가'라는 방법론 자체에 대한 질문이 더 많았다면, 최근 들어서는 실제 도입에서의 격차에 대한 문의가 더 많습니다. 실제 여러 평가를 시도해봤지만 막상 직접 서비스를 사용해 보면 평가 결과와 차이가 있다는 거죠.

Q. LLM이 대중적으로 활용되면서 AI 서비스 개발 과정에도 변화가 생겼을까요?

[종영] LLM은 기존과 달리 자연어를 기반으로 어떤 요청이라도 다 수용할 수 있는 구조적 특수성을 가지고 있습니다. 그러면서 사용자들이 LLM에 할 수 있는 질문의 주제와 범위가 무한대로 확장되다 보니, 예상할 수 없는 사용자의 질문에 대해 적절한 답을 제공하는 AI의 개발이 필요해졌어요. 따라서 정해진 형식으로 사용자에게 응답하던 기존 IT 시스템과는 다르게, 답변의 불확실성을 관리하고 극복해야 한다는 문제가 생겼습니다.

2. Datumo Platform

Q. 셀렉트스타는 AI 신뢰성 평가를 위해 어떤 서비스를 제공하고 있나요?

[종영] AI의 신뢰성을 평가하기 위해서는 AI 신뢰성 평가 지표 설계 및 평가 데이터 구축, 평가 수행, 평가 결과 분석 및 개선, 이 세 가지 업무가 서비스 출시 전에 필수적으로 수행되어야 하는데요. 현재 셀렉트스타는 이 세 필수 영역을 해결하는 서비스를 제공하고 있습니다.

평가 지표 설계 컨설팅, 평가 데이터 구축 서비스, 평가 수행/분석/레드티밍 자동화 플랫폼(Datumo Platform), 그리고 개선 방안 컨설팅 서비스를 제공하고 있습니다. 향후에는 서비스 기획과 개발, 그리고 운영 전반에 걸친 AI 라이프사이클 종합 분석 플랫폼 제공을 목표로 연구 개발에 박차를 가하고 있습니다.

Q. Datumo Platform이 AI 신뢰성 평가 플랫폼이잖아요? 그런데 챗GPT나 제미나이와 같은 모델들을 서비스에 그대로 활용해도 잘 작동하지 않나요? '이미 좋은' 모델도 평가가 필요한지 궁금해요.

[종영] 일상적인 생활에서 활용하는 데는 챗GPT나 제미나이와 같은 범용 모델을 사용해도 문제가 되지 않습니다. 하지만 기업이 달성하고자 하는 특정 목적을 위해 범용 AI 모델을 사용하는 데는 생각보다 많은 어려움이 존재합니다.

세무 상담을 전문적으로 해 주는 AI 서비스를 개발한다고 가정한다면, 대한민국의 최신 세법이 충실히 학습된 AI 모델이 필요하겠죠. 또, 농담을 잘하는 AI보다는 사실에 근거해 100% 정확한 답변을 제공하는 성격의 서비스가 필요할 텐데요. 범용 AI 모델은 대중적인 활용에 최적화 되어 있기 때문에 이처럼 서비스의 특성을 일일이 반영하기는 어렵습니다.

Q. 그럼 AI 신뢰성이란 단순히 '위험하지 않은 답'에 국한된 평가 지표는 아니군요?

[종영] 그렇죠. AI의 신뢰성을 따지는 건 '이 사람을 신뢰할 수 있는가?'라는 질문과 동일하다고 생각해요. 우리가 누군가를 신뢰할 수 있다는 건 단순히 이 사람이 거짓말을 하지 않는지만을 의미하지는 않잖아요. 지금의 AI 에이전트 및 서비스는 결국 우리와 함께 일을 하는 동료라고 볼 수 있을 텐데요. 기업이 AI를 도입했을 때, '그를 믿고 일을 맡길 수 있는가'를 평가하는 거라고 생각합니다. 그런 의미에서 단순 정확도를 넘어, 목적 부합성이라든가 응답의 톤(tone) 등, 종합적인 요소가 모여 신뢰성을 의미한다고 볼 수 있습니다.

Q. 기존 IT 서비스 개발과 비교했을 때 AI 서비스 개발만이 가지는 특수한 어려움이 있을까요?

[문휘] 현재 AI 서비스를 만드는 수많은 조직이 공통으로 겪는 숙제가 바로 사람 간의 격차라고 생각합니다. 지금 시장은 AI 연구원과 서비스 기획자 역할이 마구 섞이고 있는 시기거든요. 하지만 연구원과 기획자의 관점은 다릅니다. 예를 들어 어린이를 위한 챗봇을 만든다고 할 때, 말하는 방식이나 친근한 정도는 도메인 전문가인 기획자의 영역이지, 연구원이 고민할 전문성은 아니거든요.

더 힘든 점은 AI 개발의 특이성입니다. AI는 답변이 마음에 안 든다고 하나를 수정하면 멀쩡하던 다른 곳에서 갑자기 할루시네이션이 터지는 식의 무한 루프가 발생할 수 있습니다. 결국 기획자가 단순히 '이 답변은 별로니 이렇게 고쳐주세요'라고 말하는 식의 접근은 한계가 있고, 저희는 이 격차를 줄여주는 핵심이 '평가'라고 보고 있어요. 하나를 개선했을 때 다른 영역이 망가지지 않는지 자동화된 평가로 끊임없이 검증하는 과정이 필요하다고 생각합니다.

[종영] 결론적으로 기획자와 개발자 사이의 가장 큰 난관은 '지표의 충돌'에 있다고 봅니다. 기획안대로 완벽하게 구현해서 론칭하고 싶어도, 이런 기술적 특성 때문에 쉽지 않거든요. 기획과 개발, 그리고 실제 론칭 사이의 간극을 조율하는 것이 AI 서비스 구축에서 가장 어려운 부분인 것 같습니다.

가장 빠른 AI 뉴스

가장 빠른 AI 뉴스 구독하기

3. AI의 방향성

Q. 시중에 이미 AI 모델의 성능을 측정하는 벤치마크 지표들이 많은데, Datumo Platform과 같은 플랫폼을 사용해야 하는 이유가 있을까요?

[문휘] 벤치마크 점수라는 숫자보다, ‘이 서비스가 실제로 어떻게 작동하고 있는가’를 구체적으로 파악하는 것이 평가의 본질이라고 생각해요. 의도한 대로 사용자가 서비스를 활용하고 있는지를 봐야 하니까요. Datumo platform은 서비스 특화된 지표 설계가 가능한 데다가, 고도화된 대시보드를 제공하고 있기 때문에 서비스의 현 수준을 파악하기 쉽습니다.

[종영] 서비스를 어떤 기준으로, 어떻게 평가해야 의도한 대로 작동하는 서비스가 될 수 있는지를 파악하는 게 무척 중요하죠. Datumo Platform은 적합한 평가 기준을 정하고, 그 기준에 맞춰서 서비스를 평가합니다. 특히, 사용자가 많이 찾는 서비스가 되기 위해서는 지속적으로 업데이트를 해야 할 텐데요. 업데이트하는 과정에서 축적된 평가 데이터를 기반으로 개선점이나 확장 가능성과 같은 인사이트를 확보할 수 있습니다. 서비스가 여럿인 기업의 경우에는 조직 전체의 AI 서비스 거버넌스 체계를 확립할 수 있죠.