DeepSeek 딥시크, 우리도 깊게 살펴볼까요?

DeepSeek 딥시크, 우리도 깊게 살펴볼까요?

설 연휴 동안 전 세계를 뒤흔든 뉴스가 있습니다. 바로 중국의 AI 스타트업 DeepSeek(딥시크)가 출시한 LLM 모델인 R1의 출시 소식인데요. R1은 단지 성능이 뛰어난 것뿐만 아니라, 경쟁사들에 비해 낮은 비용으로 개발되었습니다. 게다가 무료로 공개되었지요. 샘 올트만은 경쟁을 의식한 듯, R1은 '특히나 가격 대비 좋은 성능'이라고 언급하며 오픈AI는 '당연히 훨씬 좋은 모델들'을 출시할 예정이라고 트윗을 올리기도 했습니다. 

sam altman's tweet on deepseek 샘 올트먼 딥시크 트윗

DeepSeek: 무엇이 특별한가?

딥시크는 R1 모델을 공개하며, 기존 대형 언어 모델들과 경쟁할 만한 성능을 자랑하면서도 상대적으로 저렴한 가격으로 개발했습니다. 이 모델의 공개는 단순히 기술적 진전을 의미하는 것이 아니라, AI 모델 훈련의 방식과 접근 방식까지 바꿀 수 있는 가능성을 시사합니다.

  • 비용 절감과 성능 향상
    R1은 기존 모델들이 수백만 달러 이상의 비용을 들여 훈련되는 것과는 달리, 훨씬 적은 비용으로 개발되었습니다. 딥시크는 ‘강화 학습 자동화’라는 혁신적인 방법을 통해 인간 피드백을 최소화하면서도 우수한 성과를 낼 수 있었습니다.
 

딥시크는 LLM을 훈련하는 전통적인 방법을 넘어서는 방법을 제시했습니다. LLM의 훈련 과정은 두 가지 주요 단계로 나눌 수 있습니다: 프리트레이닝(Pretraining)과 포스트트레이닝(Post-training). 딥시크는 포스트트레이닝 과정에서 인간의 개입을 최소화하고, 컴퓨터가 스스로 모델을 평가하고 학습하도록 했습니다.

  • 강화 학습의 자동화: 딥시크는 강화 학습을 자동화하여, 기존에 인간이 직접 모델에 대한 피드백을 제공했던 단계를 생략했습니다. 이 방식은 특히 수학과 코드 문제에서 뛰어난 성과를 보였으며, 비용 절감에도 큰 도움이 되었습니다.

  • 새로운 알고리즘: Group Relative Policy Optimization (GRPO): 딥시크는 GRPO라는 새로운 알고리즘을 사용해 모델 훈련의 효율성을 극대화했습니다. 기존 강화 학습 방법들은 별도의 예측 모델이 필요했지만, GRPO는 추가적인 모델 없이도 효율적인 훈련을 가능하게 했는데요. GRPO는 LLM의 추론 능력을 향상시키기 위해 설계된 강화 학습 알고리즘입니다. 

deepseek 딥시크

GRPO에 대해 더 알아보자

  • 기본 개념: GRPO는 강화 학습에서의 정책 최적화 방식을 새로운 방식으로 접근합니다. 전통적인 강화 학습 방법은 별도의 비평 모델(critic model)을 사용하여 정책을 평가하고, 이를 통해 학습을 진행합니다. 그러나 GRPO는 그룹 내의 응답들끼리 비교하여 성능을 평가하고, 이를 통해 정책(policy)을 최적화하는 방식을 채택합니다. 즉, 모델은 그룹 내 다른 응답들과 비교하여 성과를 판단하고 이를 바탕으로 최적화하는 방법을 사용합니다.

  • Proximal Policy Optimization (PPO)과의 관계: GRPO는 강화 학습에서 매우 인기 있는 방법 중 하나인 Proximal Policy Optimization (PPO)의 변형으로 분류되는데요. PPO는 클리핑(clipping) 기법을 사용하여 정책 업데이트의 급격한 변화를 방지하고 안정적인 학습을 가능하게 합니다. GRPO는 PPO와 유사한 방식으로 동작하지만, 비평 모델 대신 그룹 내 성과 비교를 사용하여 더 효율적인 최적화가 가능합니다.

  • 계산 복잡도 감소: GRPO는 전통적인 강화 학습 알고리즘에 비해 계산 복잡도(computational complexity)를 크게 줄일 수 있습니다. 이유는 가치 함수 추정기를 사용하지 않기 때문입니다. 전통적인 알고리즘에서는 가치 함수 추정기를 통해 모델이 각 상태에 대한 가치를 평가해야 했지만, GRPO는 이 과정을 생략하고 그룹 내 상대적 성과를 사용하여 계산을 더 단순화합니다.

  • 학습 성과: GRPO는 그룹 내의 상대적인 성과를 최적화하므로, 모델은 더 효율적으로 학습할 수 있습니다. 이는 특히 LLM에서 중요한데요. LLM은 매우 복잡한 응답을 생성하고 이를 평가하는 과정이 중요한 학습 요소이기 때문입니다.

빠르게 치고 올라오는 DeepSeek

  • 딥시크의 R1 모델은 가격 대비 성능에서 큰 주목을 받으며, AI 산업에 새로운 경쟁 구도를 형성하고 있습니다. 작년에 발표한 V3 모델과, 얼마 전 발표한 R1 모델을 가볍게 살펴볼까요?

    • V3: V3 모델은 OpenAI의 GPT-4와 비교될 정도로 뛰어난 성능을 자랑하며, 최신 Nvidia H800 칩을 사용하여 훈련되었습니다. 이 모델은 대형 언어 모델의 훈련에 드는 비용을 6백만 달러 이하로 줄였으며, 비용 대비 성능에서 큰 주목을 받고 있습니다.

    • R1: R1 모델은 최신 모델로, 논리적 사고와 수학 문제 해결 능력에서 뛰어난 성능을 보입니다. R1은 비용 효율성이 뛰어난 모델로, OpenAI의 GPT-3 모델보다 20배에서 50배 저렴하게 사용할 수 있다고 알려져 있습니다. 이 모델은 강화 학습 자동화 방식을 채택하여, 인간의 개입을 최소화하면서도 우수한 성과를 내고 있습니다.


    다만 한 가지, 검열 문제가 논란이 있습니다. 딥시크의 R1 모델은 특정 민감한 주제에 대해 검열을 적용하고 있다는 점에서 일부 논란이 있습니다. 예를 들어, 대만이나 천안문 관련 질문에 대해서는 답변을 거부하거나 제한적으로 응답을 제공합니다. 이는 중국 정부의 법적 요구사항에 따라 이루어진 것으로, 중국 내에서는 AI 모델이 반드시 정보 통제를 준수해야 하기 때문이지요. 이러한 검열 기능은 딥시크의 공식 앱을 통해 사용될 때만 나타나며, 오픈 소스 버전에서는 일부 우회가 가능하다는 점에서 글로벌 사용자들의 관심을 끌고 있습니다.

최근 딥시크 앱은 Apple의 미국 App Store에서 ChatGPT를 제치고 1위를 달성했습니다. 국내에서는 주간 사용자가 120만명을 돌파하며 ChatGPT 이어 2위를 달성했는데요. 현재 중국 정부는 딥시크의 성공을 AI 자립 목표의 중요한 이정표로 보고 있습니다. 미국이 AI 전쟁에 출사표를 던지자마자 바로 중국의 기습 공격이 시작되었는데요. 부디 서로의 헛점을 찾기보다는 선의의 경쟁이 되기를, 그리고 무엇보다 안전한 AI를 위한 고민과 노력이 우선시 되기를 바랍니다. 

Your AI Data Standard

라이선스 해결된 데이터셋 구매
인공지능 도입 및 데이터 구축
Related Posts