DeepSeekMath-V2 공개 - 자기 검증 가능한 수학적 추론을 향하여

1 week ago 1

  • 대형 언어 모델의 수학적 추론 능력 향상을 목표로, 단순한 정답 정확도를 넘어 추론 과정의 검증 가능성을 강화한 모델
  • 기존 강화학습 기반 접근이 최종 답 보상 중심으로 한계를 보인 점을 개선해, 자기 검증(self-verification) 메커니즘을 도입
  • 정리 증명(theorem proving) 과 같은 단계별 논리 전개가 필요한 문제에서, 생성 모델이 스스로 오류를 찾아 수정하도록 설계
  • 검증기(verifier)를 보상 모델로 활용하고, 검증 계산량을 확장해 어려운 증명 데이터를 자동 라벨링함으로써 지속적 성능 향상
  • IMO 2025, CMO 2024, Putnam 2024 등에서 최고 수준의 점수를 기록하며, 자기 검증형 수학 AI의 실현 가능성을 입증

1. 소개 (Introduction)

  • 대형 언어 모델(LLM)은 수학적 추론에서 큰 진전을 이루었으며, 이는 AI 연구의 중요한 시험대 역할을 함
    • 강화학습을 통해 정답 보상 기반 학습을 수행하면서 AIME, HMMT 등 대회에서 1년 만에 상위권 성능 달성
  • 그러나 단순히 최종 답의 정확도를 높이는 접근은 한계가 있음
    • 정답이 맞더라도 추론 과정의 타당성이 보장되지 않으며, 정리 증명처럼 단계별 논리 전개가 필요한 문제에는 적용 불가
  • 이를 해결하기 위해 자기 검증(self-verification) 개념을 도입, 추론의 포괄성과 엄밀성을 평가하도록 설계
    • 특히 해답이 알려지지 않은 문제(open problems) 에서 테스트 시 계산 확장을 위해 필수적 요소로 제시
  • 연구팀은 정확하고 신뢰할 수 있는 LLM 기반 검증기(verifier) 를 훈련하고, 이를 보상 모델로 활용해 증명 생성기(generator) 를 학습
    • 생성기가 스스로 증명 내 오류를 찾아 수정하도록 유도
  • 생성기의 성능이 향상될수록 검증 난이도도 높아지므로, 검증 계산을 확장(scale verification compute) 하여 새로운 어려운 증명을 자동 라벨링
    • 이를 통해 검증기 성능을 지속적으로 개선
  • 결과 모델 DeepSeekMath-V2IMO 2025, CMO 2024에서 금메달 수준, Putnam 2024에서 118/120점을 기록
    • 이러한 결과는 자기 검증형 수학적 추론이 실현 가능한 연구 방향임을 보여줌

2. 평가 결과 (Evaluation Results)

  • 평가에는 DeepMind의 DeepThink IMO-Gold 팀이 개발한 IMO-ProofBench 와 최근 수학 대회(IMO 2025, CMO 2024, Putnam 2024)가 사용됨
    • 구체적 수치나 세부 결과는 본문에 명시되지 않음

3. 모델 구조 및 기반 (Model Architecture)

  • DeepSeekMath-V2DeepSeek-V3.2-Exp-Base 모델을 기반으로 구축
    • 추론(inference) 관련 지원은 DeepSeek-V3.2-Exp GitHub 저장소 참고

4. 라이선스 (License)

  • 모델과 가중치는 Apache License 2.0 하에 배포

5. 인용 정보 (Citation)

  • 연구 저자와 논문 정보가 명시되어 있으며, 제목은
    “DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning” (2025)

6. 기타 정보

  • 최근 한 달간 다운로드 수 4,434회
  • 모델 트리 구성 시 기본 모델이 자기 참조 루프를 형성하여 트리 생성 불가로 표시됨

Read Entire Article