DeepSeekMath-V2 공개 - 자기 검증 가능한 수학적 추론을 향하여

1 week ago 1

대형 언어 모델의 수학적 추론 능력 향상을 목표로, 단순한 정답 정확도를 넘어 추론 과정의 검증 가능성을 강화한 모델
기존 강화학습 기반 접근이 최종 답 보상 중심으로 한계를 보인 점을 개선해, 자기 검증(self-verification) 메커니즘을 도입
정리 증명(theorem proving) 과 같은 단계별 논리 전개가 필요한 문제에서, 생성 모델이 스스로 오류를 찾아 수정하도록 설계
검증기(verifier)를 보상 모델로 활용하고, 검증 계산량을 확장해 어려운 증명 데이터를 자동 라벨링함으로써 지속적 성능 향상
IMO 2025, CMO 2024, Putnam 2024 등에서 최고 수준의 점수를 기록하며, 자기 검증형 수학 AI의 실현 가능성을 입증

1. 소개 (Introduction)

대형 언어 모델(LLM)은 수학적 추론에서 큰 진전을 이루었으며, 이는 AI 연구의 중요한 시험대 역할을 함
- 강화학습을 통해 정답 보상 기반 학습을 수행하면서 AIME, HMMT 등 대회에서 1년 만에 상위권 성능 달성
그러나 단순히 최종 답의 정확도를 높이는 접근은 한계가 있음
- 정답이 맞더라도 추론 과정의 타당성이 보장되지 않으며, 정리 증명처럼 단계별 논리 전개가 필요한 문제에는 적용 불가
이를 해결하기 위해 자기 검증(self-verification) 개념을 도입, 추론의 포괄성과 엄밀성을 평가하도록 설계
- 특히 해답이 알려지지 않은 문제(open problems) 에서 테스트 시 계산 확장을 위해 필수적 요소로 제시
연구팀은 정확하고 신뢰할 수 있는 LLM 기반 검증기(verifier) 를 훈련하고, 이를 보상 모델로 활용해 증명 생성기(generator) 를 학습
- 생성기가 스스로 증명 내 오류를 찾아 수정하도록 유도
생성기의 성능이 향상될수록 검증 난이도도 높아지므로, 검증 계산을 확장(scale verification compute) 하여 새로운 어려운 증명을 자동 라벨링
- 이를 통해 검증기 성능을 지속적으로 개선
결과 모델 DeepSeekMath-V2 는 IMO 2025, CMO 2024에서 금메달 수준, Putnam 2024에서 118/120점을 기록
- 이러한 결과는 자기 검증형 수학적 추론이 실현 가능한 연구 방향임을 보여줌