VibeThinker-3B: SFT+GRPO로 Opus 4.5 추론 성능을 넘긴 3B 모델

2 hours ago 2
  • VibeThinker-3B는 3B 파라미터만으로 검증 가능한 추론을 어디까지 압축할 수 있는지 실험한 소형 밀집 모델임
  • 학습 파이프라인은 Spectrum-to-Signal 사후학습을 바탕으로 커리큘럼 지도 미세조정, 다중 도메인 강화학습, 오프라인 자기증류를 결합함
  • AIME26은 94.3점, CLR 적용 시 97.1점을 기록했고 LiveCodeBench v6 Pass@1 80.2, 최근 미공개 LeetCode 콘테스트 수락률 96.1%도 보고됨
  • DeepSeek V3.2, GLM-5, Gemini 3 Pro 같은 훨씬 큰 플래그십 모델과 비슷하거나 더 높은 성능대에 들어가면서도, IFEval 93.4점으로 엄격한 지시 제어성을 유지함
  • Parametric Compression-Coverage Hypothesis는 검증 가능한 추론은 작은 reasoning core에 압축될 수 있지만, 개방형 지식과 범용 역량에는 더 넓은 파라미터 커버리지가 필요하다고 봄

3B 모델로 검증 가능한 추론을 밀어붙인 실험

  • VibeThinker-3B는 3B 파라미터 규모의 소형 밀집 모델임
  • 목표는 엄격한 소형 모델 체제에서도 검증 가능한 추론 성능을 얼마나 끌어올릴 수 있는지 확인하는 데 있음
  • 사후학습은 Spectrum-to-Signal 패러다임 위에서 구성됨
    • 커리큘럼 기반 지도 미세조정
    • 다중 도메인 강화학습
    • 오프라인 자기증류
  • 이번 결과는 이전 1.5B 작업을 확장한 흐름에 있음

평가에서 나타난 성능 범위

  • 수학·코딩·지시 수행 평가에서 frontier급 성능을 보임
    • AIME26: 94.3점
    • AIME26 + CLR: 97.1점
    • LiveCodeBench v6: Pass@1 80.2
    • 최근 미공개 LeetCode 콘테스트: 96.1% 수락률
    • IFEval: 93.4점
  • CLR은 Claim-Level Reliability Assessment를 뜻하며, claim-level test-time scaling 전략임
  • Figure 1의 비교 대상에는 Qwen3.6 Plus, Gemini 3 Pro, GLM-5, Kimi K2.5, Claude Opus 4.5가 포함됨
  • 보고된 결과상 VibeThinker-3B는 DeepSeek V3.2, GLM-5, Gemini 3 Pro처럼 훨씬 큰 플래그십 모델과 같거나 더 높은 성능대에 들어갈 수 있음
  • 파라미터 규모 비교에서는 VibeThinker-3B가 3B로 표시됨
    • Qwen3.5-4B: 4B
    • GPT-OSS-20B: 20B
    • MiniMax M2.7: 229B
    • DeepSeek V3.2: 671B
    • GLM-5: 744B
    • Kimi K2.5: 1T
  • Parametric Compression-Coverage Hypothesis는 compact model을 단순한 배포 효율 대체재가 아니라, 파라미터 밀집 역량 영역에서 frontier급 성능에 도달하는 보완 경로로 봄
Read Entire Article