VibeThinker-3B: SFT+GRPO로 Opus 4.5 추론 성능을 넘긴 3B 모델

2 hours ago 2

VibeThinker-3B는 3B 파라미터만으로 검증 가능한 추론을 어디까지 압축할 수 있는지 실험한 소형 밀집 모델임
학습 파이프라인은 Spectrum-to-Signal 사후학습을 바탕으로 커리큘럼 지도 미세조정, 다중 도메인 강화학습, 오프라인 자기증류를 결합함
AIME26은 94.3점, CLR 적용 시 97.1점을 기록했고 LiveCodeBench v6 Pass@1 80.2, 최근 미공개 LeetCode 콘테스트 수락률 96.1%도 보고됨
DeepSeek V3.2, GLM-5, Gemini 3 Pro 같은 훨씬 큰 플래그십 모델과 비슷하거나 더 높은 성능대에 들어가면서도, IFEval 93.4점으로 엄격한 지시 제어성을 유지함
Parametric Compression-Coverage Hypothesis는 검증 가능한 추론은 작은 reasoning core에 압축될 수 있지만, 개방형 지식과 범용 역량에는 더 넓은 파라미터 커버리지가 필요하다고 봄

3B 모델로 검증 가능한 추론을 밀어붙인 실험

VibeThinker-3B는 3B 파라미터 규모의 소형 밀집 모델임
목표는 엄격한 소형 모델 체제에서도 검증 가능한 추론 성능을 얼마나 끌어올릴 수 있는지 확인하는 데 있음
사후학습은 Spectrum-to-Signal 패러다임 위에서 구성됨
- 커리큘럼 기반 지도 미세조정
- 다중 도메인 강화학습
- 오프라인 자기증류
이번 결과는 이전 1.5B 작업을 확장한 흐름에 있음

수학·코딩·지시 수행 평가에서 frontier급 성능을 보임
- AIME26: 94.3점
- AIME26 + CLR: 97.1점
- LiveCodeBench v6: Pass@1 80.2
- 최근 미공개 LeetCode 콘테스트: 96.1% 수락률
- IFEval: 93.4점
CLR은 Claim-Level Reliability Assessment를 뜻하며, claim-level test-time scaling 전략임
Figure 1의 비교 대상에는 Qwen3.6 Plus, Gemini 3 Pro, GLM-5, Kimi K2.5, Claude Opus 4.5가 포함됨
보고된 결과상 VibeThinker-3B는 DeepSeek V3.2, GLM-5, Gemini 3 Pro처럼 훨씬 큰 플래그십 모델과 같거나 더 높은 성능대에 들어갈 수 있음
파라미터 규모 비교에서는 VibeThinker-3B가 3B로 표시됨
- Qwen3.5-4B: 4B
- GPT-OSS-20B: 20B
- MiniMax M2.7: 229B
- DeepSeek V3.2: 671B
- GLM-5: 744B
- Kimi K2.5: 1T
Parametric Compression-Coverage Hypothesis는 compact model을 단순한 배포 효율 대체재가 아니라, 파라미터 밀집 역량 영역에서 frontier급 성능에 도달하는 보완 경로로 봄