-
DeepSeek-V3.2는 높은 계산 효율성과 추론·에이전트 성능을 결합한 오픈소스 대형 언어 모델
- 새로운 DeepSeek Sparse Attention(DSA) 구조로 긴 문맥에서도 성능을 유지하며 계산 복잡도를 크게 절감
-
확장 가능한 강화학습(RL) 프레임워크를 통해 GPT-5 수준의 성능을 달성, 고성능 버전은 Gemini-3.0-Pro와 동등한 추론력 확보
-
대규모 에이전트형 작업 합성 파이프라인으로 1,800개 환경과 85,000개 프롬프트를 생성, 복잡한 상호작용 환경에서 일반화와 명령 수행력 향상
- 오픈모델이 폐쇄형 모델과의 격차를 좁히며, 비용 효율적 대안으로 자리매김
DeepSeek-V3.2 개요
- DeepSeek-V3.2는 오픈소스 LLM의 추론 및 에이전트 성능 한계를 극복하기 위해 설계된 모델
-
DeepSeek Sparse Attention(DSA) , 확장형 강화학습 프레임워크, 대규모 에이전트 작업 합성 파이프라인의 세 가지 핵심 기술로 구성
- 고성능 버전인 DeepSeek-V3.2-Speciale은 GPT-5를 능가하며 Gemini-3.0-Pro와 동등한 수준의 추론 능력을 보유
- 2025년 국제수학올림피아드(IMO) 및 국제정보올림피아드(IOI) 등에서 금메달 수준의 성과 기록
- 오픈모델의 효율성과 성능을 동시에 향상시켜 폐쇄형 모델과의 성능 격차를 축소
오픈모델의 한계와 개선 방향
- 오픈소스 LLM이 폐쇄형 모델에 비해 뒤처지는 이유로 세 가지 한계가 지적됨
-
기본 어텐션 구조의 비효율성으로 긴 시퀀스 처리 시 계산 부담이 큼
-
후학습(post-training) 단계의 연산 자원 부족으로 어려운 과제에서 성능 저하
-
에이전트 일반화 및 명령 수행력 부족으로 실제 응용에서 한계 존재
- DeepSeek-V3.2는 이를 해결하기 위해 효율적 어텐션 구조, 확장형 RL 학습, 도구 활용형 추론 통합 파이프라인을 도입
DeepSeek Sparse Attention (DSA)
- DSA는 lightning indexer와 세밀한 토큰 선택 메커니즘으로 구성
- lightning indexer는 FP8 정밀도로 작동하며, 각 쿼리 토큰이 선택할 상위 k개의 키-값 쌍을 결정
- 이를 통해 O(L²) 복잡도를 O(Lk) 로 줄여 긴 문맥에서도 효율적 처리 가능
-
MLA 기반 구현으로 기존 DeepSeek-V3.1-Terminus와 호환 유지
-
두 단계의 지속 학습 과정 수행
- Dense Warm-up 단계에서 indexer 초기화
- Sparse Training 단계에서 전체 모델을 DSA 패턴에 적응시켜 943.7B 토큰 학습
성능 평가 및 효율성
-
DeepSeek-V3.2-Exp는 긴 문맥 처리 효율을 크게 개선하면서도 성능 저하 없이 DeepSeek-V3.1-Terminus와 동등한 결과 유지
-
AA-LCR3 및 Fiction.liveBench 등 독립 벤치마크에서 전작 대비 향상된 추론 점수 기록
-
H800 GPU 클러스터 기준으로 토큰당 비용이 크게 절감되어 엔드투엔드 속도 향상 달성
후학습(Post-Training) 및 강화학습 구조
-
전문가 증류(Specialist Distillation) 와 혼합형 강화학습(Mixed RL) 을 결합
- 수학, 프로그래밍, 논리추론, 일반 에이전트, 코드 에이전트, 검색 에이전트 등 6개 전문 도메인 모델을 RL로 학습
- 각 전문 모델의 데이터를 증류하여 최종 체크포인트 생성
-
Group Relative Policy Optimization(GRPO) 알고리듬을 사용해 추론·에이전트·정렬 학습을 통합
-
보상 모델, 길이 패널티, 언어 일관성 보상 등을 조합
-
DeepSeek-V3.2-Speciale은 수학적 증명 능력 강화를 위해 DeepSeekMath-V2 데이터와 보상 방식을 추가 적용
강화학습 안정화 기법 (Scaling GRPO)
-
편향 없는 KL 추정(Unbiased KL Estimate) 으로 안정적 수렴 확보
- 기존 K3 추정기의 불안정한 그래디언트 문제를 해결
-
Off-Policy Sequence Masking으로 정책 불일치가 큰 음의 샘플을 마스킹, 학습 안정성 향상
-
Keep Routing을 통해 Mixture-of-Experts 모델의 라우팅 일관성 유지
-
Keep Sampling Mask로 top-p, top-k 샘플링 시 정책 간 행동공간 불일치 방지
도구 활용형 추론(Thinking in Tool-Use)
-
Thinking Context Management를 도입해 도구 호출 시 불필요한 재추론 방지
- 사용자 메시지가 새로 추가될 때만 이전 추론 내용을 삭제
- 도구 호출 이력은 유지하여 효율적 문맥 관리
-
Cold-Start 단계에서 추론 데이터와 에이전트 데이터를 결합
- reasoning 데이터는 <think></think> 태그로 추론 경로를 명시
- 도구 호출을 포함한 시스템 프롬프트로 통합 학습 기반 마련
-
대규모 에이전트 작업 합성을 통해 1,800개 환경과 85,000개 프롬프트 생성
- 실제 웹 검색 API, 코드 실행 도구, Jupyter Notebook 등 실환경 기반 RL 학습 수행
-
Search Agent는 다중 에이전트 파이프라인으로 질문 생성, 검증, 보상 평가를 자동화
-
사실 신뢰성과 실용적 유용성을 동시에 최적화하는 하이브리드 보상 모델 적용
결론
- DeepSeek-V3.2는 효율적 어텐션 구조와 확장형 RL 학습을 결합해 오픈모델의 한계를 돌파
-
추론·에이전트 통합 성능에서 폐쇄형 모델과의 격차를 크게 줄이며, 비용 효율적 대안으로 부상
- 오픈소스 LLM의 지속 가능한 고성능 발전 방향을 제시하는 사례로 평가됨