DeepSeek-V3.2 공개 - 오픈 대형 언어 모델의 한계를 확장하다

1 week ago 5

DeepSeek-V3.2는 높은 계산 효율성과 추론·에이전트 성능을 결합한 오픈소스 대형 언어 모델
새로운 DeepSeek Sparse Attention(DSA) 구조로 긴 문맥에서도 성능을 유지하며 계산 복잡도를 크게 절감
확장 가능한 강화학습(RL) 프레임워크를 통해 GPT-5 수준의 성능을 달성, 고성능 버전은 Gemini-3.0-Pro와 동등한 추론력 확보
대규모 에이전트형 작업 합성 파이프라인으로 1,800개 환경과 85,000개 프롬프트를 생성, 복잡한 상호작용 환경에서 일반화와 명령 수행력 향상
오픈모델이 폐쇄형 모델과의 격차를 좁히며, 비용 효율적 대안으로 자리매김

DeepSeek-V3.2 개요

DeepSeek-V3.2는 오픈소스 LLM의 추론 및 에이전트 성능 한계를 극복하기 위해 설계된 모델
- DeepSeek Sparse Attention(DSA) , 확장형 강화학습 프레임워크, 대규모 에이전트 작업 합성 파이프라인의 세 가지 핵심 기술로 구성
고성능 버전인 DeepSeek-V3.2-Speciale은 GPT-5를 능가하며 Gemini-3.0-Pro와 동등한 수준의 추론 능력을 보유
- 2025년 국제수학올림피아드(IMO) 및 국제정보올림피아드(IOI) 등에서 금메달 수준의 성과 기록
오픈모델의 효율성과 성능을 동시에 향상시켜 폐쇄형 모델과의 성능 격차를 축소

오픈소스 LLM이 폐쇄형 모델에 비해 뒤처지는 이유로 세 가지 한계가 지적됨
- 기본 어텐션 구조의 비효율성으로 긴 시퀀스 처리 시 계산 부담이 큼
- 후학습(post-training) 단계의 연산 자원 부족으로 어려운 과제에서 성능 저하
- 에이전트 일반화 및 명령 수행력 부족으로 실제 응용에서 한계 존재
DeepSeek-V3.2는 이를 해결하기 위해 효율적 어텐션 구조, 확장형 RL 학습, 도구 활용형 추론 통합 파이프라인을 도입

DSA는 lightning indexer와 세밀한 토큰 선택 메커니즘으로 구성
- lightning indexer는 FP8 정밀도로 작동하며, 각 쿼리 토큰이 선택할 상위 k개의 키-값 쌍을 결정
- 이를 통해 O(L²) 복잡도를 O(Lk) 로 줄여 긴 문맥에서도 효율적 처리 가능
MLA 기반 구현으로 기존 DeepSeek-V3.1-Terminus와 호환 유지
두 단계의 지속 학습 과정 수행
- Dense Warm-up 단계에서 indexer 초기화
- Sparse Training 단계에서 전체 모델을 DSA 패턴에 적응시켜 943.7B 토큰 학습

DeepSeek-V3.2-Exp는 긴 문맥 처리 효율을 크게 개선하면서도 성능 저하 없이 DeepSeek-V3.1-Terminus와 동등한 결과 유지
AA-LCR3 및 Fiction.liveBench 등 독립 벤치마크에서 전작 대비 향상된 추론 점수 기록
H800 GPU 클러스터 기준으로 토큰당 비용이 크게 절감되어 엔드투엔드 속도 향상 달성

전문가 증류(Specialist Distillation) 와 혼합형 강화학습(Mixed RL) 을 결합
- 수학, 프로그래밍, 논리추론, 일반 에이전트, 코드 에이전트, 검색 에이전트 등 6개 전문 도메인 모델을 RL로 학습
- 각 전문 모델의 데이터를 증류하여 최종 체크포인트 생성
Group Relative Policy Optimization(GRPO) 알고리듬을 사용해 추론·에이전트·정렬 학습을 통합
- 보상 모델, 길이 패널티, 언어 일관성 보상 등을 조합
DeepSeek-V3.2-Speciale은 수학적 증명 능력 강화를 위해 DeepSeekMath-V2 데이터와 보상 방식을 추가 적용

편향 없는 KL 추정(Unbiased KL Estimate) 으로 안정적 수렴 확보
- 기존 K3 추정기의 불안정한 그래디언트 문제를 해결
Off-Policy Sequence Masking으로 정책 불일치가 큰 음의 샘플을 마스킹, 학습 안정성 향상
Keep Routing을 통해 Mixture-of-Experts 모델의 라우팅 일관성 유지
Keep Sampling Mask로 top-p, top-k 샘플링 시 정책 간 행동공간 불일치 방지

Thinking Context Management를 도입해 도구 호출 시 불필요한 재추론 방지
- 사용자 메시지가 새로 추가될 때만 이전 추론 내용을 삭제
- 도구 호출 이력은 유지하여 효율적 문맥 관리
Cold-Start 단계에서 추론 데이터와 에이전트 데이터를 결합
- reasoning 데이터는 <think></think> 태그로 추론 경로를 명시
- 도구 호출을 포함한 시스템 프롬프트로 통합 학습 기반 마련
대규모 에이전트 작업 합성을 통해 1,800개 환경과 85,000개 프롬프트 생성
- 실제 웹 검색 API, 코드 실행 도구, Jupyter Notebook 등 실환경 기반 RL 학습 수행
- Search Agent는 다중 에이전트 파이프라인으로 질문 생성, 검증, 보상 평가를 자동화
- 사실 신뢰성과 실용적 유용성을 동시에 최적화하는 하이브리드 보상 모델 적용