DeepSeek-V3.2 공개 - 오픈 대형 언어 모델의 한계를 확장하다

1 week ago 5

  • DeepSeek-V3.2는 높은 계산 효율성과 추론·에이전트 성능을 결합한 오픈소스 대형 언어 모델
  • 새로운 DeepSeek Sparse Attention(DSA) 구조로 긴 문맥에서도 성능을 유지하며 계산 복잡도를 크게 절감
  • 확장 가능한 강화학습(RL) 프레임워크를 통해 GPT-5 수준의 성능을 달성, 고성능 버전은 Gemini-3.0-Pro와 동등한 추론력 확보
  • 대규모 에이전트형 작업 합성 파이프라인으로 1,800개 환경과 85,000개 프롬프트를 생성, 복잡한 상호작용 환경에서 일반화와 명령 수행력 향상
  • 오픈모델이 폐쇄형 모델과의 격차를 좁히며, 비용 효율적 대안으로 자리매김

DeepSeek-V3.2 개요

  • DeepSeek-V3.2는 오픈소스 LLM의 추론 및 에이전트 성능 한계를 극복하기 위해 설계된 모델
    • DeepSeek Sparse Attention(DSA) , 확장형 강화학습 프레임워크, 대규모 에이전트 작업 합성 파이프라인의 세 가지 핵심 기술로 구성
  • 고성능 버전인 DeepSeek-V3.2-SpecialeGPT-5를 능가하며 Gemini-3.0-Pro와 동등한 수준의 추론 능력을 보유
    • 2025년 국제수학올림피아드(IMO)국제정보올림피아드(IOI) 등에서 금메달 수준의 성과 기록
  • 오픈모델의 효율성과 성능을 동시에 향상시켜 폐쇄형 모델과의 성능 격차를 축소

오픈모델의 한계와 개선 방향

  • 오픈소스 LLM이 폐쇄형 모델에 비해 뒤처지는 이유로 세 가지 한계가 지적됨
    • 기본 어텐션 구조의 비효율성으로 긴 시퀀스 처리 시 계산 부담이 큼
    • 후학습(post-training) 단계의 연산 자원 부족으로 어려운 과제에서 성능 저하
    • 에이전트 일반화 및 명령 수행력 부족으로 실제 응용에서 한계 존재
  • DeepSeek-V3.2는 이를 해결하기 위해 효율적 어텐션 구조, 확장형 RL 학습, 도구 활용형 추론 통합 파이프라인을 도입

DeepSeek Sparse Attention (DSA)

  • DSA는 lightning indexer세밀한 토큰 선택 메커니즘으로 구성
    • lightning indexer는 FP8 정밀도로 작동하며, 각 쿼리 토큰이 선택할 상위 k개의 키-값 쌍을 결정
    • 이를 통해 O(L²) 복잡도를 O(Lk) 로 줄여 긴 문맥에서도 효율적 처리 가능
  • MLA 기반 구현으로 기존 DeepSeek-V3.1-Terminus와 호환 유지
  • 두 단계의 지속 학습 과정 수행
    • Dense Warm-up 단계에서 indexer 초기화
    • Sparse Training 단계에서 전체 모델을 DSA 패턴에 적응시켜 943.7B 토큰 학습

성능 평가 및 효율성

  • DeepSeek-V3.2-Exp는 긴 문맥 처리 효율을 크게 개선하면서도 성능 저하 없이 DeepSeek-V3.1-Terminus와 동등한 결과 유지
  • AA-LCR3Fiction.liveBench 등 독립 벤치마크에서 전작 대비 향상된 추론 점수 기록
  • H800 GPU 클러스터 기준으로 토큰당 비용이 크게 절감되어 엔드투엔드 속도 향상 달성

후학습(Post-Training) 및 강화학습 구조

  • 전문가 증류(Specialist Distillation)혼합형 강화학습(Mixed RL) 을 결합
    • 수학, 프로그래밍, 논리추론, 일반 에이전트, 코드 에이전트, 검색 에이전트 등 6개 전문 도메인 모델을 RL로 학습
    • 각 전문 모델의 데이터를 증류하여 최종 체크포인트 생성
  • Group Relative Policy Optimization(GRPO) 알고리듬을 사용해 추론·에이전트·정렬 학습을 통합
    • 보상 모델, 길이 패널티, 언어 일관성 보상 등을 조합
  • DeepSeek-V3.2-Speciale은 수학적 증명 능력 강화를 위해 DeepSeekMath-V2 데이터와 보상 방식을 추가 적용

강화학습 안정화 기법 (Scaling GRPO)

  • 편향 없는 KL 추정(Unbiased KL Estimate) 으로 안정적 수렴 확보
    • 기존 K3 추정기의 불안정한 그래디언트 문제를 해결
  • Off-Policy Sequence Masking으로 정책 불일치가 큰 음의 샘플을 마스킹, 학습 안정성 향상
  • Keep Routing을 통해 Mixture-of-Experts 모델의 라우팅 일관성 유지
  • Keep Sampling Mask로 top-p, top-k 샘플링 시 정책 간 행동공간 불일치 방지

도구 활용형 추론(Thinking in Tool-Use)

  • Thinking Context Management를 도입해 도구 호출 시 불필요한 재추론 방지
    • 사용자 메시지가 새로 추가될 때만 이전 추론 내용을 삭제
    • 도구 호출 이력은 유지하여 효율적 문맥 관리
  • Cold-Start 단계에서 추론 데이터와 에이전트 데이터를 결합
    • reasoning 데이터는 <think></think> 태그로 추론 경로를 명시
    • 도구 호출을 포함한 시스템 프롬프트로 통합 학습 기반 마련
  • 대규모 에이전트 작업 합성을 통해 1,800개 환경과 85,000개 프롬프트 생성
    • 실제 웹 검색 API, 코드 실행 도구, Jupyter Notebook 등 실환경 기반 RL 학습 수행
    • Search Agent는 다중 에이전트 파이프라인으로 질문 생성, 검증, 보상 평가를 자동화
    • 사실 신뢰성과 실용적 유용성을 동시에 최적화하는 하이브리드 보상 모델 적용

결론

  • DeepSeek-V3.2는 효율적 어텐션 구조와 확장형 RL 학습을 결합해 오픈모델의 한계를 돌파
  • 추론·에이전트 통합 성능에서 폐쇄형 모델과의 격차를 크게 줄이며, 비용 효율적 대안으로 부상
  • 오픈소스 LLM의 지속 가능한 고성능 발전 방향을 제시하는 사례로 평가됨

Read Entire Article