내성 확산 언어 모델(Introspective Diffusion Language Models)

10 hours ago 4
  • I-DLM은 확산 기반 언어 모델이 AR(Autoregressive) 모델 수준의 품질병렬 생성 속도를 동시에 달성한 첫 사례임
  • Introspective Strided Decoding(ISD) 을 통해 한 번의 전방 패스에서 새 토큰 생성과 이전 토큰 검증을 병행함
  • I-DLM-8B는 LLaDA-2.1-mini(16B) 대비 절반의 파라미터로 AIME-24에서 +26점, LiveCodeBench-v6에서 +15점 향상
  • Gated LoRA를 이용해 비트 단위 손실 없는(lossless) 가속을 구현하고, SGLang 인프라와 완전 호환됨
  • 확산 언어 모델이 자기 일관성 학습과 병렬 디코딩 최적화를 통해 실용적 대규모 배포 가능성을 입증함

개요

  • I-DLM(Introspective Diffusion Language Model) 은 기존 확산 언어 모델(DLM) 의 병렬 토큰 생성 능력을 유지하면서, 자기 일관성(introspective consistency) 문제를 해결해 AR 모델 수준의 품질을 달성한 모델임
  • Introspective Strided Decoding(ISD) 을 통해 한 번의 전방 패스로 새 토큰을 생성하면서 이전 토큰을 검증함
  • I-DLM-8B는 동급 규모의 AR 모델과 동일한 품질을 달성한 최초의 DLM으로, LLaDA-2.1-mini(16B) 대비 절반의 파라미터로 AIME-24에서 +26점, LiveCodeBench-v6에서 +15점 향상
  • 높은 동시성(C=64) 환경에서 2.9~4.1배의 처리량(throughput) 을 달성하며, Gated LoRA를 통해 비트 단위 손실 없는(lossless) 가속을 지원함

Introspective Consistency의 필요성

  • AR 모델은 한 번의 전방 패스에서 생성과 자기 검증을 동시에 수행하지만, 기존 DLM은 노이즈 제거(denoising) 만 학습해 자기 일관성이 부족함
  • 기존 DLM의 세 가지 병목 요인
    • 낮은 자기 일관성: SDAR 0.699 vs I-DLM 0.984
    • 비효율적 연산: TiDAR 약 7.8배 오버헤드 vs I-DLM 약 2.5배
    • 인프라 불일치: SDAR slope=84 vs I-DLM=549

I-DLM 방법론

  • Introspective-Consistency Training

    • 사전 학습된 AR 모델을 인과적 어텐션(causal attention), logit shift, 전 마스크(all-masked) 목적 함수를 통해 변환
  • Introspective Strided Decoding(ISD)

    • 한 번의 전방 패스에서 N개의 토큰 생성이전 토큰 검증을 병행
    • p/q 수용 기준(acceptance criterion) 을 사용해 생성 결과를 검증
  • AR-Compatible Serving

    • 엄격한 인과 어텐션 구조로 SGLang 인프라에 직접 통합 가능
    • 별도의 커스텀 인프라 없이 AR 모델과 동일한 서빙 환경에서 동작

성능 결과

  • I-DLM은 동일 규모 AR 모델과 품질이 동등한 최초의 DLM으로, 15개 벤치마크 전반에서 기존 DLM을 초월
  • 주요 벤치마크 결과

    • 지식·추론: ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
    • 수학: AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
    • 코드: HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
    • 명령 수행: IFEval 84.7
    • I-DLM-32BLLaDA-2.1-flash(100B) 보다 높은 성능을 기록

처리량(Throughput)

  • 배치 크기 1~64에서 LLaDA-2.1-mini 및 SDAR 대비 2.9~4.1배 높은 처리량을 달성
  • 메모리 바운드(memory-bound) 환경에서 TPF(Token Per Forward) 가 실제 속도 향상을 근사
    • I-DLM(N=4, p=0.9): TPF≈2.9, 효율성 1.22
    • SDAR(N=4, p=0.5): TPF≈1.1, 효율성 0.31
  • 효율성 1 이상은 병렬 디코딩이 AR 대비 총 연산량을 절감함을 의미

Speedup Factor Explorer

  • 수용률 p=0.9, R-ISD LoRA 오버헤드 α=1.12
  • 속도 향상 근사식:

    • 메모리 바운드: Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1)
    • R-ISD(손실 없음): Speedup ≈ TPF/α
    • Gated LoRA는 MASK 위치에서만 활성화되어 AR 출력과 비트 단위 동일성을 보장

문서 및 리소스

  • 설치, 학습, 추론, 서빙, 손실 없는 R-ISD, 모델, 벤치마크 전 과정을 웹 문서로 제공
  • Installation

    • GitHub 저장소를 클론 후 install.sh 실행
  • Quick Start

    • SGLang 서버 실행 후 REST API로 채팅 완성 요청 가능
  • Training

    • 완전 마스크 시퀀스와 클린 시퀀스를 결합해 학습
    • 4.5B 토큰, 8×H100 GPU, 2 epoch, stride 커리큘럼(N=2→3)
  • Inference & ISD

    • MASK 위치에서 새 토큰 제안(q), 클린 위치에서 검증(p)
    • 수용 기준 min(1, p(x)/q(x))으로 AR 분포 보장
    • stride N=4에서 TPF=2.96, 약 3배 속도 향상
  • Serving (SGLang)

    • Paged KV 캐시**,** CUDA 그래프 캡처(+42~76%), Stationary-batch 디코드 루프(+11~21%), Argmax 제안(+11~15%), Paged-only 어텐션 커널(+10~14%)

      • 전체 시스템은 기본 대비 2.1~2.5배 처리량 향상
  • Lossless R-ISD

    • Gated LoRA(rank=128) 를 MASK 위치에만 적용
    • 출력은 기본 AR 모델과 완전히 동일
    • 오버헤드 약 1.12배
  • Model Zoo

    • I-DLM-8B: Qwen3-8B 기반, AR 품질과 동등
    • I-DLM-32B: Qwen3-32B 기반, LLaDA-2.1-flash(100B) 초월
    • I-DLM-8B-LoRA: Gated LoRA(rank=128) 적용
  • Benchmarks

    • 15개 벤치마크(지식, 수학, 코드, 명령 수행)에서 평가
    • 재현용 스크립트 제공

인용 정보

  • 논문: Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
  • 연구 기관: Together AI, UIUC, Princeton, Stanford, UT Austin
  • 저자: Yifan Yu 외 14인

결론

  • I-DLM은 확산 기반 언어 모델이 AR 모델의 품질과 속도를 동시에 달성한 첫 사례
  • 자기 일관성 학습ISD 디코딩을 통해 병렬 생성의 한계를 극복
  • SGLang 호환성, 손실 없는 가속, 높은 처리량 확장성으로 실용적 배포 가능성을 입증함
Read Entire Article