내성 확산 언어 모델(Introspective Diffusion Language Models)

10 hours ago 4

I-DLM은 확산 기반 언어 모델이 AR(Autoregressive) 모델 수준의 품질과 병렬 생성 속도를 동시에 달성한 첫 사례임
Introspective Strided Decoding(ISD) 을 통해 한 번의 전방 패스에서 새 토큰 생성과 이전 토큰 검증을 병행함
I-DLM-8B는 LLaDA-2.1-mini(16B) 대비 절반의 파라미터로 AIME-24에서 +26점, LiveCodeBench-v6에서 +15점 향상
Gated LoRA를 이용해 비트 단위 손실 없는(lossless) 가속을 구현하고, SGLang 인프라와 완전 호환됨
확산 언어 모델이 자기 일관성 학습과 병렬 디코딩 최적화를 통해 실용적 대규모 배포 가능성을 입증함

개요

I-DLM(Introspective Diffusion Language Model) 은 기존 확산 언어 모델(DLM) 의 병렬 토큰 생성 능력을 유지하면서, 자기 일관성(introspective consistency) 문제를 해결해 AR 모델 수준의 품질을 달성한 모델임
Introspective Strided Decoding(ISD) 을 통해 한 번의 전방 패스로 새 토큰을 생성하면서 이전 토큰을 검증함
I-DLM-8B는 동급 규모의 AR 모델과 동일한 품질을 달성한 최초의 DLM으로, LLaDA-2.1-mini(16B) 대비 절반의 파라미터로 AIME-24에서 +26점, LiveCodeBench-v6에서 +15점 향상
높은 동시성(C=64) 환경에서 2.9~4.1배의 처리량(throughput) 을 달성하며, Gated LoRA를 통해 비트 단위 손실 없는(lossless) 가속을 지원함

AR 모델은 한 번의 전방 패스에서 생성과 자기 검증을 동시에 수행하지만, 기존 DLM은 노이즈 제거(denoising) 만 학습해 자기 일관성이 부족함
기존 DLM의 세 가지 병목 요인
- 낮은 자기 일관성: SDAR 0.699 vs I-DLM 0.984
- 비효율적 연산: TiDAR 약 7.8배 오버헤드 vs I-DLM 약 2.5배
- 인프라 불일치: SDAR slope=84 vs I-DLM=549

Introspective-Consistency Training
- 사전 학습된 AR 모델을 인과적 어텐션(causal attention), logit shift, 전 마스크(all-masked) 목적 함수를 통해 변환
Introspective Strided Decoding(ISD)
- 한 번의 전방 패스에서 N개의 토큰 생성과 이전 토큰 검증을 병행
- p/q 수용 기준(acceptance criterion) 을 사용해 생성 결과를 검증
AR-Compatible Serving
- 엄격한 인과 어텐션 구조로 SGLang 인프라에 직접 통합 가능
- 별도의 커스텀 인프라 없이 AR 모델과 동일한 서빙 환경에서 동작

배치 크기 1~64에서 LLaDA-2.1-mini 및 SDAR 대비 2.9~4.1배 높은 처리량을 달성
메모리 바운드(memory-bound) 환경에서 TPF(Token Per Forward) 가 실제 속도 향상을 근사
- I-DLM(N=4, p=0.9): TPF≈2.9, 효율성 1.22
- SDAR(N=4, p=0.5): TPF≈1.1, 효율성 0.31
효율성 1 이상은 병렬 디코딩이 AR 대비 총 연산량을 절감함을 의미

수용률 p=0.9, R-ISD LoRA 오버헤드 α=1.12
속도 향상 근사식:
- 메모리 바운드: Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1)
- R-ISD(손실 없음): Speedup ≈ TPF/α
- Gated LoRA는 MASK 위치에서만 활성화되어 AR 출력과 비트 단위 동일성을 보장

설치, 학습, 추론, 서빙, 손실 없는 R-ISD, 모델, 벤치마크 전 과정을 웹 문서로 제공
Installation
- GitHub 저장소를 클론 후 install.sh 실행
Quick Start
- SGLang 서버 실행 후 REST API로 채팅 완성 요청 가능
Training
- 완전 마스크 시퀀스와 클린 시퀀스를 결합해 학습
- 4.5B 토큰, 8×H100 GPU, 2 epoch, stride 커리큘럼(N=2→3)
Inference & ISD
- MASK 위치에서 새 토큰 제안(q), 클린 위치에서 검증(p)
- 수용 기준 min(1, p(x)/q(x))으로 AR 분포 보장
- stride N=4에서 TPF=2.96, 약 3배 속도 향상
Serving (SGLang)
- Paged KV 캐시**,** CUDA 그래프 캡처(+42~76%), Stationary-batch 디코드 루프(+11~21%), Argmax 제안(+11~15%), Paged-only 어텐션 커널(+10~14%)
  - 전체 시스템은 기본 대비 2.1~2.5배 처리량 향상
Lossless R-ISD
- Gated LoRA(rank=128) 를 MASK 위치에만 적용
- 출력은 기본 AR 모델과 완전히 동일
- 오버헤드 약 1.12배
Model Zoo
- I-DLM-8B: Qwen3-8B 기반, AR 품질과 동등
- I-DLM-32B: Qwen3-32B 기반, LLaDA-2.1-flash(100B) 초월
- I-DLM-8B-LoRA: Gated LoRA(rank=128) 적용
Benchmarks
- 15개 벤치마크(지식, 수학, 코드, 명령 수행)에서 평가
- 재현용 스크립트 제공