내성 확산 언어 모델(Introspective Diffusion Language Models)
10 hours ago
4
- I-DLM은 확산 기반 언어 모델이 AR(Autoregressive) 모델 수준의 품질과 병렬 생성 속도를 동시에 달성한 첫 사례임
- Introspective Strided Decoding(ISD) 을 통해 한 번의 전방 패스에서 새 토큰 생성과 이전 토큰 검증을 병행함
- I-DLM-8B는 LLaDA-2.1-mini(16B) 대비 절반의 파라미터로 AIME-24에서 +26점, LiveCodeBench-v6에서 +15점 향상
- Gated LoRA를 이용해 비트 단위 손실 없는(lossless) 가속을 구현하고, SGLang 인프라와 완전 호환됨
- 확산 언어 모델이 자기 일관성 학습과 병렬 디코딩 최적화를 통해 실용적 대규모 배포 가능성을 입증함
개요
- I-DLM(Introspective Diffusion Language Model) 은 기존 확산 언어 모델(DLM) 의 병렬 토큰 생성 능력을 유지하면서, 자기 일관성(introspective consistency) 문제를 해결해 AR 모델 수준의 품질을 달성한 모델임
- Introspective Strided Decoding(ISD) 을 통해 한 번의 전방 패스로 새 토큰을 생성하면서 이전 토큰을 검증함
- I-DLM-8B는 동급 규모의 AR 모델과 동일한 품질을 달성한 최초의 DLM으로, LLaDA-2.1-mini(16B) 대비 절반의 파라미터로 AIME-24에서 +26점, LiveCodeBench-v6에서 +15점 향상
- 높은 동시성(C=64) 환경에서 2.9~4.1배의 처리량(throughput) 을 달성하며, Gated LoRA를 통해 비트 단위 손실 없는(lossless) 가속을 지원함
Introspective Consistency의 필요성
- AR 모델은 한 번의 전방 패스에서 생성과 자기 검증을 동시에 수행하지만, 기존 DLM은 노이즈 제거(denoising) 만 학습해 자기 일관성이 부족함
- 기존 DLM의 세 가지 병목 요인
- 낮은 자기 일관성: SDAR 0.699 vs I-DLM 0.984
- 비효율적 연산: TiDAR 약 7.8배 오버헤드 vs I-DLM 약 2.5배
- 인프라 불일치: SDAR slope=84 vs I-DLM=549
I-DLM 방법론
-
Introspective-Consistency Training
- 사전 학습된 AR 모델을 인과적 어텐션(causal attention), logit shift, 전 마스크(all-masked) 목적 함수를 통해 변환
-
Introspective Strided Decoding(ISD)
- 한 번의 전방 패스에서 N개의 토큰 생성과 이전 토큰 검증을 병행
- p/q 수용 기준(acceptance criterion) 을 사용해 생성 결과를 검증
-
AR-Compatible Serving
- 엄격한 인과 어텐션 구조로 SGLang 인프라에 직접 통합 가능
- 별도의 커스텀 인프라 없이 AR 모델과 동일한 서빙 환경에서 동작
성능 결과
- I-DLM은 동일 규모 AR 모델과 품질이 동등한 최초의 DLM으로, 15개 벤치마크 전반에서 기존 DLM을 초월
-
주요 벤치마크 결과
- 지식·추론: ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
- 수학: AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
- 코드: HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
- 명령 수행: IFEval 84.7
- I-DLM-32B는 LLaDA-2.1-flash(100B) 보다 높은 성능을 기록
처리량(Throughput)
- 배치 크기 1~64에서 LLaDA-2.1-mini 및 SDAR 대비 2.9~4.1배 높은 처리량을 달성
- 메모리 바운드(memory-bound) 환경에서 TPF(Token Per Forward) 가 실제 속도 향상을 근사
- I-DLM(N=4, p=0.9): TPF≈2.9, 효율성 1.22
- SDAR(N=4, p=0.5): TPF≈1.1, 효율성 0.31
- 효율성 1 이상은 병렬 디코딩이 AR 대비 총 연산량을 절감함을 의미
Speedup Factor Explorer
- 수용률 p=0.9, R-ISD LoRA 오버헤드 α=1.12
-
속도 향상 근사식:
- 메모리 바운드: Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1)
- R-ISD(손실 없음): Speedup ≈ TPF/α
- Gated LoRA는 MASK 위치에서만 활성화되어 AR 출력과 비트 단위 동일성을 보장
문서 및 리소스
- 설치, 학습, 추론, 서빙, 손실 없는 R-ISD, 모델, 벤치마크 전 과정을 웹 문서로 제공
-
Installation
- GitHub 저장소를 클론 후 install.sh 실행
-
Quick Start
- SGLang 서버 실행 후 REST API로 채팅 완성 요청 가능
-
Training
- 완전 마스크 시퀀스와 클린 시퀀스를 결합해 학습
- 4.5B 토큰, 8×H100 GPU, 2 epoch, stride 커리큘럼(N=2→3)
-
Inference & ISD
- MASK 위치에서 새 토큰 제안(q), 클린 위치에서 검증(p)
- 수용 기준 min(1, p(x)/q(x))으로 AR 분포 보장
- stride N=4에서 TPF=2.96, 약 3배 속도 향상
-
Serving (SGLang)
-
Paged KV 캐시**,** CUDA 그래프 캡처(+42~76%), Stationary-batch 디코드 루프(+11~21%), Argmax 제안(+11~15%), Paged-only 어텐션 커널(+10~14%)
- 전체 시스템은 기본 대비 2.1~2.5배 처리량 향상
-
Lossless R-ISD
- Gated LoRA(rank=128) 를 MASK 위치에만 적용
- 출력은 기본 AR 모델과 완전히 동일
- 오버헤드 약 1.12배
-
Model Zoo
- I-DLM-8B: Qwen3-8B 기반, AR 품질과 동등
- I-DLM-32B: Qwen3-32B 기반, LLaDA-2.1-flash(100B) 초월
- I-DLM-8B-LoRA: Gated LoRA(rank=128) 적용
-
Benchmarks
- 15개 벤치마크(지식, 수학, 코드, 명령 수행)에서 평가
- 재현용 스크립트 제공
인용 정보
- 논문: Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
- 연구 기관: Together AI, UIUC, Princeton, Stanford, UT Austin
- 저자: Yifan Yu 외 14인
결론
- I-DLM은 확산 기반 언어 모델이 AR 모델의 품질과 속도를 동시에 달성한 첫 사례
- 자기 일관성 학습과 ISD 디코딩을 통해 병렬 생성의 한계를 극복
- SGLang 호환성, 손실 없는 가속, 높은 처리량 확장성으로 실용적 배포 가능성을 입증함
-
Homepage
-
개발자
- 내성 확산 언어 모델(Introspective Diffusion Language Models)