Z-Image - 강력하고 효율적인 이미지 생성 모델

3 days ago 5

나노 바나나 프로급의 성능을 보이는 알리바바의 이미지 생성 모델로 아파치 2.0 라이선스 오픈소스
단일 스트림 확산 트랜스포머(Single-Stream Diffusion Transformer)를 기반으로 한 6B 파라미터의 효율적 이미지 생성 모델
세 가지 버전으로 구성되며, Z-Image-Turbo는 8단계 추론만으로 경쟁 모델 수준의 품질을 달성하고, 16GB VRAM 환경에서도 동작
Z-Image-Edit는 자연어 지시를 기반으로 한 이미지 편집 기능을 제공하며, Z-Image-Base는 커뮤니티의 파인튜닝을 위한 기본 모델로 공개 예정
모델은 S3-DiT 아키텍처를 채택해 텍스트·시각·VAE 토큰을 단일 시퀀스로 통합, 매개변수 효율성을 극대화
Decoupled-DMD와 DMDR 알고리듬을 통해 소수 단계에서도 고품질 이미지를 생성하며, 오픈소스 모델 중 최고 수준 성능을 기록

Z-Image 개요

Z-Image는 효율성과 성능을 모두 갖춘 기초 이미지 생성 모델로, 단일 스트림 확산 트랜스포머 구조를 사용
60억 매개변수를 기반으로 하며, Z-Image-Turbo, Z-Image-Base, Z-Image-Edit 세 가지 변형 모델 제공
- Z-Image-Turbo: 8회 함수 평가(NFE)만으로 고품질 이미지를 생성하며, H800 GPU에서 1초 미만 추론 지연
- Z-Image-Base: 비증류형 기본 모델로, 커뮤니티 기반의 파인튜닝 및 커스텀 개발 지원
- Z-Image-Edit: 이미지 편집용으로 특화된 버전으로, 자연어 기반 이미지 변환 기능 제공

Scalable Single-Stream DiT(S3-DiT) 구조를 채택
- 텍스트, 시각 의미 토큰, 이미지 VAE 토큰을 하나의 시퀀스로 결합
- 기존 이중 스트림 구조 대비 매개변수 효율성 극대화
이 구조는 텍스트-이미지 통합 표현 학습을 가능하게 함

Decoupled-DMD
- Decoupled-DMD는 Z-Image의 8단계 추론을 가능하게 하는 핵심 증류 알고리듬
- 기존 DMD(Distribution Matching Distillation)를 CFG 증강(CA) 과 분포 정합(DM) 두 메커니즘으로 분리
  - CA는 증류 과정의 주요 엔진 역할 수행
  - DM은 출력 안정성과 품질 유지를 위한 정규화 역할
- 두 메커니즘을 분리·최적화하여 소수 단계에서도 고성능 이미지 생성 달성
DMDR
- DMDR(Distribution Matching Distillation with Reinforcement Learning) 은 DMD와 강화학습(RL) 을 결합한 후처리 기법
- RL이 DMD의 성능을 극대화하고, DMD가 RL을 정규화하는 상호 보완 구조
- 이를 통해 의미 정합성, 미적 품질, 구조적 일관성을 향상시키며, 고주파 세부 표현력 강화

Cache-DiT: DBCache, Context Parallelism, Tensor Parallelism을 통한 추론 가속화 지원
stable-diffusion.cpp: C++ 기반 엔진으로, 4GB VRAM 환경에서도 Z-Image 실행 가능
LeMiCa: 학습 없이 타임스텝 수준 추론 가속화 제공
ComfyUI ZImageLatent: 공식 해상도의 간편한 latent 인터페이스 제공

Z-Image는 효율적 구조(S3-DiT)와 혁신적 증류 기법(Decoupled-DMD, DMDR)을 결합한 고성능 오픈소스 이미지 생성 모델
Z-Image-Turbo는 빠른 추론과 높은 품질을 동시에 달성하며, 소비자급 GPU에서도 실행 가능
Z-Image-Edit는 자연어 기반의 정밀한 이미지 편집을 지원
Alibaba AI Arena에서 오픈소스 모델 중 최고 수준의 인간 선호 점수를 기록
Z-Image 생태계는 다양한 커뮤니티 프로젝트와 통합되어, 범용적 생성 모델 플랫폼으로 확장 중