Z-Image - 강력하고 효율적인 이미지 생성 모델

3 days ago 5

  • 나노 바나나 프로급의 성능을 보이는 알리바바의 이미지 생성 모델로 아파치 2.0 라이선스 오픈소스
  • 단일 스트림 확산 트랜스포머(Single-Stream Diffusion Transformer)를 기반으로 한 6B 파라미터의 효율적 이미지 생성 모델
  • 세 가지 버전으로 구성되며, Z-Image-Turbo는 8단계 추론만으로 경쟁 모델 수준의 품질을 달성하고, 16GB VRAM 환경에서도 동작
  • Z-Image-Edit는 자연어 지시를 기반으로 한 이미지 편집 기능을 제공하며, Z-Image-Base는 커뮤니티의 파인튜닝을 위한 기본 모델로 공개 예정
  • 모델은 S3-DiT 아키텍처를 채택해 텍스트·시각·VAE 토큰을 단일 시퀀스로 통합, 매개변수 효율성을 극대화
  • Decoupled-DMDDMDR 알고리듬을 통해 소수 단계에서도 고품질 이미지를 생성하며, 오픈소스 모델 중 최고 수준 성능을 기록

Z-Image 개요

  • Z-Image는 효율성과 성능을 모두 갖춘 기초 이미지 생성 모델로, 단일 스트림 확산 트랜스포머 구조를 사용
  • 60억 매개변수를 기반으로 하며, Z-Image-Turbo, Z-Image-Base, Z-Image-Edit 세 가지 변형 모델 제공
    • Z-Image-Turbo: 8회 함수 평가(NFE)만으로 고품질 이미지를 생성하며, H800 GPU에서 1초 미만 추론 지연
    • Z-Image-Base: 비증류형 기본 모델로, 커뮤니티 기반의 파인튜닝 및 커스텀 개발 지원
    • Z-Image-Edit: 이미지 편집용으로 특화된 버전으로, 자연어 기반 이미지 변환 기능 제공

주요 기능 및 성능

  • Z-Image-Turbo사진 수준의 사실적 이미지영어·중국어 이중 언어 텍스트 렌더링을 정확히 수행
  • Prompt Enhancer 기능을 통해 추론 및 세계 지식 기반의 묘사 능력 강화
  • Z-Image-Edit창의적 이미지 변환정확한 지시어 이해를 지원
  • Alibaba AI Arena의 Elo 기반 인간 선호 평가에서 오픈소스 모델 중 최고 수준 성능 기록

모델 아키텍처 (S3-DiT)

  • Scalable Single-Stream DiT(S3-DiT) 구조를 채택
    • 텍스트, 시각 의미 토큰, 이미지 VAE 토큰을 하나의 시퀀스로 결합
    • 기존 이중 스트림 구조 대비 매개변수 효율성 극대화
  • 이 구조는 텍스트-이미지 통합 표현 학습을 가능하게 함

핵심 알고리듬

  • Decoupled-DMD

    • Decoupled-DMD는 Z-Image의 8단계 추론을 가능하게 하는 핵심 증류 알고리듬
    • 기존 DMD(Distribution Matching Distillation)를 CFG 증강(CA)분포 정합(DM) 두 메커니즘으로 분리
      • CA는 증류 과정의 주요 엔진 역할 수행
      • DM출력 안정성과 품질 유지를 위한 정규화 역할
    • 두 메커니즘을 분리·최적화하여 소수 단계에서도 고성능 이미지 생성 달성
  • DMDR

    • DMDR(Distribution Matching Distillation with Reinforcement Learning) 은 DMD와 강화학습(RL) 을 결합한 후처리 기법
    • RL이 DMD의 성능을 극대화하고, DMD가 RL을 정규화하는 상호 보완 구조
    • 이를 통해 의미 정합성, 미적 품질, 구조적 일관성을 향상시키며, 고주파 세부 표현력 강화

커뮤니티 및 생태계 지원

  • Cache-DiT: DBCache, Context Parallelism, Tensor Parallelism을 통한 추론 가속화 지원
  • stable-diffusion.cpp: C++ 기반 엔진으로, 4GB VRAM 환경에서도 Z-Image 실행 가능
  • LeMiCa: 학습 없이 타임스텝 수준 추론 가속화 제공
  • ComfyUI ZImageLatent: 공식 해상도의 간편한 latent 인터페이스 제공

요약

  • Z-Image는 효율적 구조(S3-DiT)와 혁신적 증류 기법(Decoupled-DMD, DMDR)을 결합한 고성능 오픈소스 이미지 생성 모델
  • Z-Image-Turbo는 빠른 추론과 높은 품질을 동시에 달성하며, 소비자급 GPU에서도 실행 가능
  • Z-Image-Edit는 자연어 기반의 정밀한 이미지 편집을 지원
  • Alibaba AI Arena에서 오픈소스 모델 중 최고 수준의 인간 선호 점수를 기록
  • Z-Image 생태계는 다양한 커뮤니티 프로젝트와 통합되어, 범용적 생성 모델 플랫폼으로 확장 중

Read Entire Article