FLUX.2: 프런티어 비주얼 인텔리전스

1 week ago 3

  • FLUX.2는 실제 창의적 워크플로우를 위한 고품질 이미지 생성 모델로, 다중 참조 이미지 간 캐릭터·스타일 일관성을 유지하며 텍스트 처리와 브랜드 가이드라인 준수 기능을 지원
  • 최대 4메가픽셀 해상도에서 세밀한 이미지 편집이 가능하고, 조명·레이아웃·로고 등 시각 요소를 안정적으로 제어
  • 멀티 레퍼런스 지원, 정교한 타이포그래피 렌더링, 향상된 프롬프트 처리, 현실 기반 지식 반영 등 주요 기능이 새롭게 추가
  • 모델군은 pro, flex, dev, klein, VAE로 구성되며, 오픈웨이트와 상용 API 양쪽을 모두 제공
  • Black Forest Labs는 개방형 연구와 상용 인프라를 결합해, 시각 지능의 개방적 발전을 목표로 함

FLUX.2 개요

  • FLUX.2는 단순한 데모용이 아닌 실제 제작 환경을 위한 이미지 생성 모델
    • 여러 참조 이미지를 기반으로 캐릭터·스타일 일관성을 유지
    • 구조화된 프롬프트를 따르고, 복잡한 텍스트를 읽고 쓸 수 있음
    • 브랜드 가이드라인, 조명, 레이아웃, 로고를 안정적으로 처리
  • 최대 4MP 해상도에서 세부 묘사와 일관성을 유지한 이미지 편집 지원

Black Forest Labs의 오픈 코어 철학

  • 시각 지능은 연구자·창작자·개발자 모두가 함께 발전시켜야 한다는 원칙을 제시
  • 오픈웨이트 모델상용급 API 엔드포인트를 병행 제공
    • 오픈 모델은 실험과 비용 절감을 촉진하고, 투명성을 높임
  • 2024년 설립 이후, FLUX.1 [dev]와 FLUX.1 Kontext [pro]를 통해 오픈 혁신 기반 구축
    • FLUX.1 [dev]는 전 세계에서 가장 인기 있는 오픈 이미지 모델로 언급됨
    • FLUX.1 Kontext [pro]는 Adobe, Meta 등 주요 팀에서 사용

FLUX.1에서 FLUX.2로

  • FLUX.1이 창의적 도구로서의 잠재력을 보여줬다면, FLUX.2는 생산 워크플로우 혁신에 초점
  • 정밀도·효율성·제어력·현실감을 강화해, 이미지 생성의 경제성을 크게 개선
  • 결과적으로 창의 인프라의 핵심 구성 요소로 자리잡을 전망

주요 기능 (What’s New)

  • 멀티 레퍼런스 지원: 최대 10개의 이미지를 동시에 참조해 캐릭터·제품·스타일 일관성 유지
  • 세밀한 디테일과 사실감: 제품 촬영, 시각화, 사진 수준의 결과에 적합
  • 텍스트 렌더링 개선: 복잡한 타이포그래피, 인포그래픽, UI 목업 등에서 가독성 향상
  • 프롬프트 처리 강화: 다중 구조 프롬프트와 조합 제약을 정확히 반영
  • 현실 기반 지식 확장: 조명·공간 논리에 기반한 일관된 장면 구성
  • 고해상도 편집: 최대 4MP 해상도에서 유연한 입력·출력 비율 지원

FLUX.2 제품군

  • FLUX.2 [pro] : 최고 수준의 이미지 품질과 빠른 생성 속도를 결합, 상용 API 및 BFL Playground에서 이용 가능
  • FLUX.2 [flex] : 단계 수(steps)와 가이던스 스케일을 조정해 품질·속도·텍스트 정확도 제어 가능
  • FLUX.2 [dev] : 32B 오픈웨이트 모델로, 텍스트-이미지 생성과 다중 이미지 편집을 단일 체크포인트에서 수행
    • Hugging Face에서 가중치 공개, NVIDIA 및 ComfyUI와 협력한 fp8 최적화 버전 제공
    • FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare, DeepInfra 등 다양한 플랫폼에서 사용 가능
  • FLUX.2 [klein] (예정) : Apache 2.0 오픈소스 모델로, FLUX.2 기반의 경량화 버전
  • FLUX.2 - VAE: 학습성·품질·압축률 간 균형을 최적화한 변분 오토인코더, Apache 2.0 라이선스로 공개

성능 및 가치

  • FLUX.2 모델군은 최신 이미지 생성 품질경쟁력 있는 가격으로 제공
  • 오픈웨이트 모델 중 FLUX.2 [dev]는 텍스트-이미지 생성, 단일·다중 참조 편집에서 모든 오픈 대안 대비 우수한 성능을 기록
  • 모든 모델은 책임 있는 개발 원칙에 따라 출시 전후로 관리

기술 구조 (How It Works)

  • 잠재 흐름 매칭(latent flow matching) 아키텍처 기반으로, 이미지 생성과 편집을 하나의 구조에 통합
  • Mistral-3 24B 비전-언어 모델Rectified Flow Transformer를 결합
    • VLM은 현실 지식과 문맥 이해를 제공
    • 트랜스포머는 공간 관계, 재질 특성, 구성 논리를 처리
  • 최대 10개의 참조 이미지를 결합해 새로운 결과 생성 가능
  • 모델의 잠재 공간을 새로 학습시켜 학습성·품질·압축률 삼중 과제(trilemma) 개선

추가 자료

미래 방향 (Into the New)

  • FLUX.2는 지각·생성·기억·추론을 통합하는 멀티모달 모델로 나아가는 단계
  • 시각 지능 인프라의 기반 기술로, 세상을 인식하고 이해하는 방식을 변화시키는 목표
  • 현재 Freiburg과 샌프란시스코에서 인재 채용 중

Read Entire Article