-
FLUX.2는 실제 창의적 워크플로우를 위한 고품질 이미지 생성 모델로, 다중 참조 이미지 간 캐릭터·스타일 일관성을 유지하며 텍스트 처리와 브랜드 가이드라인 준수 기능을 지원
- 최대 4메가픽셀 해상도에서 세밀한 이미지 편집이 가능하고, 조명·레이아웃·로고 등 시각 요소를 안정적으로 제어
-
멀티 레퍼런스 지원, 정교한 타이포그래피 렌더링, 향상된 프롬프트 처리, 현실 기반 지식 반영 등 주요 기능이 새롭게 추가
- 모델군은 pro, flex, dev, klein, VAE로 구성되며, 오픈웨이트와 상용 API 양쪽을 모두 제공
-
Black Forest Labs는 개방형 연구와 상용 인프라를 결합해, 시각 지능의 개방적 발전을 목표로 함
FLUX.2 개요
- FLUX.2는 단순한 데모용이 아닌 실제 제작 환경을 위한 이미지 생성 모델
- 여러 참조 이미지를 기반으로 캐릭터·스타일 일관성을 유지
- 구조화된 프롬프트를 따르고, 복잡한 텍스트를 읽고 쓸 수 있음
- 브랜드 가이드라인, 조명, 레이아웃, 로고를 안정적으로 처리
- 최대 4MP 해상도에서 세부 묘사와 일관성을 유지한 이미지 편집 지원
Black Forest Labs의 오픈 코어 철학
- 시각 지능은 연구자·창작자·개발자 모두가 함께 발전시켜야 한다는 원칙을 제시
-
오픈웨이트 모델과 상용급 API 엔드포인트를 병행 제공
- 오픈 모델은 실험과 비용 절감을 촉진하고, 투명성을 높임
- 2024년 설립 이후, FLUX.1 [dev]와 FLUX.1 Kontext [pro]를 통해 오픈 혁신 기반 구축
- FLUX.1 [dev]는 전 세계에서 가장 인기 있는 오픈 이미지 모델로 언급됨
- FLUX.1 Kontext [pro]는 Adobe, Meta 등 주요 팀에서 사용
FLUX.1에서 FLUX.2로
- FLUX.1이 창의적 도구로서의 잠재력을 보여줬다면, FLUX.2는 생산 워크플로우 혁신에 초점
-
정밀도·효율성·제어력·현실감을 강화해, 이미지 생성의 경제성을 크게 개선
- 결과적으로 창의 인프라의 핵심 구성 요소로 자리잡을 전망
주요 기능 (What’s New)
-
멀티 레퍼런스 지원: 최대 10개의 이미지를 동시에 참조해 캐릭터·제품·스타일 일관성 유지
-
세밀한 디테일과 사실감: 제품 촬영, 시각화, 사진 수준의 결과에 적합
-
텍스트 렌더링 개선: 복잡한 타이포그래피, 인포그래픽, UI 목업 등에서 가독성 향상
-
프롬프트 처리 강화: 다중 구조 프롬프트와 조합 제약을 정확히 반영
-
현실 기반 지식 확장: 조명·공간 논리에 기반한 일관된 장면 구성
-
고해상도 편집: 최대 4MP 해상도에서 유연한 입력·출력 비율 지원
FLUX.2 제품군
-
FLUX.2 [pro] : 최고 수준의 이미지 품질과 빠른 생성 속도를 결합, 상용 API 및 BFL Playground에서 이용 가능
-
FLUX.2 [flex] : 단계 수(steps)와 가이던스 스케일을 조정해 품질·속도·텍스트 정확도 제어 가능
-
FLUX.2 [dev] : 32B 오픈웨이트 모델로, 텍스트-이미지 생성과 다중 이미지 편집을 단일 체크포인트에서 수행
- Hugging Face에서 가중치 공개, NVIDIA 및 ComfyUI와 협력한 fp8 최적화 버전 제공
- FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare, DeepInfra 등 다양한 플랫폼에서 사용 가능
-
FLUX.2 [klein] (예정) : Apache 2.0 오픈소스 모델로, FLUX.2 기반의 경량화 버전
-
FLUX.2 - VAE: 학습성·품질·압축률 간 균형을 최적화한 변분 오토인코더, Apache 2.0 라이선스로 공개
성능 및 가치
- FLUX.2 모델군은 최신 이미지 생성 품질을 경쟁력 있는 가격으로 제공
- 오픈웨이트 모델 중 FLUX.2 [dev]는 텍스트-이미지 생성, 단일·다중 참조 편집에서 모든 오픈 대안 대비 우수한 성능을 기록
- 모든 모델은 책임 있는 개발 원칙에 따라 출시 전후로 관리
기술 구조 (How It Works)
-
잠재 흐름 매칭(latent flow matching) 아키텍처 기반으로, 이미지 생성과 편집을 하나의 구조에 통합
-
Mistral-3 24B 비전-언어 모델과 Rectified Flow Transformer를 결합
- VLM은 현실 지식과 문맥 이해를 제공
- 트랜스포머는 공간 관계, 재질 특성, 구성 논리를 처리
- 최대 10개의 참조 이미지를 결합해 새로운 결과 생성 가능
- 모델의 잠재 공간을 새로 학습시켜 학습성·품질·압축률 삼중 과제(trilemma) 개선
추가 자료
미래 방향 (Into the New)
- FLUX.2는 지각·생성·기억·추론을 통합하는 멀티모달 모델로 나아가는 단계
-
시각 지능 인프라의 기반 기술로, 세상을 인식하고 이해하는 방식을 변화시키는 목표
- 현재 Freiburg과 샌프란시스코에서 인재 채용 중