FLUX.2: 프런티어 비주얼 인텔리전스

1 week ago 3

FLUX.2는 실제 창의적 워크플로우를 위한 고품질 이미지 생성 모델로, 다중 참조 이미지 간 캐릭터·스타일 일관성을 유지하며 텍스트 처리와 브랜드 가이드라인 준수 기능을 지원
최대 4메가픽셀 해상도에서 세밀한 이미지 편집이 가능하고, 조명·레이아웃·로고 등 시각 요소를 안정적으로 제어
멀티 레퍼런스 지원, 정교한 타이포그래피 렌더링, 향상된 프롬프트 처리, 현실 기반 지식 반영 등 주요 기능이 새롭게 추가
모델군은 pro, flex, dev, klein, VAE로 구성되며, 오픈웨이트와 상용 API 양쪽을 모두 제공
Black Forest Labs는 개방형 연구와 상용 인프라를 결합해, 시각 지능의 개방적 발전을 목표로 함

FLUX.2 개요

FLUX.2는 단순한 데모용이 아닌 실제 제작 환경을 위한 이미지 생성 모델
- 여러 참조 이미지를 기반으로 캐릭터·스타일 일관성을 유지
- 구조화된 프롬프트를 따르고, 복잡한 텍스트를 읽고 쓸 수 있음
- 브랜드 가이드라인, 조명, 레이아웃, 로고를 안정적으로 처리
최대 4MP 해상도에서 세부 묘사와 일관성을 유지한 이미지 편집 지원

시각 지능은 연구자·창작자·개발자 모두가 함께 발전시켜야 한다는 원칙을 제시
오픈웨이트 모델과 상용급 API 엔드포인트를 병행 제공
- 오픈 모델은 실험과 비용 절감을 촉진하고, 투명성을 높임
2024년 설립 이후, FLUX.1 [dev]와 FLUX.1 Kontext [pro]를 통해 오픈 혁신 기반 구축
- FLUX.1 [dev]는 전 세계에서 가장 인기 있는 오픈 이미지 모델로 언급됨
- FLUX.1 Kontext [pro]는 Adobe, Meta 등 주요 팀에서 사용

FLUX.2 [pro] : 최고 수준의 이미지 품질과 빠른 생성 속도를 결합, 상용 API 및 BFL Playground에서 이용 가능
FLUX.2 [flex] : 단계 수(steps)와 가이던스 스케일을 조정해 품질·속도·텍스트 정확도 제어 가능
FLUX.2 [dev] : 32B 오픈웨이트 모델로, 텍스트-이미지 생성과 다중 이미지 편집을 단일 체크포인트에서 수행
- Hugging Face에서 가중치 공개, NVIDIA 및 ComfyUI와 협력한 fp8 최적화 버전 제공
- FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare, DeepInfra 등 다양한 플랫폼에서 사용 가능
FLUX.2 [klein] (예정) : Apache 2.0 오픈소스 모델로, FLUX.2 기반의 경량화 버전
FLUX.2 - VAE: 학습성·품질·압축률 간 균형을 최적화한 변분 오토인코더, Apache 2.0 라이선스로 공개

잠재 흐름 매칭(latent flow matching) 아키텍처 기반으로, 이미지 생성과 편집을 하나의 구조에 통합
Mistral-3 24B 비전-언어 모델과 Rectified Flow Transformer를 결합
- VLM은 현실 지식과 문맥 이해를 제공
- 트랜스포머는 공간 관계, 재질 특성, 구성 논리를 처리
최대 10개의 참조 이미지를 결합해 새로운 결과 생성 가능
모델의 잠재 공간을 새로 학습시켜 학습성·품질·압축률 삼중 과제(trilemma) 개선