- 애플이 공개한 SHARP는 단일 사진으로부터 3D 가우시안 표현을 추정해 포토리얼리스틱한 새로운 시점을 합성하는 기술
- 표준 GPU에서 1초 미만의 단일 신경망 피드포워드 패스로 처리하며, 실시간 렌더링이 가능
- 생성된 3D 표현은 절대 스케일을 가진 메트릭 표현으로, 실제 카메라 이동을 지원
- 여러 데이터셋에서 제로샷 일반화 성능을 보이며, 기존 모델 대비 LPIPS 25–34%, DISTS 21–43% 감소
- 기존 대비 합성 속도를 1000배 향상시켜, 단일 이미지 기반 3D 뷰 합성의 새로운 기준 제시
SHARP 개요
-
SHARP(Sharp Monocular View Synthesis) 는 단일 이미지로부터 포토리얼리스틱한 3D 뷰 합성을 수행하는 접근법
- 입력된 한 장의 사진에서 장면의 3D 가우시안 표현 파라미터를 회귀 방식으로 추정
- 이 과정은 표준 GPU에서 1초 미만에 완료됨
- 생성된 3D 가우시안 표현은 실시간 렌더링을 지원하며, 인접 시점에서 고해상도 이미지를 생성
- 초당 100프레임 이상의 렌더링 속도 달성
- 세밀한 구조와 선명한 디테일을 유지
기술적 특징
- SHARP의 3D 표현은 절대 스케일을 포함한 메트릭 표현으로, 실제 카메라 이동을 반영
-
단일 피드포워드 신경망 패스만으로 처리되어, 복잡한 최적화 과정 없이 빠른 결과 제공
-
제로샷 일반화를 통해 학습되지 않은 데이터셋에서도 안정적인 성능 유지
성능 및 비교 결과
- 여러 데이터셋에서 최신 성능(state of the art) 을 달성
-
LPIPS 지표 25–34% , DISTS 지표 21–43% 개선
- 기존 최고 모델 대비 합성 시간 1000배 단축
- 이러한 성능 향상은 단일 이미지 기반 3D 뷰 합성의 효율성과 품질을 동시에 개선함
시각적 결과
- SHARP는 Unsplash의 사진을 예시로, 단일 입력 이미지에서 생성된 3D 표현을 시각화
- 인접 시점에서의 렌더링 결과는 선명한 디테일과 미세 구조를 유지
-
실시간 렌더링으로 자연스러운 시점 이동 구현
연구 출처
- 연구 논문은 arXiv:2512.10685에 게재
- 제목: Sharp Monocular View Synthesis in Less Than a Second
- 연구진: Lars Mescheder 외 12명
- 소속: Apple