SHARP - 단일 이미지로부터 포토리얼리스틱 뷰를 합성하는 접근법

1 month ago 14

애플이 공개한 SHARP는 단일 사진으로부터 3D 가우시안 표현을 추정해 포토리얼리스틱한 새로운 시점을 합성하는 기술
표준 GPU에서 1초 미만의 단일 신경망 피드포워드 패스로 처리하며, 실시간 렌더링이 가능
생성된 3D 표현은 절대 스케일을 가진 메트릭 표현으로, 실제 카메라 이동을 지원
여러 데이터셋에서 제로샷 일반화 성능을 보이며, 기존 모델 대비 LPIPS 25–34%, DISTS 21–43% 감소
기존 대비 합성 속도를 1000배 향상시켜, 단일 이미지 기반 3D 뷰 합성의 새로운 기준 제시

SHARP 개요

SHARP(Sharp Monocular View Synthesis) 는 단일 이미지로부터 포토리얼리스틱한 3D 뷰 합성을 수행하는 접근법
- 입력된 한 장의 사진에서 장면의 3D 가우시안 표현 파라미터를 회귀 방식으로 추정
- 이 과정은 표준 GPU에서 1초 미만에 완료됨
생성된 3D 가우시안 표현은 실시간 렌더링을 지원하며, 인접 시점에서 고해상도 이미지를 생성
- 초당 100프레임 이상의 렌더링 속도 달성
- 세밀한 구조와 선명한 디테일을 유지

기술적 특징

SHARP의 3D 표현은 절대 스케일을 포함한 메트릭 표현으로, 실제 카메라 이동을 반영
단일 피드포워드 신경망 패스만으로 처리되어, 복잡한 최적화 과정 없이 빠른 결과 제공
제로샷 일반화를 통해 학습되지 않은 데이터셋에서도 안정적인 성능 유지

성능 및 비교 결과

여러 데이터셋에서 최신 성능(state of the art) 을 달성
- LPIPS 지표 25–34% , DISTS 지표 21–43% 개선
- 기존 최고 모델 대비 합성 시간 1000배 단축
이러한 성능 향상은 단일 이미지 기반 3D 뷰 합성의 효율성과 품질을 동시에 개선함

시각적 결과

SHARP는 Unsplash의 사진을 예시로, 단일 입력 이미지에서 생성된 3D 표현을 시각화
- 인접 시점에서의 렌더링 결과는 선명한 디테일과 미세 구조를 유지
- 실시간 렌더링으로 자연스러운 시점 이동 구현

연구 출처

연구 논문은 arXiv:2512.10685에 게재
- 제목: Sharp Monocular View Synthesis in Less Than a Second
- 연구진: Lars Mescheder 외 12명
- 소속: Apple

Read Entire Article