애플, 2D 사진을 즉시 3D 뷰로 변환하는 오픈소스 모델 공개

1 month ago 9

  • SHARP는 단일 이미지를 입력받아 3D 가우시안 표현으로 변환해 사실적인 3D 뷰를 생성하는 모델
  • 표준 GPU에서 1초 미만의 시간에 단일 신경망 추론으로 3D 장면 파라미터를 예측
  • 생성된 3D 표현은 실시간 렌더링이 가능하며, 절대 스케일을 포함한 메트릭 카메라 이동을 지원
  • 여러 데이터셋에서 LPIPS 25–34% , DISTS 21–43% 개선과 함께 기존 모델 대비 세 자릿수 빠른 합성 속도 달성
  • 오픈소스로 공개되어, 개발자들이 CLI 기반 예측·렌더링을 직접 실행하고 다양한 3D 렌더러와 연동 가능

SHARP 개요

  • SHARP(Sharp Monocular View Synthesis) 는 단일 사진으로부터 포토리얼리스틱한 3D 뷰를 생성하는 접근법
    • 입력된 이미지를 기반으로 3D Gaussian 표현의 파라미터를 회귀 방식으로 추정
    • 표준 GPU에서 단일 피드포워드 패스만으로 1초 미만의 처리 속도 달성
  • 생성된 3D Gaussian 표현은 실시간 렌더링이 가능하며, 주변 시점에서의 고해상도 이미지를 제공
  • 표현은 절대 스케일을 포함한 메트릭 구조로, 실제 카메라 이동을 지원

성능 및 일반화

  • 실험 결과, SHARP는 다양한 데이터셋에서 제로샷 일반화 성능을 보임
  • 기존 최고 성능 모델 대비 LPIPS 25–34% , DISTS 21–43% 감소
  • 합성 시간은 세 자릿수 단축, 즉 기존 대비 약 1000배 빠른 처리 속도

설치 및 실행

  • Python 3.13 환경에서 실행 가능하며, pip install -r requirements.txt로 의존성 설치
  • 명령줄 인터페이스(CLI)에서 다음과 같이 예측 수행
    • sharp predict -i 입력경로 -o 출력경로
    • 최초 실행 시 모델 체크포인트가 자동 다운로드되어 로컬 캐시에 저장
    • 수동 다운로드 시 -c 옵션으로 지정 가능
  • 출력 결과는 3D Gaussian Splat(3DGS) 형식의 .ply 파일로 저장되며, 공개 3DGS 렌더러와 호환

렌더링 기능

  • CUDA GPU 환경에서 카메라 궤적을 따라 비디오 렌더링 가능
    • --render 옵션을 사용해 예측과 렌더링을 동시에 수행
    • 또는 중간 결과(.ply)를 이용해 별도 렌더링 실행 가능
  • OpenCV 좌표계(x 오른쪽, y 아래, z 전방)를 따르며, 외부 렌더러 사용 시 스케일 및 회전 보정 필요

평가 및 참고 자료

  • 정량적·정성적 평가 결과는 논문에 수록되어 있음
  • 프로젝트 페이지에서 비교 영상 예시 확인 가능

라이선스 및 인용

  • 코드와 모델은 각각 LICENSE, LICENSE_MODEL 파일의 조건에 따라 사용 가능
  • 연구 인용 시 arXiv 논문 “Sharp Monocular View Synthesis in Less Than a Second (2025)” 참고
  • 코드베이스는 여러 오픈소스 기여물을 기반으로 구축됨

Read Entire Article