대형 GPU는 대형 PC가 필요하지 않다

1 month ago 11

  • Raspberry Pi 5에서 AMD, Intel, Nvidia GPU를 구동해 데스크톱 PC와 비교한 실험에서, 성능 손실이 2~5% 수준에 불과한 경우가 다수 확인됨
  • Jellyfin 트랜스코딩, GravityMark 렌더링, LLM/AI 추론, 멀티 GPU 구성 등 네 가지 항목을 테스트해 효율성과 비용 대비 성능을 측정
  • 4개의 Nvidia RTX A5000을 연결한 사례에서는 Intel 서버 대비 2% 이내 성능 차이를 보이며, PCIe 스위치를 통한 GPU 간 메모리 공유가 핵심 역할
  • Raspberry Pi eGPU 시스템의 총비용은 약 $350~400, PC는 $1500~2000으로, 전력 소모 또한 Pi가 훨씬 낮음(유휴 시 4~5W vs 30W)
  • 대형 GPU를 효율적으로 활용할 수 있는 저전력·저비용 대안 플랫폼으로서 Raspberry Pi의 가능성을 입증한 사례

실험 개요

  • Raspberry Pi 5의 PCIe Gen 3 x1 대역폭(8 GT/s) 한계를 감안하고도 GPU 활용 가능성을 검증
    • 비교 대상은 최신 데스크톱 PC(PCIe Gen 5 x16, 512 GT/s)
  • 테스트 항목은 미디어 트랜스코딩(Jellyfin) , GPU 렌더링(GravityMark) , LLM/AI 성능, 멀티 GPU 구성
  • Dolphin ICSPCIe Gen 4 외부 스위치 및 3슬롯 백플레인을 사용해 2개 GPU 동시 구동 실험 수행

4개의 GPU를 연결한 Raspberry Pi 사례

  • GitHub 사용자 mpsparrow4개의 Nvidia RTX A5000 GPU를 단일 Pi에 연결
    • Llama 3 70B 모델 실행 시 Intel 서버 대비 2% 이내 성능 차이(11.83 vs 12 tokens/sec)
  • PCIe 스위치를 통해 GPU 간 메모리 공유가 가능해, Pi의 대역폭 제약을 우회
  • 단일 GPU 구성에서도 일부 작업에서 데스크톱과 동등하거나 우세한 성능 확인

비용 및 효율성 비교

  • Raspberry Pi eGPU 구성: 약 $350~400, Intel PC 구성: 약 $1500~2000
  • 유휴 전력 소모: Pi 4~5W, PC 30W
  • GPU 제외 시 동일 조건에서 비용·전력 효율성 모두 Pi가 우위

Jellyfin 트랜스코딩 벤치마크

  • Nvidia 4070 Ti 사용 시, PC가 원시 처리량(2GB/s) 면에서 우세
    • Pi는 PCIe 850MB/s, USB SSD 300MB/s 수준
  • 그러나 H.264/H.265 미디어 스트리밍에서는 Pi도 1080p·4K 트랜스코딩을 원활히 처리
    • NVENC 하드웨어 인코딩 지원, 2개 동시 트랜스코딩도 안정적
  • AMD GPU는 트랜스코딩 안정성에 일부 문제 발생

GravityMark 렌더링 테스트

  • AMD GPU 중심으로 테스트, PC가 약간 빠르지만 차이는 미미
  • RX 460 사용 시 Pi가 PC보다 높은 효율(성능/W) 기록
  • PCIe Gen 3 대역폭이 동일한 구형 GPU에서는 Pi가 상대적 이점 확보

AI 및 LLM 성능 비교

  • AMD Radeon AI Pro R9700(32GB VRAM) 테스트에서 예상보다 낮은 성능, 드라이버나 BAR 설정 문제 가능성
  • Nvidia RTX 3060(12GB) 사용 시, Llama 2 13B 모델에서 Pi가 PC보다 빠름
  • 효율성 측정 결과, Pi가 전력 대비 처리량에서 PC보다 우수
  • RTX 4090 테스트에서도 대형 모델(Qwen3 30B) 기준 5% 이내 성능 차이, 효율성은 Pi가 우세한 경우 다수
  • CUDA 백엔드Vulkan 백엔드 모두 Pi에서 정상 작동

듀얼 GPU 구성 실험

  • Dolphin PCIe 인터커넥트 보드MXH932 HBA 사용
  • ACS 비활성화로 GPU 간 직접 메모리 접근 가능
  • 서로 다른 GPU 모델(4070, A4000) 조합에서는 VRAM 풀링 미지원, 성능 향상 제한
  • 동일 GPU 구성 시 더 큰 모델(Qwen3 30B 등) 실행 가능
  • AMD RX 7900 XT + R9700 조합은 드라이버 문제로 일부 모델 실행 실패
  • Intel PC는 전반적으로 빠르지만, Pi도 대형 모델에서 근접 성능 유지

결론

  • 절대 성능과 편의성은 PC가 우세
  • 그러나 GPU 중심 워크로드, 저전력·저비용 환경에서는 Raspberry Pi가 실용적 대안
  • 유휴 전력 20~30W 절감, Rockchip·Qualcomm 기반 SBC는 더 높은 효율과 I/O 대역폭 제공
  • 실험 목적은 Pi의 한계와 GPU 컴퓨팅 구조 학습, 그 과정에서 소형 시스템의 잠재력 확인

Read Entire Article