Mac Studio에서 1.5TB VRAM 구현 – Thunderbolt 5 기반 RDMA

1 month ago 11

  • macOS 26.2에 새로 추가된 Thunderbolt 5 기반 RDMA(Remote Direct Memory Access) 기능을 이용해 여러 Mac Studio를 하나의 거대한 메모리 풀처럼 동작시키는 실험
  • Exo 1.0 오픈소스 클러스터링 툴을 사용해 1.5TB 통합 메모리를 구성, 대형 AI 모델 실행 속도를 향상
  • M3 Ultra Mac Studio는 단일 노드에서도 높은 연산 성능과 효율성을 보이며, RDMA 적용 시 메모리 접근 지연이 300μs에서 50μs 미만으로 감소
  • Thunderbolt 5의 케이블 복잡성, 스위치 부재, macOS 관리 제약 등 클러스터 운영상의 한계도 존재
  • RDMA와 Exo의 결합은 Mac 기반 AI·HPC 환경 확장 가능성을 보여주지만, 안정성과 확장성은 아직 개선 필요

RDMA over Thunderbolt 5 실험 개요

  • Apple이 제공한 Mac Studio 클러스터를 이용해 macOS 26.2의 RDMA over Thunderbolt 기능을 테스트
    • RDMA는 여러 Mac이 하나의 대형 RAM처럼 동작하게 하여 대규모 AI 모델 처리 속도를 높임
  • 테스트에는 Exo 1.0 오픈소스 AI 클러스터링 툴이 사용됨
  • 총 1.5TB 통합 메모리를 구성한 Mac Studio 4대의 가격은 약 4만 달러 수준

Apple의 HPC 역사와 M3 Ultra의 위치

  • Apple의 HPC 관련 시도는 과거 Xserve와 Xgrid 시절 이후 거의 없었음
  • M3 Ultra Mac Studio는 로컬 AI 모델 실행에 적합한 성능을 보이며, RDMA 지원으로 클러스터링 시 지연이 300μs에서 50μs 미만으로 감소
  • 250W 이하의 전력으로 조용하게 동작하며, 소규모 과학 계산과 크리에이티브 작업에도 적합

하드웨어 구성과 네트워킹

  • 하단 2대는 512GB RAM / 32코어 CPU, 상단 2대는 256GB RAM 구성
  • Thunderbolt 5를 통해 50~60Gbps 실효 대역폭을 제공하지만, Thunderbolt 스위치 부재로 각 Mac을 직접 상호 연결해야 함
  • QSFP 포트를 사용하는 Nvidia DGX Spark에 비해 네트워킹 안정성은 떨어짐
  • Thunderbolt 케이블 고정용 ThunderLok-A가 있으나, Mac Studio 본체 개조가 필요해 적용하지 않음

M3 Ultra Mac Studio 성능 벤치마크

  • Geekbench에서 Dell Pro Max(GB10) 및 AMD AI Max+ 395보다 단일·멀티코어 모두 우수
  • FP64 HPL 벤치마크에서 1 Tflop을 돌파, Nvidia GB10의 약 2배 성능
  • 대형 AI 모델 추론에서도 우수하며, 동일 전력 대비 효율성이 높음
  • 단일 M3 Ultra가 Dell Pro Max 2노드 클러스터보다 성능·효율 모두 앞섬

클러스터 관리와 macOS 제약

  • macOS는 SSH로 시스템 업그레이드 불가, GUI 조작 필요
  • Screen Sharing을 이용해 원격 관리 수행
  • Linux 대비 클러스터 관리 자동화가 어렵고, MDM 도구 부재로 불편함 존재

HPL 및 Llama.cpp 테스트

  • HPL 단일 노드 1.3 Tflops, 4노드 구성 시 3.7 Tflops로 약 3배 향상
  • Thunderbolt 기반 TCP 연결 시 시스템 크래시 발생, RDMA 미사용 상태에서는 불안정
  • Llama.cpp 테스트에서 Thunderbolt 5가 2.5Gbps Ethernet보다 낮은 지연을 보임

RDMA 활성화 및 Exo 1.0 테스트

  • RDMA 활성화 절차: 복구 모드 진입 → rdma_ctl enable 명령 실행 → 재부팅
  • Exo 1.0은 RDMA를 지원하는 유일한 툴로, 600GB 이상 모델(Kimi K2 Thinking 등) 을 다중 Mac에 분산 실행 가능
  • Llama.cpp는 RPC 방식으로 모델 레이어를 분산하지만 비효율적
  • Exo는 노드 수 증가 시 성능이 향상되어, Qwen3 235B 모델에서 초당 32 토큰 처리 달성
  • DeepSeek V3.1Kimi K2 Thinking(1조 파라미터) 모델도 실행 성공

안정성 문제와 오픈소스 이슈

  • 테스트는 사전 배포(pre-release) 소프트웨어 기반으로 진행되어 불안정성 존재
  • RDMA 작동 시 성능은 우수하지만, 실패 시 클러스터 전체 재부팅 필요
  • Exo 개발팀이 한동안 활동 중단 후 복귀했으며, Apache 2.0 라이선스로 공개
  • Apple과의 협업으로 인한 비공개 개발 과정에 대한 우려 언급

향후 과제와 미해결 질문

  • M5 Ultra 출시 여부 및 머신러닝 성능 향상 가능성
  • Mac Pro의 PCIe 확장성 복귀를 통한 클러스터링 개선 필요성
  • SMB Direct 지원 시 고속 파일 공유 가능성
  • Llama.cpp 등 타 소프트웨어의 RDMA 지원 확대 기대

결론

  • RDMA와 Exo 결합은 Mac Studio의 AI·HPC 활용 가능성을 크게 확장
  • 그러나 Thunderbolt 5의 구조적 한계와 macOS 관리 제약이 여전히 병목
  • QSFP 포트 도입 등 네트워크 확장성 개선이 필요
  • AI 열풍이 지나도 Mac Studio는 조용하고 강력한 워크스테이션으로서 가치 유지

Read Entire Article