Mac Studio에서 1.5TB VRAM 구현 – Thunderbolt 5 기반 RDMA

1 month ago 11

macOS 26.2에 새로 추가된 Thunderbolt 5 기반 RDMA(Remote Direct Memory Access) 기능을 이용해 여러 Mac Studio를 하나의 거대한 메모리 풀처럼 동작시키는 실험
Exo 1.0 오픈소스 클러스터링 툴을 사용해 1.5TB 통합 메모리를 구성, 대형 AI 모델 실행 속도를 향상
M3 Ultra Mac Studio는 단일 노드에서도 높은 연산 성능과 효율성을 보이며, RDMA 적용 시 메모리 접근 지연이 300μs에서 50μs 미만으로 감소
Thunderbolt 5의 케이블 복잡성, 스위치 부재, macOS 관리 제약 등 클러스터 운영상의 한계도 존재
RDMA와 Exo의 결합은 Mac 기반 AI·HPC 환경 확장 가능성을 보여주지만, 안정성과 확장성은 아직 개선 필요

RDMA over Thunderbolt 5 실험 개요

Apple이 제공한 Mac Studio 클러스터를 이용해 macOS 26.2의 RDMA over Thunderbolt 기능을 테스트
- RDMA는 여러 Mac이 하나의 대형 RAM처럼 동작하게 하여 대규모 AI 모델 처리 속도를 높임
테스트에는 Exo 1.0 오픈소스 AI 클러스터링 툴이 사용됨
총 1.5TB 통합 메모리를 구성한 Mac Studio 4대의 가격은 약 4만 달러 수준

Apple의 HPC 역사와 M3 Ultra의 위치

Apple의 HPC 관련 시도는 과거 Xserve와 Xgrid 시절 이후 거의 없었음
M3 Ultra Mac Studio는 로컬 AI 모델 실행에 적합한 성능을 보이며, RDMA 지원으로 클러스터링 시 지연이 300μs에서 50μs 미만으로 감소
250W 이하의 전력으로 조용하게 동작하며, 소규모 과학 계산과 크리에이티브 작업에도 적합

하드웨어 구성과 네트워킹

하단 2대는 512GB RAM / 32코어 CPU, 상단 2대는 256GB RAM 구성
Thunderbolt 5를 통해 50~60Gbps 실효 대역폭을 제공하지만, Thunderbolt 스위치 부재로 각 Mac을 직접 상호 연결해야 함
QSFP 포트를 사용하는 Nvidia DGX Spark에 비해 네트워킹 안정성은 떨어짐
Thunderbolt 케이블 고정용 ThunderLok-A가 있으나, Mac Studio 본체 개조가 필요해 적용하지 않음

M3 Ultra Mac Studio 성능 벤치마크

Geekbench에서 Dell Pro Max(GB10) 및 AMD AI Max+ 395보다 단일·멀티코어 모두 우수
FP64 HPL 벤치마크에서 1 Tflop을 돌파, Nvidia GB10의 약 2배 성능
대형 AI 모델 추론에서도 우수하며, 동일 전력 대비 효율성이 높음
단일 M3 Ultra가 Dell Pro Max 2노드 클러스터보다 성능·효율 모두 앞섬

클러스터 관리와 macOS 제약

macOS는 SSH로 시스템 업그레이드 불가, GUI 조작 필요
Screen Sharing을 이용해 원격 관리 수행
Linux 대비 클러스터 관리 자동화가 어렵고, MDM 도구 부재로 불편함 존재

HPL 및 Llama.cpp 테스트

HPL 단일 노드 1.3 Tflops, 4노드 구성 시 3.7 Tflops로 약 3배 향상
Thunderbolt 기반 TCP 연결 시 시스템 크래시 발생, RDMA 미사용 상태에서는 불안정
Llama.cpp 테스트에서 Thunderbolt 5가 2.5Gbps Ethernet보다 낮은 지연을 보임

RDMA 활성화 및 Exo 1.0 테스트

RDMA 활성화 절차: 복구 모드 진입 → rdma_ctl enable 명령 실행 → 재부팅
Exo 1.0은 RDMA를 지원하는 유일한 툴로, 600GB 이상 모델(Kimi K2 Thinking 등) 을 다중 Mac에 분산 실행 가능
Llama.cpp는 RPC 방식으로 모델 레이어를 분산하지만 비효율적
Exo는 노드 수 증가 시 성능이 향상되어, Qwen3 235B 모델에서 초당 32 토큰 처리 달성
DeepSeek V3.1과 Kimi K2 Thinking(1조 파라미터) 모델도 실행 성공

안정성 문제와 오픈소스 이슈

테스트는 사전 배포(pre-release) 소프트웨어 기반으로 진행되어 불안정성 존재
RDMA 작동 시 성능은 우수하지만, 실패 시 클러스터 전체 재부팅 필요
Exo 개발팀이 한동안 활동 중단 후 복귀했으며, Apache 2.0 라이선스로 공개
Apple과의 협업으로 인한 비공개 개발 과정에 대한 우려 언급

향후 과제와 미해결 질문

M5 Ultra 출시 여부 및 머신러닝 성능 향상 가능성
Mac Pro의 PCIe 확장성 복귀를 통한 클러스터링 개선 필요성
SMB Direct 지원 시 고속 파일 공유 가능성
Llama.cpp 등 타 소프트웨어의 RDMA 지원 확대 기대

결론

RDMA와 Exo 결합은 Mac Studio의 AI·HPC 활용 가능성을 크게 확장
그러나 Thunderbolt 5의 구조적 한계와 macOS 관리 제약이 여전히 병목
QSFP 포트 도입 등 네트워크 확장성 개선이 필요
AI 열풍이 지나도 Mac Studio는 조용하고 강력한 워크스테이션으로서 가치 유지

Read Entire Article