- macOS 26.2에 새로 추가된 Thunderbolt 5 기반 RDMA(Remote Direct Memory Access) 기능을 이용해 여러 Mac Studio를 하나의 거대한 메모리 풀처럼 동작시키는 실험
-
Exo 1.0 오픈소스 클러스터링 툴을 사용해 1.5TB 통합 메모리를 구성, 대형 AI 모델 실행 속도를 향상
-
M3 Ultra Mac Studio는 단일 노드에서도 높은 연산 성능과 효율성을 보이며, RDMA 적용 시 메모리 접근 지연이 300μs에서 50μs 미만으로 감소
- Thunderbolt 5의 케이블 복잡성, 스위치 부재, macOS 관리 제약 등 클러스터 운영상의 한계도 존재
- RDMA와 Exo의 결합은 Mac 기반 AI·HPC 환경 확장 가능성을 보여주지만, 안정성과 확장성은 아직 개선 필요
RDMA over Thunderbolt 5 실험 개요
- Apple이 제공한 Mac Studio 클러스터를 이용해 macOS 26.2의 RDMA over Thunderbolt 기능을 테스트
- RDMA는 여러 Mac이 하나의 대형 RAM처럼 동작하게 하여 대규모 AI 모델 처리 속도를 높임
- 테스트에는 Exo 1.0 오픈소스 AI 클러스터링 툴이 사용됨
- 총 1.5TB 통합 메모리를 구성한 Mac Studio 4대의 가격은 약 4만 달러 수준
Apple의 HPC 역사와 M3 Ultra의 위치
- Apple의 HPC 관련 시도는 과거 Xserve와 Xgrid 시절 이후 거의 없었음
-
M3 Ultra Mac Studio는 로컬 AI 모델 실행에 적합한 성능을 보이며, RDMA 지원으로 클러스터링 시 지연이 300μs에서 50μs 미만으로 감소
- 250W 이하의 전력으로 조용하게 동작하며, 소규모 과학 계산과 크리에이티브 작업에도 적합
하드웨어 구성과 네트워킹
- 하단 2대는 512GB RAM / 32코어 CPU, 상단 2대는 256GB RAM 구성
- Thunderbolt 5를 통해 50~60Gbps 실효 대역폭을 제공하지만, Thunderbolt 스위치 부재로 각 Mac을 직접 상호 연결해야 함
- QSFP 포트를 사용하는 Nvidia DGX Spark에 비해 네트워킹 안정성은 떨어짐
- Thunderbolt 케이블 고정용 ThunderLok-A가 있으나, Mac Studio 본체 개조가 필요해 적용하지 않음
M3 Ultra Mac Studio 성능 벤치마크
-
Geekbench에서 Dell Pro Max(GB10) 및 AMD AI Max+ 395보다 단일·멀티코어 모두 우수
-
FP64 HPL 벤치마크에서 1 Tflop을 돌파, Nvidia GB10의 약 2배 성능
-
대형 AI 모델 추론에서도 우수하며, 동일 전력 대비 효율성이 높음
- 단일 M3 Ultra가 Dell Pro Max 2노드 클러스터보다 성능·효율 모두 앞섬
클러스터 관리와 macOS 제약
- macOS는 SSH로 시스템 업그레이드 불가, GUI 조작 필요
-
Screen Sharing을 이용해 원격 관리 수행
- Linux 대비 클러스터 관리 자동화가 어렵고, MDM 도구 부재로 불편함 존재
HPL 및 Llama.cpp 테스트
- HPL 단일 노드 1.3 Tflops, 4노드 구성 시 3.7 Tflops로 약 3배 향상
- Thunderbolt 기반 TCP 연결 시 시스템 크래시 발생, RDMA 미사용 상태에서는 불안정
-
Llama.cpp 테스트에서 Thunderbolt 5가 2.5Gbps Ethernet보다 낮은 지연을 보임
RDMA 활성화 및 Exo 1.0 테스트
- RDMA 활성화 절차: 복구 모드 진입 → rdma_ctl enable 명령 실행 → 재부팅
-
Exo 1.0은 RDMA를 지원하는 유일한 툴로, 600GB 이상 모델(Kimi K2 Thinking 등) 을 다중 Mac에 분산 실행 가능
-
Llama.cpp는 RPC 방식으로 모델 레이어를 분산하지만 비효율적
- Exo는 노드 수 증가 시 성능이 향상되어, Qwen3 235B 모델에서 초당 32 토큰 처리 달성
-
DeepSeek V3.1과 Kimi K2 Thinking(1조 파라미터) 모델도 실행 성공
안정성 문제와 오픈소스 이슈
- 테스트는 사전 배포(pre-release) 소프트웨어 기반으로 진행되어 불안정성 존재
- RDMA 작동 시 성능은 우수하지만, 실패 시 클러스터 전체 재부팅 필요
- Exo 개발팀이 한동안 활동 중단 후 복귀했으며, Apache 2.0 라이선스로 공개
- Apple과의 협업으로 인한 비공개 개발 과정에 대한 우려 언급
향후 과제와 미해결 질문
-
M5 Ultra 출시 여부 및 머신러닝 성능 향상 가능성
-
Mac Pro의 PCIe 확장성 복귀를 통한 클러스터링 개선 필요성
-
SMB Direct 지원 시 고속 파일 공유 가능성
-
Llama.cpp 등 타 소프트웨어의 RDMA 지원 확대 기대
결론
- RDMA와 Exo 결합은 Mac Studio의 AI·HPC 활용 가능성을 크게 확장
- 그러나 Thunderbolt 5의 구조적 한계와 macOS 관리 제약이 여전히 병목
- QSFP 포트 도입 등 네트워크 확장성 개선이 필요
- AI 열풍이 지나도 Mac Studio는 조용하고 강력한 워크스테이션으로서 가치 유지