클라우드를 임대하지 말고, 직접 소유하라

3 days ago 4

comma.ai는 모든 모델 학습과 데이터 처리를 자체 데이터센터에서 수행하며, 약 500만 달러 규모의 인프라를 직접 운영
클라우드 의존은 비용 상승과 통제력 상실로 이어질 수 있으며, 자체 컴퓨트 운영은 엔지니어링 품질 향상과 비용 절감을 가능하게 함
데이터센터는 약 450kW 전력, 600개의 GPU, 4PB SSD 스토리지, 간단한 냉각 및 네트워크 구조로 구성
소프트웨어 스택은 Ubuntu + Salt, minikeyvalue(mkv) 스토리지, Slurm 스케줄러, PyTorch 분산 학습, miniray 분산 컴퓨트로 구성
comma.ai는 이 구조를 통해 자율주행 모델 학습을 완전 자동화하며, 클라우드 대비 약 5배의 비용 절감 효과를 달성

자체 데이터센터 운영의 이유

클라우드에 의존하면 비용 증가와 공급자 종속이 발생
- 클라우드 기업은 온보딩은 쉽지만 오프보딩은 어렵게 설계되어 있음
- 지속적 사용 시 높은 비용 구조에 갇히기 쉬움
자체 컴퓨트 운영은 기술 자립성과 효율적 엔지니어링 문화를 촉진
- 클라우드는 API·결제 시스템 중심의 관리가 필요하지만, 데이터센터는 전력·연산·대역폭 중심의 실제 기술 문제 해결을 요구
ML 엔지니어링 측면에서도 자원 제약이 코드 최적화와 근본적 개선을 유도
- 클라우드에서는 단순히 예산을 늘려 해결하지만, 자체 인프라에서는 성능 개선이 필수
비용 측면에서 comma.ai는 약 500만 달러를 투자, 동일 작업을 클라우드에서 수행 시 2,500만 달러 이상이 필요했을 것으로 계산

데이터센터 구성 요소

전력

최대 450kW 사용, 2025년 전력비 540,112달러
샌디에이고 전력 단가가 40센트/kWh로 세계 평균의 3배 수준
향후 자체 전력 생산 계획 언급

냉각

외기 냉각 방식 사용, CRAC 시스템보다 전력 효율적
- 48인치 흡기·배기 팬 각 2개로 공기 순환
- PID 제어 루프로 온도·습도 자동 조절 (<45% 유지)
- 전력 사용량은 수십 kW 수준

서버 및 스토리지

TinyBox Pro 75대(총 600 GPU)로 구성, 자체 제작
- 각 장비는 2 CPU + 8 GPU, 학습 및 일반 연산용으로 사용
- 자체 제작으로 유지보수 용이
스토리지는 Dell R630/R730 기반, 총 4PB SSD
- 비중복(non-redundant) 구조, 노드당 20Gbps 읽기 속도
네트워크는 100Gbps Z9264F 스위치 3대, Infiniband 스위치 2대로 구성

소프트웨어 인프라

기본 설정

모든 서버는 Ubuntu + PXE 부팅, Salt로 관리
단일 마스터 구조로 99% 가동률 유지

분산 스토리지 — minikeyvalue (mkv)

3PB 비중복 스토리지에 학습용 주행 데이터 저장
- 1TB/s 읽기 속도, 캐싱 없이 직접 학습 가능
300TB 캐시용 배열, 중복 저장 배열에는 모델 및 메트릭 저장
각 배열은 단일 마스터 서버로 관리

작업 관리 — Slurm

PyTorch 학습 작업과 miniray 분산 작업을 스케줄링

분산 학습 — PyTorch + FSDP

Infiniband 네트워크로 연결된 두 개의 학습 파티션 운영
자체 학습 프레임워크로 훈련 루프 자동화
모델 실험 추적 서비스 제공
- 대시보드, 커스텀 메트릭, 모델 가중치 관리 기능 포함
- 최신 모델 메트릭은 공개됨

분산 컴퓨트 — miniray

경량 오픈소스 태스크 스케줄러, 유휴 머신에서 Python 코드 실행
- Dask보다 단순, Redis 중앙 서버로 태스크 관리
- GPU 워커는 Triton Inference Server로 모델 추론 수행
수백 대 머신 병렬 확장 가능
- 예: Controls Challenge 기록은 데이터센터 1시간 사용으로 달성

코드 관리 — NFS 기반 모노레포

전체 코드베이스 3GB 이하, 모든 워크스테이션에 복제
작업 시작 시 로컬 코드와 패키지 동기화, 2초 내 완료
모든 분산 작업이 동일 코드·환경에서 실행되도록 보장

통합 학습 파이프라인

자율주행 모델의 온폴리시 학습을 데이터센터 전체 인프라로 수행
- 학습 중 최신 모델로 시뮬레이션 주행 데이터를 생성
- 단일 명령으로 전체 파이프라인 실행 가능

결론

comma.ai는 자체 데이터센터 운영으로 비용 절감과 기술 자립을 달성
동일한 접근을 통해 기업이나 개인도 자체 인프라 구축 가능성을 제시
데이터센터 구축에 관심 있는 개발자에게 직접 참여 기회 제공

Read Entire Article