-
comma.ai는 모든 모델 학습과 데이터 처리를 자체 데이터센터에서 수행하며, 약 500만 달러 규모의 인프라를 직접 운영
- 클라우드 의존은 비용 상승과 통제력 상실로 이어질 수 있으며, 자체 컴퓨트 운영은 엔지니어링 품질 향상과 비용 절감을 가능하게 함
- 데이터센터는 약 450kW 전력, 600개의 GPU, 4PB SSD 스토리지, 간단한 냉각 및 네트워크 구조로 구성
- 소프트웨어 스택은 Ubuntu + Salt, minikeyvalue(mkv) 스토리지, Slurm 스케줄러, PyTorch 분산 학습, miniray 분산 컴퓨트로 구성
- comma.ai는 이 구조를 통해 자율주행 모델 학습을 완전 자동화하며, 클라우드 대비 약 5배의 비용 절감 효과를 달성
자체 데이터센터 운영의 이유
- 클라우드에 의존하면 비용 증가와 공급자 종속이 발생
- 클라우드 기업은 온보딩은 쉽지만 오프보딩은 어렵게 설계되어 있음
- 지속적 사용 시 높은 비용 구조에 갇히기 쉬움
- 자체 컴퓨트 운영은 기술 자립성과 효율적 엔지니어링 문화를 촉진
- 클라우드는 API·결제 시스템 중심의 관리가 필요하지만, 데이터센터는 전력·연산·대역폭 중심의 실제 기술 문제 해결을 요구
- ML 엔지니어링 측면에서도 자원 제약이 코드 최적화와 근본적 개선을 유도
- 클라우드에서는 단순히 예산을 늘려 해결하지만, 자체 인프라에서는 성능 개선이 필수
- 비용 측면에서 comma.ai는 약 500만 달러를 투자, 동일 작업을 클라우드에서 수행 시 2,500만 달러 이상이 필요했을 것으로 계산
데이터센터 구성 요소
전력
- 최대 450kW 사용, 2025년 전력비 540,112달러
- 샌디에이고 전력 단가가 40센트/kWh로 세계 평균의 3배 수준
- 향후 자체 전력 생산 계획 언급
냉각
-
외기 냉각 방식 사용, CRAC 시스템보다 전력 효율적
-
48인치 흡기·배기 팬 각 2개로 공기 순환
-
PID 제어 루프로 온도·습도 자동 조절 (<45% 유지)
- 전력 사용량은 수십 kW 수준
서버 및 스토리지
-
TinyBox Pro 75대(총 600 GPU)로 구성, 자체 제작
- 각 장비는 2 CPU + 8 GPU, 학습 및 일반 연산용으로 사용
- 자체 제작으로 유지보수 용이
- 스토리지는 Dell R630/R730 기반, 총 4PB SSD
-
비중복(non-redundant) 구조, 노드당 20Gbps 읽기 속도
- 네트워크는 100Gbps Z9264F 스위치 3대, Infiniband 스위치 2대로 구성
소프트웨어 인프라
기본 설정
- 모든 서버는 Ubuntu + PXE 부팅, Salt로 관리
- 단일 마스터 구조로 99% 가동률 유지
분산 스토리지 — minikeyvalue (mkv)
-
3PB 비중복 스토리지에 학습용 주행 데이터 저장
-
1TB/s 읽기 속도, 캐싱 없이 직접 학습 가능
-
300TB 캐시용 배열, 중복 저장 배열에는 모델 및 메트릭 저장
- 각 배열은 단일 마스터 서버로 관리
작업 관리 — Slurm
-
PyTorch 학습 작업과 miniray 분산 작업을 스케줄링
분산 학습 — PyTorch + FSDP
-
Infiniband 네트워크로 연결된 두 개의 학습 파티션 운영
- 자체 학습 프레임워크로 훈련 루프 자동화
-
모델 실험 추적 서비스 제공
-
대시보드, 커스텀 메트릭, 모델 가중치 관리 기능 포함
- 최신 모델 메트릭은 공개됨
분산 컴퓨트 — miniray
-
경량 오픈소스 태스크 스케줄러, 유휴 머신에서 Python 코드 실행
-
Dask보다 단순, Redis 중앙 서버로 태스크 관리
- GPU 워커는 Triton Inference Server로 모델 추론 수행
-
수백 대 머신 병렬 확장 가능
- 예: Controls Challenge 기록은 데이터센터 1시간 사용으로 달성
코드 관리 — NFS 기반 모노레포
- 전체 코드베이스 3GB 이하, 모든 워크스테이션에 복제
- 작업 시작 시 로컬 코드와 패키지 동기화, 2초 내 완료
- 모든 분산 작업이 동일 코드·환경에서 실행되도록 보장
통합 학습 파이프라인
-
자율주행 모델의 온폴리시 학습을 데이터센터 전체 인프라로 수행
- 학습 중 최신 모델로 시뮬레이션 주행 데이터를 생성
- 단일 명령으로 전체 파이프라인 실행 가능
결론
- comma.ai는 자체 데이터센터 운영으로 비용 절감과 기술 자립을 달성
- 동일한 접근을 통해 기업이나 개인도 자체 인프라 구축 가능성을 제시
- 데이터센터 구축에 관심 있는 개발자에게 직접 참여 기회 제공