클라우드를 임대하지 말고, 직접 소유하라

3 days ago 4

  • comma.ai는 모든 모델 학습과 데이터 처리를 자체 데이터센터에서 수행하며, 약 500만 달러 규모의 인프라를 직접 운영
  • 클라우드 의존은 비용 상승과 통제력 상실로 이어질 수 있으며, 자체 컴퓨트 운영은 엔지니어링 품질 향상비용 절감을 가능하게 함
  • 데이터센터는 약 450kW 전력, 600개의 GPU, 4PB SSD 스토리지, 간단한 냉각 및 네트워크 구조로 구성
  • 소프트웨어 스택은 Ubuntu + Salt, minikeyvalue(mkv) 스토리지, Slurm 스케줄러, PyTorch 분산 학습, miniray 분산 컴퓨트로 구성
  • comma.ai는 이 구조를 통해 자율주행 모델 학습을 완전 자동화하며, 클라우드 대비 약 5배의 비용 절감 효과를 달성

자체 데이터센터 운영의 이유

  • 클라우드에 의존하면 비용 증가와 공급자 종속이 발생
    • 클라우드 기업은 온보딩은 쉽지만 오프보딩은 어렵게 설계되어 있음
    • 지속적 사용 시 높은 비용 구조에 갇히기 쉬움
  • 자체 컴퓨트 운영은 기술 자립성과 효율적 엔지니어링 문화를 촉진
    • 클라우드는 API·결제 시스템 중심의 관리가 필요하지만, 데이터센터는 전력·연산·대역폭 중심의 실제 기술 문제 해결을 요구
  • ML 엔지니어링 측면에서도 자원 제약이 코드 최적화와 근본적 개선을 유도
    • 클라우드에서는 단순히 예산을 늘려 해결하지만, 자체 인프라에서는 성능 개선이 필수
  • 비용 측면에서 comma.ai는 약 500만 달러를 투자, 동일 작업을 클라우드에서 수행 시 2,500만 달러 이상이 필요했을 것으로 계산

데이터센터 구성 요소

전력

  • 최대 450kW 사용, 2025년 전력비 540,112달러
  • 샌디에이고 전력 단가가 40센트/kWh로 세계 평균의 3배 수준
  • 향후 자체 전력 생산 계획 언급

냉각

  • 외기 냉각 방식 사용, CRAC 시스템보다 전력 효율적
    • 48인치 흡기·배기 팬 각 2개로 공기 순환
    • PID 제어 루프로 온도·습도 자동 조절 (<45% 유지)
    • 전력 사용량은 수십 kW 수준

서버 및 스토리지

  • TinyBox Pro 75대(총 600 GPU)로 구성, 자체 제작
    • 각 장비는 2 CPU + 8 GPU, 학습 및 일반 연산용으로 사용
    • 자체 제작으로 유지보수 용이
  • 스토리지는 Dell R630/R730 기반, 총 4PB SSD
    • 비중복(non-redundant) 구조, 노드당 20Gbps 읽기 속도
  • 네트워크는 100Gbps Z9264F 스위치 3대, Infiniband 스위치 2대로 구성

소프트웨어 인프라

기본 설정

  • 모든 서버는 Ubuntu + PXE 부팅, Salt로 관리
  • 단일 마스터 구조로 99% 가동률 유지

분산 스토리지 — minikeyvalue (mkv)

  • 3PB 비중복 스토리지에 학습용 주행 데이터 저장
    • 1TB/s 읽기 속도, 캐싱 없이 직접 학습 가능
  • 300TB 캐시용 배열, 중복 저장 배열에는 모델 및 메트릭 저장
  • 각 배열은 단일 마스터 서버로 관리

작업 관리 — Slurm

  • PyTorch 학습 작업miniray 분산 작업을 스케줄링

분산 학습 — PyTorch + FSDP

  • Infiniband 네트워크로 연결된 두 개의 학습 파티션 운영
  • 자체 학습 프레임워크로 훈련 루프 자동화
  • 모델 실험 추적 서비스 제공
    • 대시보드, 커스텀 메트릭, 모델 가중치 관리 기능 포함
    • 최신 모델 메트릭은 공개됨

분산 컴퓨트 — miniray

  • 경량 오픈소스 태스크 스케줄러, 유휴 머신에서 Python 코드 실행
    • Dask보다 단순, Redis 중앙 서버로 태스크 관리
    • GPU 워커는 Triton Inference Server로 모델 추론 수행
  • 수백 대 머신 병렬 확장 가능
    • 예: Controls Challenge 기록은 데이터센터 1시간 사용으로 달성

코드 관리 — NFS 기반 모노레포

  • 전체 코드베이스 3GB 이하, 모든 워크스테이션에 복제
  • 작업 시작 시 로컬 코드와 패키지 동기화, 2초 내 완료
  • 모든 분산 작업이 동일 코드·환경에서 실행되도록 보장

통합 학습 파이프라인

  • 자율주행 모델의 온폴리시 학습을 데이터센터 전체 인프라로 수행
    • 학습 중 최신 모델로 시뮬레이션 주행 데이터를 생성
    • 단일 명령으로 전체 파이프라인 실행 가능

결론

  • comma.ai는 자체 데이터센터 운영으로 비용 절감과 기술 자립을 달성
  • 동일한 접근을 통해 기업이나 개인도 자체 인프라 구축 가능성을 제시
  • 데이터센터 구축에 관심 있는 개발자에게 직접 참여 기회 제공

Read Entire Article