CUDA에 도전하는 ROCm: ‘한 걸음씩 나아가기’

6 hours ago 1
  • AMD는 Nvidia CUDA 생태계에 대응하기 위해 AI 소프트웨어 스택 ROCm을 중심으로 데이터센터 GPU 전략을 강화하고 있음
  • ROCm은 초기의 단순 펌웨어 묶음에서 완전한 소프트웨어 플랫폼으로 발전했으며, 6주 주기 릴리스 체계를 도입해 안정적 사용성을 확보 중임
  • OneROCm을 통해 CPU, GPU, FPGA 간 AI 스택 통합과 이식성 확보를 추진하며, Triton·MLIR 기반 코드 재활용으로 개발 효율을 높이고 있음
  • ROCm은 펌웨어를 제외한 전 구성요소를 오픈소스화해 커뮤니티 혁신 속도를 흡수하고, Strix Halo 노트북과 Windows 버전에서도 기본 지원됨
  • AMD는 개발자 피드백 대응과 커뮤니티 신뢰 회복을 중시하며, ROCm을 향후 10년간 지속 가능한 개발자 중심 플랫폼으로 발전시키는 것을 목표로 함

AMD ROCm의 진화와 CUDA 경쟁 전략

  • AMD는 데이터센터 GPU 시장에서 Nvidia의 CUDA 생태계에 대응하기 위해 AI 소프트웨어 스택 ROCm을 핵심 전략으로 추진 중임
  • AI 소프트웨어 부문 부사장 Anush Elangovan은 ROCm 개발을 “산을 오르는 일처럼 한 걸음씩 나아가는 과정”으로 표현하며, 지속적 개선과 통합을 강조함
  • 그는 스타트업 Nod.ai 인수를 통해 AMD에 합류했으며, Nod 팀은 Shark, Torch.MLIR, IREE 등 주요 오픈소스 프로젝트에 기여한 경력을 보유함
  • AMD는 ROCm을 통해 CPU, GPU, FPGA 간 AI 스택 통합(OneROCm) 을 추진하며, 소프트웨어 개발 주기를 6주 단위로 단축해 “사용자가 버전을 의식하지 않아도 되는 수준”을 목표로 함
  • ROCm은 현재 AI 지원 엔지니어링 전환을 준비 중이며, 오픈소스 생태계와 개발자 커뮤니티 중심의 확장을 가속화하고 있음

ROCm의 발전과 소프트웨어 전략

  • ROCm은 초기에는 여러 펌웨어 조각을 묶은 형태였으나, 2년 반의 투자 이후 완전한 소프트웨어 플랫폼으로 발전함
    • Elangovan은 Google Chrome 팀의 개발 문화를 벤치마킹해 정기적 릴리스 주기와 안정적 사용자 경험을 목표로 함
    • ROCm은 “그냥 작동하는” 소프트웨어로 자리 잡았으며, 향후 6주 주기 릴리스 체계로 전환 예정임
  • AMD는 하드웨어 중심 기업에서 소프트웨어 중심 기업으로 전환 중이며, 다음 단계로 AI 보조 엔지니어링(AI-assisted engineering) 을 핵심 전환점으로 삼고 있음

AI 스택 통합과 이식성

  • AMD는 OneROCm을 통해 CPU, GPU, FPGA 등 다양한 하드웨어 간 AI 스택 통합을 실현함
    • 일부 구성요소는 여전히 하드웨어 종속적이지만, 모든 가속은 ROCm 스택을 통해 수행되어 이식성(portability) 확보
  • Triton 프레임워크 확산으로 GPU 간 호환성 문제가 완화됨
    • 과거에는 CUDA 커널을 HIP 커널로 변환했으나, 현재는 Triton 커널을 작성해 AMD와 Nvidia 모두에서 실행 가능
    • AMD는 Triton 및 MLIR 컴파일러 인프라에 적극 투자하며, Torch.MLIR 유지보수를 통해 다양한 하드웨어로 코드 재타깃팅 지원
  • 대부분의 추론 고객은 vLLM, SGLang 등 LLM 프레임워크를 사용하며, CUDA 코드 변환 요청은 감소함
    • 새로운 주의(attention) 알고리듬이 등장하면 Triton 기반 커널을 하루이틀 내 최적화 가능
    • HIPify는 여전히 HPC 고객용으로 제공되며, 새로운 커널 작성에는 Claude AI를 활용해 검증 및 코드 생성을 수행함

오픈소스 전략

  • ROCm은 펌웨어를 제외한 전 구성요소를 100% 오픈소스로 공개함
    • 오픈소스화로 개발자 커뮤니티의 검증을 받는 동시에 AMD보다 빠른 커뮤니티 혁신 속도를 활용 가능
    • 누구나 컴파일러, 런타임 등 원하는 지점에서 참여할 수 있으며, AMD의 협업 속도에 제한받지 않음
  • AMD는 개발자 커뮤니티 확장을 적극 추진 중이며, Strix Halo 탑재 노트북에서 ROCm이 기본 지원
    • Instinct 데이터센터 하드웨어와 동일한 날에 Windows 버전 ROCm 업데이트를 배포함

개발자 커뮤니티와 피드백 문화

  • Elangovan은 개발자와의 직접 소통을 중시하며, X(Twitter) 를 통해 실시간 피드백을 수집함
    • “ROCm”, “ROCm sucks”, “AMD software not working” 등의 키워드를 모니터링하며, 모든 게시물에 직접 응답
    • 대부분의 문제는 교육과 지원 부족에서 비롯되며, 익명 개발자에게도 직접 조언을 제공함
  • AMD는 GitHub에서 ROCm 관련 1,000건 이상의 불만 조사를 진행했고, 1년 내 모두 해결함
    • 구형 하드웨어 지원 요청이 많았으며, 현재는 AMD 또는 커뮤니티가 유지보수 중
    • 이러한 대응으로 개발자 신뢰가 회복되었으며, “AMD는 문제를 해결한다”는 인식이 확산됨
  • Elangovan은 MI450 GPU(2026년 하반기 출시 예정) 에 기대를 표하며, ROCm을 향후 10년간 지속 가능한 플랫폼으로 발전시키겠다고 강조함
    • 새로운 하드웨어 등장 시에도 개발자가 걱정하지 않아도 되는 안정적 생태계 구축을 목표로 함

미래 방향과 철학

  • Elangovan은 Nod.ai 시절의 경험을 바탕으로, 컴파일러 기술이 거의 모든 가속기 기업에 채택된 사례를 언급함
    • 그는 “확신을 가지고 한 걸음씩 나아가야 한다”며, ROCm의 발전을 지속적 실행의 결과로 정의함
  • AMD는 CUDA를 단순히 복제하는 수준을 넘어, 차별화된 ROCm 기능을 개발 중이며, 장기적으로 개발자 중심 플랫폼으로 자리매김을 목표로 함
Read Entire Article