CUDA에 도전하는 ROCm: ‘한 걸음씩 나아가기’

1 month ago 26

AMD는 Nvidia CUDA 생태계에 대응하기 위해 AI 소프트웨어 스택 ROCm을 중심으로 데이터센터 GPU 전략을 강화하고 있음
ROCm은 초기의 단순 펌웨어 묶음에서 완전한 소프트웨어 플랫폼으로 발전했으며, 6주 주기 릴리스 체계를 도입해 안정적 사용성을 확보 중임
OneROCm을 통해 CPU, GPU, FPGA 간 AI 스택 통합과 이식성 확보를 추진하며, Triton·MLIR 기반 코드 재활용으로 개발 효율을 높이고 있음
ROCm은 펌웨어를 제외한 전 구성요소를 오픈소스화해 커뮤니티 혁신 속도를 흡수하고, Strix Halo 노트북과 Windows 버전에서도 기본 지원됨
AMD는 개발자 피드백 대응과 커뮤니티 신뢰 회복을 중시하며, ROCm을 향후 10년간 지속 가능한 개발자 중심 플랫폼으로 발전시키는 것을 목표로 함

AMD ROCm의 진화와 CUDA 경쟁 전략

AMD는 데이터센터 GPU 시장에서 Nvidia의 CUDA 생태계에 대응하기 위해 AI 소프트웨어 스택 ROCm을 핵심 전략으로 추진 중임
AI 소프트웨어 부문 부사장 Anush Elangovan은 ROCm 개발을 “산을 오르는 일처럼 한 걸음씩 나아가는 과정”으로 표현하며, 지속적 개선과 통합을 강조함
그는 스타트업 Nod.ai 인수를 통해 AMD에 합류했으며, Nod 팀은 Shark, Torch.MLIR, IREE 등 주요 오픈소스 프로젝트에 기여한 경력을 보유함
AMD는 ROCm을 통해 CPU, GPU, FPGA 간 AI 스택 통합(OneROCm) 을 추진하며, 소프트웨어 개발 주기를 6주 단위로 단축해 “사용자가 버전을 의식하지 않아도 되는 수준”을 목표로 함
ROCm은 현재 AI 지원 엔지니어링 전환을 준비 중이며, 오픈소스 생태계와 개발자 커뮤니티 중심의 확장을 가속화하고 있음

ROCm은 초기에는 여러 펌웨어 조각을 묶은 형태였으나, 2년 반의 투자 이후 완전한 소프트웨어 플랫폼으로 발전함
- Elangovan은 Google Chrome 팀의 개발 문화를 벤치마킹해 정기적 릴리스 주기와 안정적 사용자 경험을 목표로 함
- ROCm은 “그냥 작동하는” 소프트웨어로 자리 잡았으며, 향후 6주 주기 릴리스 체계로 전환 예정임
AMD는 하드웨어 중심 기업에서 소프트웨어 중심 기업으로 전환 중이며, 다음 단계로 AI 보조 엔지니어링(AI-assisted engineering) 을 핵심 전환점으로 삼고 있음

AMD는 OneROCm을 통해 CPU, GPU, FPGA 등 다양한 하드웨어 간 AI 스택 통합을 실현함
- 일부 구성요소는 여전히 하드웨어 종속적이지만, 모든 가속은 ROCm 스택을 통해 수행되어 이식성(portability) 확보
Triton 프레임워크 확산으로 GPU 간 호환성 문제가 완화됨
- 과거에는 CUDA 커널을 HIP 커널로 변환했으나, 현재는 Triton 커널을 작성해 AMD와 Nvidia 모두에서 실행 가능
- AMD는 Triton 및 MLIR 컴파일러 인프라에 적극 투자하며, Torch.MLIR 유지보수를 통해 다양한 하드웨어로 코드 재타깃팅 지원
대부분의 추론 고객은 vLLM, SGLang 등 LLM 프레임워크를 사용하며, CUDA 코드 변환 요청은 감소함
- 새로운 주의(attention) 알고리듬이 등장하면 Triton 기반 커널을 하루이틀 내 최적화 가능
- HIPify는 여전히 HPC 고객용으로 제공되며, 새로운 커널 작성에는 Claude AI를 활용해 검증 및 코드 생성을 수행함

ROCm은 펌웨어를 제외한 전 구성요소를 100% 오픈소스로 공개함
- 오픈소스화로 개발자 커뮤니티의 검증을 받는 동시에 AMD보다 빠른 커뮤니티 혁신 속도를 활용 가능
- 누구나 컴파일러, 런타임 등 원하는 지점에서 참여할 수 있으며, AMD의 협업 속도에 제한받지 않음
AMD는 개발자 커뮤니티 확장을 적극 추진 중이며, Strix Halo 탑재 노트북에서 ROCm이 기본 지원됨
- Instinct 데이터센터 하드웨어와 동일한 날에 Windows 버전 ROCm 업데이트를 배포함

Elangovan은 개발자와의 직접 소통을 중시하며, X(Twitter) 를 통해 실시간 피드백을 수집함
- “ROCm”, “ROCm sucks”, “AMD software not working” 등의 키워드를 모니터링하며, 모든 게시물에 직접 응답
- 대부분의 문제는 교육과 지원 부족에서 비롯되며, 익명 개발자에게도 직접 조언을 제공함
AMD는 GitHub에서 ROCm 관련 1,000건 이상의 불만 조사를 진행했고, 1년 내 모두 해결함
- 구형 하드웨어 지원 요청이 많았으며, 현재는 AMD 또는 커뮤니티가 유지보수 중
- 이러한 대응으로 개발자 신뢰가 회복되었으며, “AMD는 문제를 해결한다”는 인식이 확산됨
Elangovan은 MI450 GPU(2026년 하반기 출시 예정) 에 기대를 표하며, ROCm을 향후 10년간 지속 가능한 플랫폼으로 발전시키겠다고 강조함
- 새로운 하드웨어 등장 시에도 개발자가 걱정하지 않아도 되는 안정적 생태계 구축을 목표로 함

Elangovan은 Nod.ai 시절의 경험을 바탕으로, 컴파일러 기술이 거의 모든 가속기 기업에 채택된 사례를 언급함
- 그는 “확신을 가지고 한 걸음씩 나아가야 한다”며, ROCm의 발전을 지속적 실행의 결과로 정의함
AMD는 CUDA를 단순히 복제하는 수준을 넘어, 차별화된 ROCm 기능을 개발 중이며, 장기적으로 개발자 중심 플랫폼으로 자리매김을 목표로 함