Nvidia, Windows PC용 괴물 같은 CPU 시스템 제안

1 hour ago 1

NVIDIA의 Windows PC용 고성능 시스템은 CPU·GPU가 128GB 공유 메모리를 함께 쓰고 최대 6,144개 CUDA 코어를 제공하는 칩 구성
CPU는 성능 코어 10개와 효율 코어 10개를 갖추며, 성능 코어는 Cortex-X925 기반이고 SVE2는 최근 AMD 칩보다 낮지만 Apple Silicon보다 나은 수준
핵심 차별점은 CPU와 GPU 메모리를 나누지 않는 통합 메모리이며, 전용 GPU 메모리보다 느리지만 로컬 AI 모델 실행에 필요한 대역폭과 비용 조건을 겨냥한 구조
로컬 AI 모델 실행 수요는 아직 틈새 애플리케이션이라는 관점과, 128GB 공유 메모리가 학생 규모 실험에서 피크 GPU TFLOPs보다 중요할 수 있다는 관점도 있음
비교 축은 AMD Strix Halo, Intel Xe3P AI GPU, 최근 AMD 프로세서의 AVX-512이며, 납땜 RAM으로 사후 교체가 어렵다는 제약도 있음

시스템 사양과 메모리 구조

Nvidia가 제안한 Windows PC용 CPU 시스템은 128GB 공유 메모리와 최대 6,144개 최신 CUDA 코어를 갖춘 구성
CPU는 성능 코어 10개와 효율 코어 10개 구성, 성능 코어는 Cortex-X925 기반
Cortex-X925의 SVE2는 사양상 최근 AMD 칩보다 낮지만 Apple Silicon보다 나은 수준이라는 비교
최근 AMD 프로세서는 모두 AVX-512를 지원하며, AVX-512는 Cortex-X925의 SVE2보다 훨씬 우수하고 더 많은 데이터를 처리하며 더 범용적이라는 비교
- Intel은 지금까지 소비자 시스템에서 AVX-512 제공에 신중한 태도
128GB 통합 메모리는 CPU와 GPU용 별도 메모리 대신 단일 풀을 공유하는 방식이며, Apple이 몇 년 전 택한 경로와 같은 구조
통합 메모리는 점점 인기를 얻고 있으며, 전용 GPU 메모리보다 빠르지는 않지만 로컬 AI 모델 실행에 충분한 대역폭을 제공할 만큼 저렴하다는 장점
- 통합 RAM에서는 CPU와 GPU 사이에 데이터를 보낼 필요가 없고, 모든 것이 단일 메모리 풀에 있어 제로 카피 연산처럼 느껴진다는 견해
Intel과 AMD가 어떻게 대응할지가 관전 포인트

관련된 다양한 의견들

로컬 AI 모델 실행 수요가 얼마나 될지는 불확실하고, 아직 틈새 애플리케이션임
이 시스템은 비디오게임용으로 괜찮은 기계가 될 수 있다는 판단과, 게임용이 아니라 대형 모델용 설계라 예상만큼 게임에 좋지 않을 것이라는 반론도 있음
학생 규모 실험에서는 128GB 공유 메모리가 피크 GPU TFLOPs보다 중요할 수 있고, 어떤 모델·워크로드를 로컬에서 시험할 수 있는지를 바꿀 수 있다고 주장
RAM은 나중에 바꿀 수 없고 모두 납땜되어 있다는 트레이드오프
메모리 용량 요구는 128GB가 부족하고 256GB 또는 512GB를 원한다는 의견, AI 작업용 “beast”에는 최소 512GB가 필요하다는 의견, 1TB 통합 메모리 옵션을 원하기도
- 128GB 선택 이유에 대한 작성자의 짧은 답변은 "비용"
운영체제 관련해서 “regular Windows”를 실행하지 않는다는 주장과 함께 운영체제에 대한 아쉬움 표현, Linux 설치를 제안
AMD Strix Halo는 128GB 통합 메모리와 큰 iGPU를 가진 유사 제품이며, 데스크톱 Zen 5의 AVX-512를 갖춘 비교 대상
- AMD Strix Halo를 몇 달간 로컬 LLM 홈랩에 사용한 경험에서는 프로슈머급 LLM 실행이 가능하지만 실제 병목은 메모리 대역폭임
- 새 Nvidia 칩은 300GB/s 이상 메모리 대역폭이 필요하다는 요구
RTX5090은 이미 데스크톱이 있을 경우 더 빠른 소형 모델용으로 더 저렴할 수 있고, 해당 보드 계열은 더 큰 로컬 모델에 더 적합
로컬 AI 실행의 장점은 비밀·고객 데이터를 책임 소재가 불분명한 제3자에게 보내지 않는 점, SaaS 구독과 토큰 가격을 피하는 점, PC 사용 행동을 로컬 모델이 학습해 작업을 실행하는 점과 연결
로컬 모델은 사용자에게 보이지 않는 기능으로 동작하고, 더 높은 지능이나 더 많은 맥락이 필요한 작업은 원격으로 오프로딩될 수 있음
핵심은 로컬 모델 자체보다 통합 AI 애플리케이션을 지원하는 소프트웨어 플랫폼이며, 데스크톱을 관련성 있게 유지하는 방법
Google Chrome 실행이 로컬 AI 사용 사례가 될 수 있다는 예시는 Chrome의 built-in AI 문서
Intel Xe3P AI GPU 비교 항목은 160GB LPDDR5X, 최대 480GB 가능성, 640비트 메모리 인터페이스, PCIe x16 구성: https://tomshardware.com/pc-components/gpus/…