Nvidia, Windows PC용 괴물 같은 CPU 시스템 제안
1 hour ago
1
- NVIDIA의 Windows PC용 고성능 시스템은 CPU·GPU가 128GB 공유 메모리를 함께 쓰고 최대 6,144개 CUDA 코어를 제공하는 칩 구성
- CPU는 성능 코어 10개와 효율 코어 10개를 갖추며, 성능 코어는 Cortex-X925 기반이고 SVE2는 최근 AMD 칩보다 낮지만 Apple Silicon보다 나은 수준
- 핵심 차별점은 CPU와 GPU 메모리를 나누지 않는 통합 메모리이며, 전용 GPU 메모리보다 느리지만 로컬 AI 모델 실행에 필요한 대역폭과 비용 조건을 겨냥한 구조
- 로컬 AI 모델 실행 수요는 아직 틈새 애플리케이션이라는 관점과, 128GB 공유 메모리가 학생 규모 실험에서 피크 GPU TFLOPs보다 중요할 수 있다는 관점도 있음
- 비교 축은 AMD Strix Halo, Intel Xe3P AI GPU, 최근 AMD 프로세서의 AVX-512이며, 납땜 RAM으로 사후 교체가 어렵다는 제약도 있음
시스템 사양과 메모리 구조
- Nvidia가 제안한 Windows PC용 CPU 시스템은 128GB 공유 메모리와 최대 6,144개 최신 CUDA 코어를 갖춘 구성
- CPU는 성능 코어 10개와 효율 코어 10개 구성, 성능 코어는 Cortex-X925 기반
- Cortex-X925의 SVE2는 사양상 최근 AMD 칩보다 낮지만 Apple Silicon보다 나은 수준이라는 비교
- 최근 AMD 프로세서는 모두 AVX-512를 지원하며, AVX-512는 Cortex-X925의 SVE2보다 훨씬 우수하고 더 많은 데이터를 처리하며 더 범용적이라는 비교
- Intel은 지금까지 소비자 시스템에서 AVX-512 제공에 신중한 태도
- 128GB 통합 메모리는 CPU와 GPU용 별도 메모리 대신 단일 풀을 공유하는 방식이며, Apple이 몇 년 전 택한 경로와 같은 구조
- 통합 메모리는 점점 인기를 얻고 있으며, 전용 GPU 메모리보다 빠르지는 않지만 로컬 AI 모델 실행에 충분한 대역폭을 제공할 만큼 저렴하다는 장점
- 통합 RAM에서는 CPU와 GPU 사이에 데이터를 보낼 필요가 없고, 모든 것이 단일 메모리 풀에 있어 제로 카피 연산처럼 느껴진다는 견해
- Intel과 AMD가 어떻게 대응할지가 관전 포인트
관련된 다양한 의견들
- 로컬 AI 모델 실행 수요가 얼마나 될지는 불확실하고, 아직 틈새 애플리케이션임
- 이 시스템은 비디오게임용으로 괜찮은 기계가 될 수 있다는 판단과, 게임용이 아니라 대형 모델용 설계라 예상만큼 게임에 좋지 않을 것이라는 반론도 있음
- 학생 규모 실험에서는 128GB 공유 메모리가 피크 GPU TFLOPs보다 중요할 수 있고, 어떤 모델·워크로드를 로컬에서 시험할 수 있는지를 바꿀 수 있다고 주장
- RAM은 나중에 바꿀 수 없고 모두 납땜되어 있다는 트레이드오프
- 메모리 용량 요구는 128GB가 부족하고 256GB 또는 512GB를 원한다는 의견, AI 작업용 “beast”에는 최소 512GB가 필요하다는 의견, 1TB 통합 메모리 옵션을 원하기도
- 128GB 선택 이유에 대한 작성자의 짧은 답변은 "비용"
- 운영체제 관련해서 “regular Windows”를 실행하지 않는다는 주장과 함께 운영체제에 대한 아쉬움 표현, Linux 설치를 제안
- AMD Strix Halo는 128GB 통합 메모리와 큰 iGPU를 가진 유사 제품이며, 데스크톱 Zen 5의 AVX-512를 갖춘 비교 대상
- AMD Strix Halo를 몇 달간 로컬 LLM 홈랩에 사용한 경험에서는 프로슈머급 LLM 실행이 가능하지만 실제 병목은 메모리 대역폭임
- 새 Nvidia 칩은 300GB/s 이상 메모리 대역폭이 필요하다는 요구
- RTX5090은 이미 데스크톱이 있을 경우 더 빠른 소형 모델용으로 더 저렴할 수 있고, 해당 보드 계열은 더 큰 로컬 모델에 더 적합
- 로컬 AI 실행의 장점은 비밀·고객 데이터를 책임 소재가 불분명한 제3자에게 보내지 않는 점, SaaS 구독과 토큰 가격을 피하는 점, PC 사용 행동을 로컬 모델이 학습해 작업을 실행하는 점과 연결
- 로컬 모델은 사용자에게 보이지 않는 기능으로 동작하고, 더 높은 지능이나 더 많은 맥락이 필요한 작업은 원격으로 오프로딩될 수 있음
- 핵심은 로컬 모델 자체보다 통합 AI 애플리케이션을 지원하는 소프트웨어 플랫폼이며, 데스크톱을 관련성 있게 유지하는 방법
- Google Chrome 실행이 로컬 AI 사용 사례가 될 수 있다는 예시는 Chrome의 built-in AI 문서
- Intel Xe3P AI GPU 비교 항목은 160GB LPDDR5X, 최대 480GB 가능성, 640비트 메모리 인터페이스, PCIe x16 구성: https://tomshardware.com/pc-components/gpus/…
-
Homepage
-
개발자
- Nvidia, Windows PC용 괴물 같은 CPU 시스템 제안