CPU의 귀환: 2026년 데이터센터 CPU 시장 전망

3 hours ago 1

  • 강화학습과 에이전틱 AI 추론의 폭발적 수요로 데이터센터에서 CPU의 역할이 다시 급부상하며, GPU 중심이던 투자 흐름에 변화 발생
  • Intel은 2025년 말 예상치 못한 서버 CPU 수요 급증을 경험하고 2026년 파운드리 설비 투자를 확대하며 PC용 웨이퍼를 서버로 전환 중
  • AMD Venice는 TSMC N2 공정 기반 256코어 Zen6c CCD와 메시 네트워크를 도입해 성능과 전력 효율 모두에서 Intel 대비 격차 확대 전망
  • NVIDIA, AWS, Microsoft, Google, ARM 등 하이퍼스케일러 자체 ARM CPU 진영이 본격 확대되며 x86 독점 구도가 빠르게 해체 중
  • Huawei Kunpeng 950까지 포함해 2026년은 모든 벤더가 신세대 CPU를 동시 출시하는 유례없는 경쟁의 해

데이터센터 CPU의 역할 변화와 진화

  • PC 시대부터 닷컴 시대까지

    • 1990년대 PC 프로세서의 성능 향상으로 메인프레임·워크스테이션을 대체하는 수요 발생, Intel이 Pentium Pro(1995)와 Xeon 브랜드(1998)로 서버 시장 진입
    • 2000년대 인터넷 시대에 Web 2.0, 전자상거래, 스마트폰 확산으로 데이터센터 CPU가 수십억 달러 시장으로 성장
    • GHz 경쟁 종료 후 멀티코어 CPU와 메모리 컨트롤러 통합(AMD), PCIe 직접 연결 등 설계 혁신이 진행
    • SMT(Simultaneous Multi-Threading)가 Intel과 AMD 양사에서 도입되어 병렬 처리 성능 향상
  • 가상화·클라우드 컴퓨팅 하이퍼스케일러 시대

    • 2000년대 후반 AWS 등 퍼블릭 클라우드 등장으로 CapEx에서 OpEx 모델로 전환, 서버리스 컴퓨팅(AWS Lambda 등)까지 발전
    • CPU 하드웨어 가상화가 클라우드의 핵심 기반으로, 하이퍼바이저(VMware ESXi 등)가 단일 CPU에서 다수의 독립 VM 운영
    • 2018년 Spectre와 Meltdown 취약점으로 SMT 비활성화 필요성 대두, 최대 30% 성능 손실 발생
      • 분기 예측 기능을 이용한 공격으로 클라우드 보안 위협이 현실화
  • AI GPU와 CPU 통합 시대

    • ChatGPT 출시(2022년 11월) 이전 5년간 Intel은 1억 개 이상의 Xeon Scalable CPU를 출하
    • AI 모델 학습·추론은 GPU의 대규모 벡터 유닛과 Tensor Core에서 100~1000배 더 효율적으로 수행
    • CPU는 GPU 대비 행렬 연산 성능이 극히 낮아 지원 역할로 격하, GPU에 전력 우선 배분
    • CPU 활용은 두 가지로 분화:
      • 헤드 노드: GPU에 데이터를 공급하고 관리, 높은 코어 성능·대용량 캐시·고대역폭 메모리 필요 (NVIDIA Grace, Venice+MI455X, Graviton5+Trainium3 등)
      • 클라우드 네이티브 소켓 통합: 전력 효율 극대화를 위해 구형 서버를 최신 CPU로 10:1 이상 비율로 교체, COVID 시기 구매한 수백만 대의 Intel Cascade Lake 서버가 퇴역 중
  • 강화학습·에이전틱 시대

    • Microsoft의 OpenAI용 "Fairwater" 데이터센터에서 48MW CPU·스토리지 빌딩이 295MW GPU 클러스터를 지원, 수만 개의 CPU가 페타바이트급 데이터 처리에 투입
    • 강화학습(RL) 환경에서 모델이 생성한 행동을 실행하고 보상을 계산하기 위해 코드 컴파일, 검증, 해석, 도구 사용 등에 대량의 CPU 필요
      • GPU 성능 향상 속도가 CPU를 크게 앞서, 향후 Rubin 세대에서 CPU 대 GPU 전력 비율이 1:6 이상으로 확대될 가능성
    • RAG 모델과 에이전틱 모델이 API 호출·인터넷 검색·데이터베이스 쿼리를 대규모로 수행하며 범용 CPU 수요 급증
    • AWS와 Azure가 자체 Graviton·Cobalt CPU와 x86 서버를 대량 구축 중
    • Frontier AI 연구소들이 RL 학습용 CPU 부족에 직면, 클라우드 제공업체와 범용 x86 서버 확보를 두고 직접 경쟁
    • Intel은 예상치 못한 재고 고갈로 Xeon 가격 인상을 검토하며 추가 생산 도구 확보 중
    • AMD는 공급 역량을 확대하며 2026년 서버 CPU TAM이 "강한 두 자릿수" 성장할 것으로 전망

멀티코어 CPU 인터커넥트의 역사

  • 초기 크로스바 설계와 한계

    • 초기 듀얼코어(Intel Pentium D, AMD Athlon 64 X2, 2005년)에서 FSB(Front Side Bus) 또는 온다이 NoC 기반 연결
    • 크로스바 방식은 코어 수 증가 시 연결 수가 급증(2코어=1, 4코어=6, 6코어=15, 8코어=28)하여 4코어가 실질적 한계
    • AMD Istanbul(2009)이 6-way 크로스바, Magny-Cours(2010)가 듀얼 다이 12코어, Interlagos가 16코어로 확장
  • Intel 링 버스 아키텍처

    • Intel Nehalem-EX(2010)에서 링 버스 도입, 8코어를 단일 다이에 통합하며 IMC와 QPI 링크 포함
    • 이중 역회전 링으로 지연시간과 혼잡 완화, 코어 대 코어 접근 지연은 비균일(NUMA)
    • Ivy Bridge-EX: 3열 5행 배치에 3개 "가상 링"으로 15코어 달성
    • Haswell/Broadwell: 듀얼 독립 링 버스로 18~24코어, 그러나 링 간 버퍼드 스위치 통과 시 100ns 이상 지연 발생
      • "Cluster on Die" 구성으로 2개 NUMA 노드 분리 가능
  • Intel 메시 아키텍처

    • 2016년 Xeon Phi "Knights Landing" 에서 메시 인터커넥트 도입, 2017년 Skylake-X Xeon Scalable(28코어)로 확대
    • 2D 격자 배열로 코어·L3 캐시 슬라이스·PCIe IO·IMC·가속기를 각 메시 스톱에 배치
    • Sub-NUMA Clustering(SNC) 모드로 메시를 사분면 분할하여 평균 지연시간 감소
    • Skylake-X: 6x6 메시, 메시 클럭 2.4GHz로 Broadwell 듀얼 링과 유사한 평균 지연시간 달성
    • Ice Lake: 10nm 전환으로 8x7 메시에 40코어까지 확장(레티클 한계)
  • EMIB을 통한 분산 메시

    • Sapphire Rapids: Intel 7 노드에서 단일 모놀리식 다이로는 34코어에 그침, AMX 엔진 추가로 코어 면적 증가
      • EMIB 어드밴스드 패키징으로 4개 다이를 연결, 8x12 메시 구성으로 60코어 달성(약 1600mm² 실리콘)
      • 코어 대 코어 평균 지연이 47ns(Skylake)에서 59ns로 악화
      • 각 코어의 프라이빗 L2 캐시를 2MB로 증가(총 L2 > L3: 120MB vs 112.5MB)
      • E5 스테핑까지 진행되며 수년간 지연, 원래 2021년 예정이었으나 2023년 초 출시
    • Emerald Rapids(2023년 말): 다이 수를 2개로 줄이고 코어 66개(최대 64개 활성), L3 캐시를 320MB로 거의 3배 증가
  • Xeon 6의 이종 분산 설계

    • 2024년 Xeon 6 플랫폼에서 I/O와 컴퓨팅을 이종 분리: I/O 다이는 Intel 7, 컴퓨트 다이는 Intel 3
    • P-코어 Granite Rapids와 E-코어 Sierra Forest 구성을 혼합 가능
    • Granite Rapids-AP Xeon 6900P: 3개 컴퓨트 다이로 10x19 메시, 132코어(최대 128코어 활성)
    • Sierra Forest: E-코어 4개를 클러스터로 묶어 8x6 메시에 144코어, 그러나 하이퍼스케일러가 이미 AMD·자체 ARM CPU를 채택하여 도입 제한적
      • 듀얼 다이 288코어 Sierra Forest-AP(Xeon 6900E)는 소량 생산에 그침
  • Clearwater Forest의 한계

    • Xeon 6+ Clearwater Forest-AP: Intel의 Foveros Direct 하이브리드 본딩으로 18A 코어 다이를 Intel 3 베이스 다이 위에 적층, 288코어 달성
    • 12개의 24코어 컴퓨트 다이로 구성된 복잡한 설계
    • Foveros Direct 통합 문제로 H2 2025에서 H1 2026으로 지연
    • 4코어 클러스터당 베이스 다이 L3·메시 접근 대역폭이 35GB/s에 불과
    • 2년의 간격에도 Sierra Forest 대비 동일 코어 수 기준 17% 성능 향상에 그침
    • Intel은 Q4 2025 실적 발표에서 Clearwater Forest를 거의 언급하지 않았으며, 고볼륨 생산보다 Foveros Direct 수율 학습 차량으로 활용할 가능성

AMD Zen 인터커넥트 아키텍처

  • EPYC Naples (2017)

    • AMD의 데이터센터 복귀작으로, 4개의 "Zeppelin" 다이를 MCM으로 구성해 32코어 달성
    • 각 다이에 2개의 CCX(4코어+8MB L3, 크로스바 연결), 다이 간 Infinity Fabric on Package(IFOP) 링크
    • 통합 L3 캐시 부재와 다수의 NUMA 도메인(Intra-CCX, Inter-CCX, Die-to-die, Inter-Socket)으로 지연시간 편차가 큼
    • Intel이 "4개의 데스크톱 다이를 접착한 것"이라고 조롱했으나, 소규모 팀의 자원 효율적 설계
  • EPYC Rome (2019) 이후 세대 진화

    • Rome: 중앙 I/O 다이 주위에 8개 8코어 CCD 배치, CCD는 TSMC N7, I/O 다이는 GlobalFoundries 12nm
      • 모든 CCX 간 통신이 I/O 다이를 경유하는 GMI 링크 방식으로 기능적으로 16개 4코어 NUMA 노드
    • Milan(2021): CCX 크기를 8코어로 확대하며 링 버스 채택, Rome의 I/O 다이 재사용
    • Genoa(2022): 12개 CCD, Turin(2024): 최대 16개 CCD로 128코어(EPYC 9755), DDR5·PCIe5로 업그레이드
    • 칩렛 설계의 핵심 이점: 단일 CCD 테이프아웃으로 전체 코어 수 라인업 구성 가능, 소형 다이로 수율·출시 속도 유리
    • 콤팩트 Zen 4c/Zen 5c 코어 변형으로 Bergamo(Zen 4c), Turin-Dense(192코어)도 동일 플랫폼에서 제공

Intel Diamond Rapids 아키텍처

  • 4개의 CBB(Core Building Block) 다이가 2개의 IMH(I/O and Memory Hub) 다이를 둘러싸는 구조로, AMD 설계와 외형적으로 유사
  • 각 CBB 내 32개의 듀얼 코어 모듈(DCM)이 Intel 18A-P로 제작되어 Intel 3-PT 베이스 다이에 하이브리드 본딩
    • 2개 코어가 공통 L2 캐시 공유, 2008년 Dunnington 세대를 연상시키는 설계
  • 총 256코어이나 메인스트림 SKU에는 최대 192코어 활성화 예상
  • IMH 다이: 16채널 DDR5, PCIe6(CXL3 지원), Intel 데이터 경로 가속기(QAT, DLB, IAA, DSA)
  • EMIB 대신 패키지 기판 위 장거리 트레이스로 다이 간 연결, 각 CBB가 양쪽 IMH에 직접 접근 가능
    • 다만 크로스-CBB 지연시간은 상당히 악화 예상
  • SMT 제거 문제

    • Spectre/Meltdown 이후 Intel이 P-코어에서 SMT를 제거, 2024년 클라이언트 Lion Cove부터 적용
    • 데이터센터에서는 최대 처리량이 중요하므로 Diamond Rapids에 심각한 약점
    • 현행 Granite Rapids 128코어/256스레드 대비, 192코어/192스레드 Diamond Rapids는 약 40% 성능 향상에 그칠 전망
    • 메인스트림 8채널 Diamond Rapids-SP 플랫폼을 전면 취소, 최소 2028년까지 해당 시장에 신세대 부재
      • AI 도구 사용·컨텍스트 스토리지에 필요한 범용 컴퓨팅 CPU 시장을 놓치는 결과

AMD Venice 아키텍처

  • AMD가 처음으로 어드밴스드 패키징 기술을 채택, 고속 단거리 링크로 CCD와 I/O 다이 연결
  • CCD 링크용 추가 쇼어라인으로 인해 중앙 I/O 허브가 2개 다이로 분리, 칩 양쪽 간 추가 NUMA 도메인 발생
  • 16개 메모리 채널(Genoa의 12채널에서 증가), MRDIMM-12800 멀티플렉스 메모리로 1.64TB/s 대역폭(Turin 대비 2.67배)
  • CCD 내부에 메시 네트워크 도입: 32개 Zen6c 코어가 4x8 격자 배치, TSMC N2 공정
  • 8개 CCD로 총 256코어, Turin-Dense 192코어 대비 1/3 증가
  • Zen6c에 코어당 4MB L3 캐시 전량 할당(이전 Zen5c는 절반), CCD당 128MB 캐시 영역
  • AI 헤드 노드용 저코어·고클럭 "-F" SKU: 데스크톱/모바일용 12코어 Zen6 CCD 활용, 최대 96코어
  • I/O 다이 옆 DDR5 인터페이스 근처에 8개의 소형 IPD(Integrated Passive Device)로 전력 공급 안정화
  • Venice 성능 및 신규 명령어

    • 256코어 최상위 모델이 192코어 Turin 대비 SPECrate®2017_int_base에서 와트당 성능 1.7배 이상
    • Zen 6 마이크로아키텍처의 높은 IPC(Instructions per Clock) 향상
    • 신규 AI 데이터타입 명령어: AVX512_FP16, AVX_VVNI_INT8, AVX512_BMM(비트 행렬 곱셈)
      • BMM: FPU 레지스터에 16x16 바이너리 행렬 저장, OR·XOR 연산으로 BMM 누적 수행
      • Verilog 시뮬레이션 등에 효율적이나 LLM에는 정밀도 부족으로 채택 제한적 전망
    • AMD 96코어 Turin이 Intel 128코어 Granite Rapids와 동등한 상황에서, Venice와 Diamond Rapids 간 성능 격차 더욱 확대 전망
    • Intel이 8채널 프로세서를 취소한 반면 AMD는 새로운 8채널 Venice SP8 플랫폼 도입, EPYC 8004 Siena 후속으로 최대 128코어 Zen 6c 제공
      • Intel의 전통적 강세 영역인 엔터프라이즈 시장에서 AMD의 점유율 확대 예상

NVIDIA Grace 및 Vera

  • Grace CPU

    • GPU 헤드 노드와 확장 GPU 메모리를 위한 설계, NVLink-C2C(양방향 900GB/s)로 GPU가 CPU 메모리에 풀 대역폭 접근
    • 모바일급 LPDDR5X 메모리 채택, 512비트 메모리 버스로 500GB/s 대역폭, CPU당 최대 480GB
    • ARM Neoverse V2 코어 72개(76개 중 활성), 6x7 메시, 117MB L3 캐시
    • 메시 네트워크 양방향 분할 대역폭 3.2TB/s로 데이터 흐름에 특화
    • 마이크로아키텍처적 병목: Branch Target Buffer가 24개 리전 초과 시 성능 급락, 32개 리전 초과 시 64MB 버퍼 전체 플러시 발생
      • 최적화되지 않은 HPC 코드에서 50% 성능 저하, GB200/GB300의 AI 워크로드에도 영향
  • Vera CPU (2026)

    • Rubin 플랫폼용으로 C2C 대역폭 1.8TB/s로 2배 증가
    • 8개 128비트 SOCAMM 모듈로 1.5TB 메모리, 1.2TB/s 대역폭
    • 7x13 메시에 91코어(88개 활성), L3 캐시 162MB
    • CoWoS-R 패키징: 1개 3nm 레티클 크기 컴퓨트 다이 + 4개 LPDDR5 메모리 다이 + 1개 PCIe6/CXL3 IO 다이(총 6개 다이)
    • Neoverse 코어의 성능 병목에서 벗어나 자체 설계 Olympus 코어 복귀
      • 88코어/176스레드(SMT 지원), ARMv9.2, FPU 6x 128b 포트(Neoverse V2의 4개에서 확대)
      • ARM SVE2 FP8 연산 지원, 코어당 2MB L2 캐시(Grace 대비 2배)
      • 전체적으로 2배 성능 향상

AWS Graviton5

  • AWS는 최초로 자체 CPU를 클라우드에 성공 배치한 하이퍼스케일러, Annapurna Labs 인수와 ARM Neoverse CSS 활용
  • Graviton2: COVID 붐 시기 대폭 할인으로 ARM 전환 유도, 64개 Neoverse N1 코어
  • Graviton3: Neoverse V1으로 코어당 부동소수점 성능 2배, EMIB 칩렛 설계, DDR5·PCIe5를 AMD·Intel보다 1년 먼저 도입
  • Graviton4: Neoverse V2 코어 96개, 12채널 메모리, PCIe5 96레인, 듀얼소켓 지원
  • Graviton5(2025년 12월 프리뷰): 192개 Neoverse V3 코어, TSMC 3nm, 1720억 트랜지스터
    • L3 캐시 192MB(Graviton4의 36MB에서 대폭 증가), 12채널 DDR5-8800
    • PCIe6 업그레이드이나 레인 수는 96→64개로 감소(미사용 레인 비용 최적화)
    • 8x12 메시, 2코어가 메시 스톱 공유, 복수 컴퓨트 다이 분할 및 새로운 패키징 전략 채택
  • AWS 내부적으로 수천 개 Graviton CPU를 CI/CD·EDA에 사용하여 차세대 Graviton·Trainium·Nitro 설계에 활용(자체 도그푸딩)
  • Trainium3 가속기가 Graviton CPU를 헤드 노드로 사용(1 CPU : 4 XPU)

Microsoft Cobalt 200

  • Cobalt 100(2023, 128 Neoverse N2 코어) 후속으로 2025년 말 출시
  • 132개 Neoverse V3 코어, 코어당 3MB L2 캐시, TSMC 3nm 컴퓨트 다이 2개
  • 다이당 8x8 메시, 72코어 인쇄/66코어 활성, 192MB L3 캐시, 6채널 DDR5, 64레인 PCIe6
  • Cobalt 100 대비 50% 성능 향상
  • Azure 범용 CPU 컴퓨팅 서비스 전용, AI 헤드 노드에는 미사용(Microsoft Maia 200은 Intel Granite Rapids 채택)

Google Axion C4A, N4A

  • 2024년 발표·2025년 GA, Google의 GCP 커스텀 실리콘 CPU 시장 진입
  • Axion C4A: 최대 72개 Neoverse V2 코어, 8채널 DDR5, PCIe5, 모놀리식 5nm 다이(81코어 인쇄, 9x9 메시)
    • 2025년 말 프리뷰된 96코어 베어메탈 인스턴스용 새로운 3nm 다이 설계로 추정
  • Axion N4A: 비용 효율적 스케일아웃용, 64개 Neoverse N3 코어, TSMC 3nm 풀 커스텀 설계
  • Google 내부 인프라(Gmail, YouTube, Google Play 등)를 ARM으로 전환 중, 향후 TPU 클러스터 헤드 노드에도 Axion 배치 계획

Ampere Computing과 SoftBank 인수

  • 머천트 ARM 실리콘의 선구자로 Oracle과 파트너십, Altra(80코어)와 Altra Max(128코어)로 x86 독점 도전
    • Neoverse N1 코어, 자체 메시 인터커넥트(4코어 클러스터), 8채널 DDR4, 128 PCIe4 레인, TSMC 7nm 단일 다이
  • AmpereOne: 5nm 공정, 192코어, I/O 칩렛 분리(DDR5·PCIe), 인터포저 불필요한 MCM 설계
    • 커스텀 ARM 코어(코어 밀도 최적화) + 2MB L2 캐시(노이지 네이버 문제 완화)
    • 칩렛 재사용으로 12채널 AmpereOne-M, 3nm 256코어 AmpereOne-MX 등 변형 계획
  • 2025년 SoftBank이 65억 달러에 인수, Stargate 벤처를 위한 CPU 설계 인력 확보 목적
  • Ampere 실패 원인:
    • Altra 세대는 ARM 네이티브 소프트웨어 미성숙 시기에 너무 이른 출시
    • AmpereOne은 다수 지연으로 2024년 하반기에야 가용, 이미 하이퍼스케일러 ARM CPU가 본격화되고 AMD가 3~4배 높은 코어당 성능으로 192코어 제공
    • Oracle의 Ampere CPU 구매액: FY2023 4800만 달러 → FY2024 300만 달러 → FY2025 370만 달러로 급감

ARM Phoenix

  • ARM이 2026년 풀 데이터센터 CPU 설계·판매 사업 진출, 기존 Neoverse CSS 라이선서 고객과 직접 경쟁
  • 현재까지 데이터센터 CPU·DPU에 10억 개 이상의 Neoverse 코어 배치, 12개 기업 대상 21건의 CSS 라이선스
  • 데이터센터 로열티 수익 전년 대비 2배 이상 성장, 향후 수년 내 CSS가 로열티 수익의 50% 이상 차지 전망
  • Phoenix: 128개 Neoverse V3 코어, ARM CMN 메시, TSMC 3nm 하프 레티클 2개 다이
    • 12채널 DDR5(8400MT/s), 96레인 PCIe Gen 6, TDP 250~350W 설정 가능
    • 첫 고객은 Meta, OpenAI(Stargate/SoftBank 벤처)와 Cloudflare도 고객 후보
    • PCIe6 기반 Accelerator Enablement Kit으로 XPU와 코히런트 공유 메모리 연결 가능

Huawei Kunpeng

  • Kunpeng 920 및 920B

    • 초기 세대(Hi1610~Kunpeng 916): ARM Cortex A57→A72, TSMC 16nm
    • Kunpeng 920(2019): 64코어 커스텀 TaiShan V110, 2개 TSMC 7nm 컴퓨트 다이, CoWoS-S 패키징(최초의 CPU CoWoS-S 적용)
      • 8채널 DDR4, 40 PCIe4 레인, 듀얼 100GbE 통합
      • 미국 제재로 TSMC 공급 차단, 차세대 Kunpeng 930 미출시
    • Kunpeng 920B(2024): TaiShan V120 코어에 SMT 지원, 다이당 10개 4코어 클러스터(총 80코어/160스레드)
      • 8채널 DDR5, I/O 다이 분리 배치, SMIC N+2 공정으로 재설계(5년 공백)
  • Kunpeng 950 (2026)

    • 192코어 신규 LinxiCore(SMT 지원), 96코어 소형 버전도 생산
    • TaiShan 950 SuperPoD 랙 구성: 16개 듀얼소켓 서버, 최대 48TB DDR5(12채널 추정)
    • Kunpeng 920B 대비 OLTP 데이터베이스 성능 2.9배 향상(GaussDB Multi-Write 기반)
    • Oracle Exadata 데이터베이스 서버와 중국 금융권 채택 예정
    • SMIC N+3 공정으로 생산 추정
  • Kunpeng 960 (2028 로드맵)

    • 고성능 버전: 96코어/192스레드, AI 헤드 노드·데이터베이스용, 코어당 성능 50% 이상 향상
    • 고밀도 버전: 가상화·클라우드용 256코어 이상
    • 중국 하이퍼스케일러 CPU 시장에서 상당한 점유율 확보 전망

Read Entire Article