CPU의 귀환: 2026년 데이터센터 CPU 시장 전망

3 hours ago 1

강화학습과 에이전틱 AI 추론의 폭발적 수요로 데이터센터에서 CPU의 역할이 다시 급부상하며, GPU 중심이던 투자 흐름에 변화 발생
Intel은 2025년 말 예상치 못한 서버 CPU 수요 급증을 경험하고 2026년 파운드리 설비 투자를 확대하며 PC용 웨이퍼를 서버로 전환 중
AMD Venice는 TSMC N2 공정 기반 256코어 Zen6c CCD와 메시 네트워크를 도입해 성능과 전력 효율 모두에서 Intel 대비 격차 확대 전망
NVIDIA, AWS, Microsoft, Google, ARM 등 하이퍼스케일러 자체 ARM CPU 진영이 본격 확대되며 x86 독점 구도가 빠르게 해체 중
Huawei Kunpeng 950까지 포함해 2026년은 모든 벤더가 신세대 CPU를 동시 출시하는 유례없는 경쟁의 해

데이터센터 CPU의 역할 변화와 진화

PC 시대부터 닷컴 시대까지
- 1990년대 PC 프로세서의 성능 향상으로 메인프레임·워크스테이션을 대체하는 수요 발생, Intel이 Pentium Pro(1995)와 Xeon 브랜드(1998)로 서버 시장 진입
- 2000년대 인터넷 시대에 Web 2.0, 전자상거래, 스마트폰 확산으로 데이터센터 CPU가 수십억 달러 시장으로 성장
- GHz 경쟁 종료 후 멀티코어 CPU와 메모리 컨트롤러 통합(AMD), PCIe 직접 연결 등 설계 혁신이 진행
- SMT(Simultaneous Multi-Threading)가 Intel과 AMD 양사에서 도입되어 병렬 처리 성능 향상
가상화·클라우드 컴퓨팅 하이퍼스케일러 시대
- 2000년대 후반 AWS 등 퍼블릭 클라우드 등장으로 CapEx에서 OpEx 모델로 전환, 서버리스 컴퓨팅(AWS Lambda 등)까지 발전
- CPU 하드웨어 가상화가 클라우드의 핵심 기반으로, 하이퍼바이저(VMware ESXi 등)가 단일 CPU에서 다수의 독립 VM 운영
- 2018년 Spectre와 Meltdown 취약점으로 SMT 비활성화 필요성 대두, 최대 30% 성능 손실 발생
  - 분기 예측 기능을 이용한 공격으로 클라우드 보안 위협이 현실화
AI GPU와 CPU 통합 시대
- ChatGPT 출시(2022년 11월) 이전 5년간 Intel은 1억 개 이상의 Xeon Scalable CPU를 출하
- AI 모델 학습·추론은 GPU의 대규모 벡터 유닛과 Tensor Core에서 100~1000배 더 효율적으로 수행
- CPU는 GPU 대비 행렬 연산 성능이 극히 낮아 지원 역할로 격하, GPU에 전력 우선 배분
- CPU 활용은 두 가지로 분화:
  - 헤드 노드: GPU에 데이터를 공급하고 관리, 높은 코어 성능·대용량 캐시·고대역폭 메모리 필요 (NVIDIA Grace, Venice+MI455X, Graviton5+Trainium3 등)
  - 클라우드 네이티브 소켓 통합: 전력 효율 극대화를 위해 구형 서버를 최신 CPU로 10:1 이상 비율로 교체, COVID 시기 구매한 수백만 대의 Intel Cascade Lake 서버가 퇴역 중
강화학습·에이전틱 시대
- Microsoft의 OpenAI용 "Fairwater" 데이터센터에서 48MW CPU·스토리지 빌딩이 295MW GPU 클러스터를 지원, 수만 개의 CPU가 페타바이트급 데이터 처리에 투입
- 강화학습(RL) 환경에서 모델이 생성한 행동을 실행하고 보상을 계산하기 위해 코드 컴파일, 검증, 해석, 도구 사용 등에 대량의 CPU 필요
  - GPU 성능 향상 속도가 CPU를 크게 앞서, 향후 Rubin 세대에서 CPU 대 GPU 전력 비율이 1:6 이상으로 확대될 가능성
- RAG 모델과 에이전틱 모델이 API 호출·인터넷 검색·데이터베이스 쿼리를 대규모로 수행하며 범용 CPU 수요 급증
- AWS와 Azure가 자체 Graviton·Cobalt CPU와 x86 서버를 대량 구축 중
- Frontier AI 연구소들이 RL 학습용 CPU 부족에 직면, 클라우드 제공업체와 범용 x86 서버 확보를 두고 직접 경쟁
- Intel은 예상치 못한 재고 고갈로 Xeon 가격 인상을 검토하며 추가 생산 도구 확보 중
- AMD는 공급 역량을 확대하며 2026년 서버 CPU TAM이 "강한 두 자릿수" 성장할 것으로 전망

멀티코어 CPU 인터커넥트의 역사

초기 크로스바 설계와 한계
- 초기 듀얼코어(Intel Pentium D, AMD Athlon 64 X2, 2005년)에서 FSB(Front Side Bus) 또는 온다이 NoC 기반 연결
- 크로스바 방식은 코어 수 증가 시 연결 수가 급증(2코어=1, 4코어=6, 6코어=15, 8코어=28)하여 4코어가 실질적 한계
- AMD Istanbul(2009)이 6-way 크로스바, Magny-Cours(2010)가 듀얼 다이 12코어, Interlagos가 16코어로 확장
Intel 링 버스 아키텍처
- Intel Nehalem-EX(2010)에서 링 버스 도입, 8코어를 단일 다이에 통합하며 IMC와 QPI 링크 포함
- 이중 역회전 링으로 지연시간과 혼잡 완화, 코어 대 코어 접근 지연은 비균일(NUMA)
- Ivy Bridge-EX: 3열 5행 배치에 3개 "가상 링"으로 15코어 달성
- Haswell/Broadwell: 듀얼 독립 링 버스로 18~24코어, 그러나 링 간 버퍼드 스위치 통과 시 100ns 이상 지연 발생
  - "Cluster on Die" 구성으로 2개 NUMA 노드 분리 가능
Intel 메시 아키텍처
- 2016년 Xeon Phi "Knights Landing" 에서 메시 인터커넥트 도입, 2017년 Skylake-X Xeon Scalable(28코어)로 확대
- 2D 격자 배열로 코어·L3 캐시 슬라이스·PCIe IO·IMC·가속기를 각 메시 스톱에 배치
- Sub-NUMA Clustering(SNC) 모드로 메시를 사분면 분할하여 평균 지연시간 감소
- Skylake-X: 6x6 메시, 메시 클럭 2.4GHz로 Broadwell 듀얼 링과 유사한 평균 지연시간 달성
- Ice Lake: 10nm 전환으로 8x7 메시에 40코어까지 확장(레티클 한계)
EMIB을 통한 분산 메시
- Sapphire Rapids: Intel 7 노드에서 단일 모놀리식 다이로는 34코어에 그침, AMX 엔진 추가로 코어 면적 증가
  - EMIB 어드밴스드 패키징으로 4개 다이를 연결, 8x12 메시 구성으로 60코어 달성(약 1600mm² 실리콘)
  - 코어 대 코어 평균 지연이 47ns(Skylake)에서 59ns로 악화
  - 각 코어의 프라이빗 L2 캐시를 2MB로 증가(총 L2 > L3: 120MB vs 112.5MB)
  - E5 스테핑까지 진행되며 수년간 지연, 원래 2021년 예정이었으나 2023년 초 출시
- Emerald Rapids(2023년 말): 다이 수를 2개로 줄이고 코어 66개(최대 64개 활성), L3 캐시를 320MB로 거의 3배 증가
Xeon 6의 이종 분산 설계
- 2024년 Xeon 6 플랫폼에서 I/O와 컴퓨팅을 이종 분리: I/O 다이는 Intel 7, 컴퓨트 다이는 Intel 3
- P-코어 Granite Rapids와 E-코어 Sierra Forest 구성을 혼합 가능
- Granite Rapids-AP Xeon 6900P: 3개 컴퓨트 다이로 10x19 메시, 132코어(최대 128코어 활성)
- Sierra Forest: E-코어 4개를 클러스터로 묶어 8x6 메시에 144코어, 그러나 하이퍼스케일러가 이미 AMD·자체 ARM CPU를 채택하여 도입 제한적
  - 듀얼 다이 288코어 Sierra Forest-AP(Xeon 6900E)는 소량 생산에 그침
Clearwater Forest의 한계
- Xeon 6+ Clearwater Forest-AP: Intel의 Foveros Direct 하이브리드 본딩으로 18A 코어 다이를 Intel 3 베이스 다이 위에 적층, 288코어 달성
- 12개의 24코어 컴퓨트 다이로 구성된 복잡한 설계
- Foveros Direct 통합 문제로 H2 2025에서 H1 2026으로 지연
- 4코어 클러스터당 베이스 다이 L3·메시 접근 대역폭이 35GB/s에 불과
- 2년의 간격에도 Sierra Forest 대비 동일 코어 수 기준 17% 성능 향상에 그침
- Intel은 Q4 2025 실적 발표에서 Clearwater Forest를 거의 언급하지 않았으며, 고볼륨 생산보다 Foveros Direct 수율 학습 차량으로 활용할 가능성

AMD Zen 인터커넥트 아키텍처

EPYC Naples (2017)
- AMD의 데이터센터 복귀작으로, 4개의 "Zeppelin" 다이를 MCM으로 구성해 32코어 달성
- 각 다이에 2개의 CCX(4코어+8MB L3, 크로스바 연결), 다이 간 Infinity Fabric on Package(IFOP) 링크
- 통합 L3 캐시 부재와 다수의 NUMA 도메인(Intra-CCX, Inter-CCX, Die-to-die, Inter-Socket)으로 지연시간 편차가 큼
- Intel이 "4개의 데스크톱 다이를 접착한 것"이라고 조롱했으나, 소규모 팀의 자원 효율적 설계
EPYC Rome (2019) 이후 세대 진화
- Rome: 중앙 I/O 다이 주위에 8개 8코어 CCD 배치, CCD는 TSMC N7, I/O 다이는 GlobalFoundries 12nm
  - 모든 CCX 간 통신이 I/O 다이를 경유하는 GMI 링크 방식으로 기능적으로 16개 4코어 NUMA 노드
- Milan(2021): CCX 크기를 8코어로 확대하며 링 버스 채택, Rome의 I/O 다이 재사용
- Genoa(2022): 12개 CCD, Turin(2024): 최대 16개 CCD로 128코어(EPYC 9755), DDR5·PCIe5로 업그레이드
- 칩렛 설계의 핵심 이점: 단일 CCD 테이프아웃으로 전체 코어 수 라인업 구성 가능, 소형 다이로 수율·출시 속도 유리
- 콤팩트 Zen 4c/Zen 5c 코어 변형으로 Bergamo(Zen 4c), Turin-Dense(192코어)도 동일 플랫폼에서 제공

Intel Diamond Rapids 아키텍처

4개의 CBB(Core Building Block) 다이가 2개의 IMH(I/O and Memory Hub) 다이를 둘러싸는 구조로, AMD 설계와 외형적으로 유사
각 CBB 내 32개의 듀얼 코어 모듈(DCM)이 Intel 18A-P로 제작되어 Intel 3-PT 베이스 다이에 하이브리드 본딩
- 2개 코어가 공통 L2 캐시 공유, 2008년 Dunnington 세대를 연상시키는 설계
총 256코어이나 메인스트림 SKU에는 최대 192코어 활성화 예상
IMH 다이: 16채널 DDR5, PCIe6(CXL3 지원), Intel 데이터 경로 가속기(QAT, DLB, IAA, DSA)
EMIB 대신 패키지 기판 위 장거리 트레이스로 다이 간 연결, 각 CBB가 양쪽 IMH에 직접 접근 가능
- 다만 크로스-CBB 지연시간은 상당히 악화 예상
SMT 제거 문제
- Spectre/Meltdown 이후 Intel이 P-코어에서 SMT를 제거, 2024년 클라이언트 Lion Cove부터 적용
- 데이터센터에서는 최대 처리량이 중요하므로 Diamond Rapids에 심각한 약점
- 현행 Granite Rapids 128코어/256스레드 대비, 192코어/192스레드 Diamond Rapids는 약 40% 성능 향상에 그칠 전망
- 메인스트림 8채널 Diamond Rapids-SP 플랫폼을 전면 취소, 최소 2028년까지 해당 시장에 신세대 부재
  - AI 도구 사용·컨텍스트 스토리지에 필요한 범용 컴퓨팅 CPU 시장을 놓치는 결과

AMD Venice 아키텍처

AMD가 처음으로 어드밴스드 패키징 기술을 채택, 고속 단거리 링크로 CCD와 I/O 다이 연결
CCD 링크용 추가 쇼어라인으로 인해 중앙 I/O 허브가 2개 다이로 분리, 칩 양쪽 간 추가 NUMA 도메인 발생
16개 메모리 채널(Genoa의 12채널에서 증가), MRDIMM-12800 멀티플렉스 메모리로 1.64TB/s 대역폭(Turin 대비 2.67배)
CCD 내부에 메시 네트워크 도입: 32개 Zen6c 코어가 4x8 격자 배치, TSMC N2 공정
8개 CCD로 총 256코어, Turin-Dense 192코어 대비 1/3 증가
Zen6c에 코어당 4MB L3 캐시 전량 할당(이전 Zen5c는 절반), CCD당 128MB 캐시 영역
AI 헤드 노드용 저코어·고클럭 "-F" SKU: 데스크톱/모바일용 12코어 Zen6 CCD 활용, 최대 96코어
I/O 다이 옆 DDR5 인터페이스 근처에 8개의 소형 IPD(Integrated Passive Device)로 전력 공급 안정화
Venice 성능 및 신규 명령어
- 256코어 최상위 모델이 192코어 Turin 대비 SPECrate®2017_int_base에서 와트당 성능 1.7배 이상
- Zen 6 마이크로아키텍처의 높은 IPC(Instructions per Clock) 향상
- 신규 AI 데이터타입 명령어: AVX512_FP16, AVX_VVNI_INT8, AVX512_BMM(비트 행렬 곱셈)
  - BMM: FPU 레지스터에 16x16 바이너리 행렬 저장, OR·XOR 연산으로 BMM 누적 수행
  - Verilog 시뮬레이션 등에 효율적이나 LLM에는 정밀도 부족으로 채택 제한적 전망
- AMD 96코어 Turin이 Intel 128코어 Granite Rapids와 동등한 상황에서, Venice와 Diamond Rapids 간 성능 격차 더욱 확대 전망
- Intel이 8채널 프로세서를 취소한 반면 AMD는 새로운 8채널 Venice SP8 플랫폼 도입, EPYC 8004 Siena 후속으로 최대 128코어 Zen 6c 제공
  - Intel의 전통적 강세 영역인 엔터프라이즈 시장에서 AMD의 점유율 확대 예상

NVIDIA Grace 및 Vera

Grace CPU
- GPU 헤드 노드와 확장 GPU 메모리를 위한 설계, NVLink-C2C(양방향 900GB/s)로 GPU가 CPU 메모리에 풀 대역폭 접근
- 모바일급 LPDDR5X 메모리 채택, 512비트 메모리 버스로 500GB/s 대역폭, CPU당 최대 480GB
- ARM Neoverse V2 코어 72개(76개 중 활성), 6x7 메시, 117MB L3 캐시
- 메시 네트워크 양방향 분할 대역폭 3.2TB/s로 데이터 흐름에 특화
- 마이크로아키텍처적 병목: Branch Target Buffer가 24개 리전 초과 시 성능 급락, 32개 리전 초과 시 64MB 버퍼 전체 플러시 발생
  - 최적화되지 않은 HPC 코드에서 50% 성능 저하, GB200/GB300의 AI 워크로드에도 영향
Vera CPU (2026)
- Rubin 플랫폼용으로 C2C 대역폭 1.8TB/s로 2배 증가
- 8개 128비트 SOCAMM 모듈로 1.5TB 메모리, 1.2TB/s 대역폭
- 7x13 메시에 91코어(88개 활성), L3 캐시 162MB
- CoWoS-R 패키징: 1개 3nm 레티클 크기 컴퓨트 다이 + 4개 LPDDR5 메모리 다이 + 1개 PCIe6/CXL3 IO 다이(총 6개 다이)
- Neoverse 코어의 성능 병목에서 벗어나 자체 설계 Olympus 코어 복귀
  - 88코어/176스레드(SMT 지원), ARMv9.2, FPU 6x 128b 포트(Neoverse V2의 4개에서 확대)
  - ARM SVE2 FP8 연산 지원, 코어당 2MB L2 캐시(Grace 대비 2배)
  - 전체적으로 2배 성능 향상

AWS Graviton5

AWS는 최초로 자체 CPU를 클라우드에 성공 배치한 하이퍼스케일러, Annapurna Labs 인수와 ARM Neoverse CSS 활용
Graviton2: COVID 붐 시기 대폭 할인으로 ARM 전환 유도, 64개 Neoverse N1 코어
Graviton3: Neoverse V1으로 코어당 부동소수점 성능 2배, EMIB 칩렛 설계, DDR5·PCIe5를 AMD·Intel보다 1년 먼저 도입
Graviton4: Neoverse V2 코어 96개, 12채널 메모리, PCIe5 96레인, 듀얼소켓 지원
Graviton5(2025년 12월 프리뷰): 192개 Neoverse V3 코어, TSMC 3nm, 1720억 트랜지스터
- L3 캐시 192MB(Graviton4의 36MB에서 대폭 증가), 12채널 DDR5-8800
- PCIe6 업그레이드이나 레인 수는 96→64개로 감소(미사용 레인 비용 최적화)
- 8x12 메시, 2코어가 메시 스톱 공유, 복수 컴퓨트 다이 분할 및 새로운 패키징 전략 채택
AWS 내부적으로 수천 개 Graviton CPU를 CI/CD·EDA에 사용하여 차세대 Graviton·Trainium·Nitro 설계에 활용(자체 도그푸딩)
Trainium3 가속기가 Graviton CPU를 헤드 노드로 사용(1 CPU : 4 XPU)

Microsoft Cobalt 200

Cobalt 100(2023, 128 Neoverse N2 코어) 후속으로 2025년 말 출시
132개 Neoverse V3 코어, 코어당 3MB L2 캐시, TSMC 3nm 컴퓨트 다이 2개
다이당 8x8 메시, 72코어 인쇄/66코어 활성, 192MB L3 캐시, 6채널 DDR5, 64레인 PCIe6
Cobalt 100 대비 50% 성능 향상
Azure 범용 CPU 컴퓨팅 서비스 전용, AI 헤드 노드에는 미사용(Microsoft Maia 200은 Intel Granite Rapids 채택)

Google Axion C4A, N4A

2024년 발표·2025년 GA, Google의 GCP 커스텀 실리콘 CPU 시장 진입
Axion C4A: 최대 72개 Neoverse V2 코어, 8채널 DDR5, PCIe5, 모놀리식 5nm 다이(81코어 인쇄, 9x9 메시)
- 2025년 말 프리뷰된 96코어 베어메탈 인스턴스용 새로운 3nm 다이 설계로 추정
Axion N4A: 비용 효율적 스케일아웃용, 64개 Neoverse N3 코어, TSMC 3nm 풀 커스텀 설계
Google 내부 인프라(Gmail, YouTube, Google Play 등)를 ARM으로 전환 중, 향후 TPU 클러스터 헤드 노드에도 Axion 배치 계획

Ampere Computing과 SoftBank 인수

머천트 ARM 실리콘의 선구자로 Oracle과 파트너십, Altra(80코어)와 Altra Max(128코어)로 x86 독점 도전
- Neoverse N1 코어, 자체 메시 인터커넥트(4코어 클러스터), 8채널 DDR4, 128 PCIe4 레인, TSMC 7nm 단일 다이
AmpereOne: 5nm 공정, 192코어, I/O 칩렛 분리(DDR5·PCIe), 인터포저 불필요한 MCM 설계
- 커스텀 ARM 코어(코어 밀도 최적화) + 2MB L2 캐시(노이지 네이버 문제 완화)
- 칩렛 재사용으로 12채널 AmpereOne-M, 3nm 256코어 AmpereOne-MX 등 변형 계획
2025년 SoftBank이 65억 달러에 인수, Stargate 벤처를 위한 CPU 설계 인력 확보 목적
Ampere 실패 원인:
- Altra 세대는 ARM 네이티브 소프트웨어 미성숙 시기에 너무 이른 출시
- AmpereOne은 다수 지연으로 2024년 하반기에야 가용, 이미 하이퍼스케일러 ARM CPU가 본격화되고 AMD가 3~4배 높은 코어당 성능으로 192코어 제공
- Oracle의 Ampere CPU 구매액: FY2023 4800만 달러 → FY2024 300만 달러 → FY2025 370만 달러로 급감

ARM Phoenix

ARM이 2026년 풀 데이터센터 CPU 설계·판매 사업 진출, 기존 Neoverse CSS 라이선서 고객과 직접 경쟁
현재까지 데이터센터 CPU·DPU에 10억 개 이상의 Neoverse 코어 배치, 12개 기업 대상 21건의 CSS 라이선스
데이터센터 로열티 수익 전년 대비 2배 이상 성장, 향후 수년 내 CSS가 로열티 수익의 50% 이상 차지 전망
Phoenix: 128개 Neoverse V3 코어, ARM CMN 메시, TSMC 3nm 하프 레티클 2개 다이
- 12채널 DDR5(8400MT/s), 96레인 PCIe Gen 6, TDP 250~350W 설정 가능
- 첫 고객은 Meta, OpenAI(Stargate/SoftBank 벤처)와 Cloudflare도 고객 후보
- PCIe6 기반 Accelerator Enablement Kit으로 XPU와 코히런트 공유 메모리 연결 가능

Huawei Kunpeng

Kunpeng 920 및 920B
- 초기 세대(Hi1610~Kunpeng 916): ARM Cortex A57→A72, TSMC 16nm
- Kunpeng 920(2019): 64코어 커스텀 TaiShan V110, 2개 TSMC 7nm 컴퓨트 다이, CoWoS-S 패키징(최초의 CPU CoWoS-S 적용)
  - 8채널 DDR4, 40 PCIe4 레인, 듀얼 100GbE 통합
  - 미국 제재로 TSMC 공급 차단, 차세대 Kunpeng 930 미출시
- Kunpeng 920B(2024): TaiShan V120 코어에 SMT 지원, 다이당 10개 4코어 클러스터(총 80코어/160스레드)
  - 8채널 DDR5, I/O 다이 분리 배치, SMIC N+2 공정으로 재설계(5년 공백)
Kunpeng 950 (2026)
- 192코어 신규 LinxiCore(SMT 지원), 96코어 소형 버전도 생산
- TaiShan 950 SuperPoD 랙 구성: 16개 듀얼소켓 서버, 최대 48TB DDR5(12채널 추정)
- Kunpeng 920B 대비 OLTP 데이터베이스 성능 2.9배 향상(GaussDB Multi-Write 기반)
- Oracle Exadata 데이터베이스 서버와 중국 금융권 채택 예정
- SMIC N+3 공정으로 생산 추정
Kunpeng 960 (2028 로드맵)
- 고성능 버전: 96코어/192스레드, AI 헤드 노드·데이터베이스용, 코어당 성능 50% 이상 향상
- 고밀도 버전: 가상화·클라우드용 256코어 이상
- 중국 하이퍼스케일러 CPU 시장에서 상당한 점유율 확보 전망