노르웨이의 2페타바이트 Huawei 플래시 스토리지와 LLM 학습

2 days ago 4

노르웨이 국립도서관은 노르웨이어를 이해하는 주권 LLM 구축을 위해 2PB Huawei OceanStor Dorado 플래시 스토리지를 AI 학습 파이프라인에 투입함
상용 LLM 제공업체가 노르웨이어 지역 모델을 만들지 않는 상황에서, 영어 중심 LLM은 지역 언어로 기록된 역사·뉴스·문화를 제대로 다루기 어려움
국립도서관은 2005년부터 책, 신문, 웹페이지, 소리, 동영상 등을 디지털화해 고유 데이터 20PB를 보유하고, 3-2-1 방식으로 약 60PB를 저장함
병목은 컴퓨트보다 데이터 품질·정제·처리량에 있으며, 내부 DGX H200·CPU 클러스터·Huawei 플래시에서 준비한 뒤 Sigma2 Olivia에서 학습함
보존 아카이브와 AI 파이프라인은 내구성·비용과 저지연·병렬 I/O라는 요구가 달라, 주권 LLM에는 관리와 보관 역량도 필요함

노르웨이 국립도서관의 주권 LLM 프로젝트

노르웨이 국립도서관(Nasjonalbiblioteket)은 노르웨이어를 이해하는 대규모 언어 모델(LLM) 을 개발 중이며, AI 학습 데이터 파이프라인에 2PB Huawei OceanStor Dorado 플래시 스토리지를 사용함
Marius Husnes 국립도서관 IT 플랫폼 책임자는 Huawei ID Forum 2026 Paris에서 상용 LLM 제공업체가 노르웨이어 지역 언어 LLM을 개발하지 않고 있다고 밝힘
자국어로 학습된 주권 LLM이 없는 국가는 전 세계 데이터와 영어 중심으로 학습된 LLM에 의존하게 되며, 이런 모델은 지역 언어로 기록된 역사, 뉴스, 문화를 알기 어려움
노르웨이 문화부는 국립도서관에 주권 AI, 즉 LLM 구축을 맡겼고, 국립도서관은 노르웨이에서 가장 큰 디지털 책, 신문, 웹페이지 컬렉션을 보유함
국립도서관은 출판된 모든 책과 방송 콘텐츠의 사본을 받을 권리가 있으며, 납본 의무는 책을 넘어 노르웨이 문화유산 전체를 수집·보존하는 역할로 확장됨
노르웨이 신문사들과의 합의로 저작권이 있는 콘텐츠도 LLM 학습에 사용할 수 있으며, Husnes는 “민간 기업에는 이것이 없다”고 말함

핵심 과제는 보존 시스템에 있는 데이터를 LLM 학습 시스템으로 전달하는 것임
병목은 컴퓨트가 아니라 데이터 품질, 정제, 파이프라인 처리량에 있음
처리 과정은 국립도서관 내부 컴퓨팅 환경의 데이터 준비와 국가 슈퍼컴퓨터의 실제 학습 실행으로 나뉨
내부 환경은 다음 장비로 구성됨
- Nvidia DGX H200 시스템
- 384코어 CPU 클러스터
- 총 2PB 플래시 용량의 여러 Huawei OceanStor Dorado 올플래시 어레이
Huawei 플래시 스토리지는 데이터 파이프라인과 학습 준비를 위한 저지연 스토리지로 사용됨
파이프라인은 데이터 수집, 정제, 중복 제거, 포맷 정규화, 검증, 준비 단계를 포함함

파이프라인을 통과한 데이터는 실제 학습 실행을 위해 노르웨이 국가 슈퍼컴퓨터인 Sigma2 Olivia 시스템으로 전송됨
Olivia는 HPE Cray Supercomputing EX 시스템임
Olivia의 구성은 다음과 같음
- 448개 GPU
- 64,512개 CPU 코어
- 5.3PB Cray ClusterStor E1000 스토리지 시스템
국립도서관의 온프레미스 AI 환경은 데이터를 준비하고, Olivia는 학습 실행을 담당함

평가
- 주권 노르웨이어 LLM을 평가할 표준 평가 도구가 없음
- 노르웨이어에는 두 가지 문어 형태가 있고, 여러 방언과 역사적 변화가 존재함
- 국립도서관 팀은 자체 평가 도구를 구축하는 중임
거버넌스
- 주권 LLM 접근 권한을 누가 통제할지 정해야 함
- 주권 LLM을 무엇에 사용할 수 있는지 누가 결정할지도 과제임
- 이는 제도적·정치적 질문이며 쉬운 답이 없음
오케스트레이션
- 보존 아카이브, 온프레미스 AI 환경, 국가 Sigma2 슈퍼컴퓨터라는 세 시스템을 원활하게 함께 동작시키는 작업이 계속 진행 중임