노르웨이의 2페타바이트 Huawei 플래시 스토리지와 LLM 학습
2 days ago
4
- 노르웨이 국립도서관은 노르웨이어를 이해하는 주권 LLM 구축을 위해 2PB Huawei OceanStor Dorado 플래시 스토리지를 AI 학습 파이프라인에 투입함
- 상용 LLM 제공업체가 노르웨이어 지역 모델을 만들지 않는 상황에서, 영어 중심 LLM은 지역 언어로 기록된 역사·뉴스·문화를 제대로 다루기 어려움
- 국립도서관은 2005년부터 책, 신문, 웹페이지, 소리, 동영상 등을 디지털화해 고유 데이터 20PB를 보유하고, 3-2-1 방식으로 약 60PB를 저장함
- 병목은 컴퓨트보다 데이터 품질·정제·처리량에 있으며, 내부 DGX H200·CPU 클러스터·Huawei 플래시에서 준비한 뒤 Sigma2 Olivia에서 학습함
- 보존 아카이브와 AI 파이프라인은 내구성·비용과 저지연·병렬 I/O라는 요구가 달라, 주권 LLM에는 관리와 보관 역량도 필요함
노르웨이 국립도서관의 주권 LLM 프로젝트
- 노르웨이 국립도서관(Nasjonalbiblioteket)은 노르웨이어를 이해하는 대규모 언어 모델(LLM) 을 개발 중이며, AI 학습 데이터 파이프라인에 2PB Huawei OceanStor Dorado 플래시 스토리지를 사용함
- Marius Husnes 국립도서관 IT 플랫폼 책임자는 Huawei ID Forum 2026 Paris에서 상용 LLM 제공업체가 노르웨이어 지역 언어 LLM을 개발하지 않고 있다고 밝힘
- 자국어로 학습된 주권 LLM이 없는 국가는 전 세계 데이터와 영어 중심으로 학습된 LLM에 의존하게 되며, 이런 모델은 지역 언어로 기록된 역사, 뉴스, 문화를 알기 어려움
- 노르웨이 문화부는 국립도서관에 주권 AI, 즉 LLM 구축을 맡겼고, 국립도서관은 노르웨이에서 가장 큰 디지털 책, 신문, 웹페이지 컬렉션을 보유함
- 국립도서관은 출판된 모든 책과 방송 콘텐츠의 사본을 받을 권리가 있으며, 납본 의무는 책을 넘어 노르웨이 문화유산 전체를 수집·보존하는 역할로 확장됨
- 노르웨이 신문사들과의 합의로 저작권이 있는 콘텐츠도 LLM 학습에 사용할 수 있으며, Husnes는 “민간 기업에는 이것이 없다”고 말함
데이터 보유량과 디지털화 기반
- 국립도서관은 2005년부터 컬렉션을 디지털화해 고유 데이터 20PB를 축적함
- 이 데이터는 3-2-1 방식으로 저장됨
- 3개 사본
- 2개 미디어 유형
- 1개 오프사이트 보관
- 이 구조 때문에 전체 저장량은 약 60PB에 달함
- 디지털화 대상은 원문 텍스트, 소리, 동영상, 정지 이미지, 웹 콘텐츠를 포함함
- 디지털화 과정에서 많은 OCR 스캔이 이뤄졌고, 대량의 메타데이터와 온라인 접근용 API도 생성됨
- 대부분의 데이터는 디지털 디스크와 테이프 아카이브로 구성된 보존 시스템에 저장됨
아카이브에서 AI 파이프라인으로 데이터를 옮기는 문제
- 핵심 과제는 보존 시스템에 있는 데이터를 LLM 학습 시스템으로 전달하는 것임
- 병목은 컴퓨트가 아니라 데이터 품질, 정제, 파이프라인 처리량에 있음
- 처리 과정은 국립도서관 내부 컴퓨팅 환경의 데이터 준비와 국가 슈퍼컴퓨터의 실제 학습 실행으로 나뉨
- 내부 환경은 다음 장비로 구성됨
- Nvidia DGX H200 시스템
- 384코어 CPU 클러스터
- 총 2PB 플래시 용량의 여러 Huawei OceanStor Dorado 올플래시 어레이
- Huawei 플래시 스토리지는 데이터 파이프라인과 학습 준비를 위한 저지연 스토리지로 사용됨
- 파이프라인은 데이터 수집, 정제, 중복 제거, 포맷 정규화, 검증, 준비 단계를 포함함
학습 실행 환경: Sigma2 Olivia
- 파이프라인을 통과한 데이터는 실제 학습 실행을 위해 노르웨이 국가 슈퍼컴퓨터인 Sigma2 Olivia 시스템으로 전송됨
- Olivia는 HPE Cray Supercomputing EX 시스템임
- Olivia의 구성은 다음과 같음
- 448개 GPU
- 64,512개 CPU 코어
- 5.3PB Cray ClusterStor E1000 스토리지 시스템
- 국립도서관의 온프레미스 AI 환경은 데이터를 준비하고, Olivia는 학습 실행을 담당함
서로 다른 스토리지 요구사항
- 보존 아카이브와 AI 파이프라인 스토리지는 요구사항이 다름
- 60PB 보존 시스템은 내구성과 비용에 최적화되어 있고, 빠른 I/O에는 최적화되어 있지 않음
- 보존 시스템은 드문 접근을 전제로 설계되어 읽기 지연시간이 높음
- AI 파이프라인 스토리지는 높은 처리량, 낮은 지연시간, 병렬 데이터 I/O를 위해 설계됨
- PB 규모 데이터셋을 아카이브에서 AI 데이터 파이프라인으로 옮기고 처리하는 방법은 팀이 직접 찾아야 했음
아직 해결 중인 과제
-
평가
- 주권 노르웨이어 LLM을 평가할 표준 평가 도구가 없음
- 노르웨이어에는 두 가지 문어 형태가 있고, 여러 방언과 역사적 변화가 존재함
- 국립도서관 팀은 자체 평가 도구를 구축하는 중임
-
거버넌스
- 주권 LLM 접근 권한을 누가 통제할지 정해야 함
- 주권 LLM을 무엇에 사용할 수 있는지 누가 결정할지도 과제임
- 이는 제도적·정치적 질문이며 쉬운 답이 없음
-
오케스트레이션
- 보존 아카이브, 온프레미스 AI 환경, 국가 Sigma2 슈퍼컴퓨터라는 세 시스템을 원활하게 함께 동작시키는 작업이 계속 진행 중임
의미와 결론
- Huawei 스토리지는 유럽 시장에서 중요하고 실질적인 역할을 하고 있음
- 주권 지역 언어 LLM을 개발하려는 국가는 Husnes와 협의하고 필요한 작업을 이해하는 것이 유익할 수 있음
- 노르웨이는 영어권이 아닌 모든 국가가 마주할 문제를 다루는 작은 국가로 제시됨
- 핵심 질문은 자국 언어, 문화, 역사를 반영하는 AI를 어떻게 구축할 것인가임
- AI에는 단순한 구축자뿐 아니라 관리자와 보관자가 필요함
-
Homepage
-
개발자
- 노르웨이의 2페타바이트 Huawei 플래시 스토리지와 LLM 학습