노르웨이의 2페타바이트 Huawei 플래시 스토리지와 LLM 학습

2 days ago 4
  • 노르웨이 국립도서관은 노르웨이어를 이해하는 주권 LLM 구축을 위해 2PB Huawei OceanStor Dorado 플래시 스토리지를 AI 학습 파이프라인에 투입함
  • 상용 LLM 제공업체가 노르웨이어 지역 모델을 만들지 않는 상황에서, 영어 중심 LLM은 지역 언어로 기록된 역사·뉴스·문화를 제대로 다루기 어려움
  • 국립도서관은 2005년부터 책, 신문, 웹페이지, 소리, 동영상 등을 디지털화해 고유 데이터 20PB를 보유하고, 3-2-1 방식으로 약 60PB를 저장함
  • 병목은 컴퓨트보다 데이터 품질·정제·처리량에 있으며, 내부 DGX H200·CPU 클러스터·Huawei 플래시에서 준비한 뒤 Sigma2 Olivia에서 학습함
  • 보존 아카이브와 AI 파이프라인은 내구성·비용과 저지연·병렬 I/O라는 요구가 달라, 주권 LLM에는 관리와 보관 역량도 필요함

노르웨이 국립도서관의 주권 LLM 프로젝트

  • 노르웨이 국립도서관(Nasjonalbiblioteket)은 노르웨이어를 이해하는 대규모 언어 모델(LLM) 을 개발 중이며, AI 학습 데이터 파이프라인에 2PB Huawei OceanStor Dorado 플래시 스토리지를 사용함
  • Marius Husnes 국립도서관 IT 플랫폼 책임자는 Huawei ID Forum 2026 Paris에서 상용 LLM 제공업체가 노르웨이어 지역 언어 LLM을 개발하지 않고 있다고 밝힘
  • 자국어로 학습된 주권 LLM이 없는 국가는 전 세계 데이터와 영어 중심으로 학습된 LLM에 의존하게 되며, 이런 모델은 지역 언어로 기록된 역사, 뉴스, 문화를 알기 어려움
  • 노르웨이 문화부는 국립도서관에 주권 AI, 즉 LLM 구축을 맡겼고, 국립도서관은 노르웨이에서 가장 큰 디지털 책, 신문, 웹페이지 컬렉션을 보유함
  • 국립도서관은 출판된 모든 책과 방송 콘텐츠의 사본을 받을 권리가 있으며, 납본 의무는 책을 넘어 노르웨이 문화유산 전체를 수집·보존하는 역할로 확장됨
  • 노르웨이 신문사들과의 합의로 저작권이 있는 콘텐츠도 LLM 학습에 사용할 수 있으며, Husnes는 “민간 기업에는 이것이 없다”고 말함

데이터 보유량과 디지털화 기반

  • 국립도서관은 2005년부터 컬렉션을 디지털화해 고유 데이터 20PB를 축적함
  • 이 데이터는 3-2-1 방식으로 저장됨
    • 3개 사본
    • 2개 미디어 유형
    • 1개 오프사이트 보관
  • 이 구조 때문에 전체 저장량은 약 60PB에 달함
  • 디지털화 대상은 원문 텍스트, 소리, 동영상, 정지 이미지, 웹 콘텐츠를 포함함
  • 디지털화 과정에서 많은 OCR 스캔이 이뤄졌고, 대량의 메타데이터와 온라인 접근용 API도 생성됨
  • 대부분의 데이터는 디지털 디스크와 테이프 아카이브로 구성된 보존 시스템에 저장됨

아카이브에서 AI 파이프라인으로 데이터를 옮기는 문제

  • 핵심 과제는 보존 시스템에 있는 데이터를 LLM 학습 시스템으로 전달하는 것임
  • 병목은 컴퓨트가 아니라 데이터 품질, 정제, 파이프라인 처리량에 있음
  • 처리 과정은 국립도서관 내부 컴퓨팅 환경의 데이터 준비와 국가 슈퍼컴퓨터의 실제 학습 실행으로 나뉨
  • 내부 환경은 다음 장비로 구성됨
    • Nvidia DGX H200 시스템
    • 384코어 CPU 클러스터
    • 총 2PB 플래시 용량의 여러 Huawei OceanStor Dorado 올플래시 어레이
  • Huawei 플래시 스토리지는 데이터 파이프라인과 학습 준비를 위한 저지연 스토리지로 사용됨
  • 파이프라인은 데이터 수집, 정제, 중복 제거, 포맷 정규화, 검증, 준비 단계를 포함함

학습 실행 환경: Sigma2 Olivia

  • 파이프라인을 통과한 데이터는 실제 학습 실행을 위해 노르웨이 국가 슈퍼컴퓨터인 Sigma2 Olivia 시스템으로 전송됨
  • Olivia는 HPE Cray Supercomputing EX 시스템임
  • Olivia의 구성은 다음과 같음
    • 448개 GPU
    • 64,512개 CPU 코어
    • 5.3PB Cray ClusterStor E1000 스토리지 시스템
  • 국립도서관의 온프레미스 AI 환경은 데이터를 준비하고, Olivia는 학습 실행을 담당함

서로 다른 스토리지 요구사항

  • 보존 아카이브AI 파이프라인 스토리지는 요구사항이 다름
  • 60PB 보존 시스템은 내구성과 비용에 최적화되어 있고, 빠른 I/O에는 최적화되어 있지 않음
  • 보존 시스템은 드문 접근을 전제로 설계되어 읽기 지연시간이 높음
  • AI 파이프라인 스토리지는 높은 처리량, 낮은 지연시간, 병렬 데이터 I/O를 위해 설계됨
  • PB 규모 데이터셋을 아카이브에서 AI 데이터 파이프라인으로 옮기고 처리하는 방법은 팀이 직접 찾아야 했음

아직 해결 중인 과제

  • 평가

    • 주권 노르웨이어 LLM을 평가할 표준 평가 도구가 없음
    • 노르웨이어에는 두 가지 문어 형태가 있고, 여러 방언과 역사적 변화가 존재함
    • 국립도서관 팀은 자체 평가 도구를 구축하는 중임
  • 거버넌스

    • 주권 LLM 접근 권한을 누가 통제할지 정해야 함
    • 주권 LLM을 무엇에 사용할 수 있는지 누가 결정할지도 과제임
    • 이는 제도적·정치적 질문이며 쉬운 답이 없음
  • 오케스트레이션

    • 보존 아카이브, 온프레미스 AI 환경, 국가 Sigma2 슈퍼컴퓨터라는 세 시스템을 원활하게 함께 동작시키는 작업이 계속 진행 중임

의미와 결론

  • Huawei 스토리지는 유럽 시장에서 중요하고 실질적인 역할을 하고 있음
  • 주권 지역 언어 LLM을 개발하려는 국가는 Husnes와 협의하고 필요한 작업을 이해하는 것이 유익할 수 있음
  • 노르웨이는 영어권이 아닌 모든 국가가 마주할 문제를 다루는 작은 국가로 제시됨
  • 핵심 질문은 자국 언어, 문화, 역사를 반영하는 AI를 어떻게 구축할 것인가임
  • AI에는 단순한 구축자뿐 아니라 관리자와 보관자가 필요함
Read Entire Article