GLM-5.1: 장기적 과제 수행을 향한 진화

5 days ago 2
  • 차세대 에이전틱 엔지니어링 모델 GLM-5.1은 코딩과 문제 해결 능력을 대폭 강화한 플래그십 버전으로, 장기적 최적화와 지속적 개선을 핵심으로 설계됨
  • SWE-Bench Pro, NL2Repo, Terminal-Bench 2.0 등 주요 벤치마크에서 최고 수준의 성능을 기록하며, 장시간 반복 실행에서도 생산적 지속성을 유지함
  • VectorDBBench, KernelBench, 웹앱 구축 시나리오 등에서 수백~수천 회 반복을 통해 성능을 계속 향상시키며, 자체 로그 분석과 전략 수정으로 병목을 제거함
  • 모델은 자기 평가와 구조적 전환을 통해 복잡한 소프트웨어 엔지니어링 과제에서도 효율적으로 작동하고, 장기 실행 시 결과 품질이 꾸준히 개선됨
  • MIT 라이선스 오픈소스로 공개되어 다양한 플랫폼과 프레임워크에서 사용 가능하며, 장기 최적화형 AI 모델의 새로운 기준으로 제시됨

GLM-5.1 개요

  • GLM-5.1은 차세대 에이전틱 엔지니어링(agentic engineering) 모델로, 이전 버전보다 코딩 성능이 크게 향상된 플래그십 모델
  • SWE-Bench Pro에서 최고 성능을 기록하고, NL2Repo(저장소 생성)Terminal-Bench 2.0(실제 터미널 작업) 에서도 GLM-5 대비 큰 격차로 우위 확보
  • 단순 1회 실행 성능을 넘어, 장기적 최적화 능력지속적 문제 해결력을 중점으로 설계됨
  • 모호한 문제를 더 잘 판단하고, 긴 세션에서도 생산성을 유지하며, 반복적 실험과 전략 수정으로 수백 회 반복에도 성능을 계속 향상시킴
  • 긴 시간 동안 실행할수록 결과가 개선되는 구조로, 장기적 작업 지속성(long-horizon capability) 을 핵심 특징으로 함

복잡한 소프트웨어 엔지니어링 과제

  • GLM-5.1은 복잡한 소프트웨어 엔지니어링 작업에서 최고 수준의 성능을 달성
  • 이전 모델들은 초기 성능 향상 후 빠르게 정체되지만, GLM-5.1은 장기적 에이전틱 작업에서도 효율 유지
  • 모델은 문제를 세분화하고, 실험을 수행하며, 결과를 분석해 병목을 식별하고, 반복적 추론을 통해 전략을 수정
  • 세 가지 점진적으로 구조화가 약한 과제에서 이를 입증함
    • 벡터 검색 최적화 문제 (단일 수치 지표 기반)
    • GPU 커널 벤치마크 (문제별 속도 향상 측정)
    • 웹 애플리케이션 구축 (명시적 지표 없이 자체 판단 기반 개선)

시나리오 1: 600회 반복을 통한 벡터 데이터베이스 최적화

  • VectorDBBench는 근사 최근접 탐색용 고성능 데이터베이스를 구축하는 모델의 코딩 능력을 평가하는 오픈소스 챌린지
  • 모델은 Rust 기반 스켈레톤 코드와 HTTP API 엔드포인트를 제공받고, 50회 도구 호출(tool-call) 내에서 파일 읽기/쓰기, 컴파일, 테스트, 프로파일링을 수행
  • 기존 최고 성능은 Claude Opus 4.6의 3,547 QPS(Recall ≥ 95%) 였음
  • GLM-5.1은 외부 최적화 루프를 추가해 600회 이상 반복(6,000회 이상 도구 호출) 수행, 최종적으로 21.5k QPS 달성
    • 이는 단일 50회 세션 대비 약 6배 향상
  • 성능 향상 과정은 계단형(staircase) 패턴을 보이며, 점진적 튜닝과 구조적 전환이 교차
    • 약 90회차: IVF 클러스터 프로빙 + f16 벡터 압축 도입 → 6.4k QPS
    • 약 240회차: u8 프리스코어링 + f16 리랭킹 2단계 파이프라인 도입 → 13.4k QPS
  • 총 6회의 구조적 전환이 발생했으며, 각 전환은 모델이 자체 로그를 분석해 병목을 식별한 결과
  • Recall이 95% 미만으로 떨어진 지점은 주로 새로운 전략 탐색 시점에 집중됨

시나리오 2: 1,000회 이상 반복을 통한 머신러닝 워크로드 최적화

  • KernelBench는 PyTorch 기준 구현을 동일 출력의 더 빠른 GPU 커널로 변환하는 모델의 능력을 평가
  • 세 단계(Level 1~3)로 구성되며, Level 3은 MobileNet, VGG, MiniGPT, Mamba 등 전체 모델 단위 최적화를 포함
  • torch.compile 기본 설정은 1.15×, max-autotune은 1.49× 속도 향상 달성
  • GLM-5.1은 Level 3에서 3.6× 속도 향상을 기록하며, GLM-5보다 훨씬 긴 시간 동안 유효한 최적화를 지속
  • GLM-5는 초기 급상승 후 정체, Claude Opus 4.5는 더 오래 지속되나 후반에 둔화
  • Claude Opus 4.6은 최종적으로 4.2× 로 가장 높은 성능을 유지하며, 여전히 추가 개선 여지 존재

시나리오 3: 8시간 동안의 Linux 데스크톱 웹앱 구축

  • 웹사이트 생성은 명시적 수치 지표가 없는 주관적 과제로, 완성도·시각적 품질·상호작용 품질이 평가 기준
  • 테스트 프롬프트: “Linux 스타일 데스크톱 환경을 웹 애플리케이션으로 구축하라
    • 초기 코드, 디자인, 중간 피드백 없이 시작
  • 대부분의 모델은 기본 UI만 생성 후 종료하지만, GLM-5.1은 자체 결과 검토 및 개선 루프를 통해 지속적 발전 수행
  • 8시간 동안 반복 실행하며, 초기 단순 레이아웃에서 점차 완전한 데스크톱 환경으로 확장
    • 파일 브라우저, 터미널, 텍스트 에디터, 시스템 모니터, 계산기, 게임 등 추가
    • 각 기능이 일관된 UI로 통합, 스타일과 상호작용 품질이 점진적으로 개선
  • 최종 결과는 브라우저 내에서 실행되는 완전하고 시각적으로 일관된 데스크톱 환경

장기 최적화의 의미와 과제

  • 세 시나리오 모두에서 핵심 변수는 실행 시간 자체가 아니라, 추가 시간이 실제로 유효한가
  • GLM-5.1은 GLM-5 대비 생산적 지속 시간(productive horizon) 을 크게 확장
  • 그러나 KernelBench 등 일부 과제에서는 여전히 개선 여지 존재
  • 남은 과제
    • 점진적 튜닝이 한계에 도달했을 때 지역 최적점 탈출
    • 수천 회 도구 호출에 걸친 일관성 유지
    • 명시적 수치 지표가 없는 과제에서의 신뢰할 수 있는 자기 평가(self-evaluation)
  • GLM-5.1은 이러한 장기 최적화 방향으로의 첫 단계로 제시됨

벤치마크 비교 요약

  • GLM-5.1은 SWE-Bench Pro 58.4, NL2Repo 42.7, Terminal-Bench 2.0 63.5 등 주요 코딩 벤치마크에서 GLM-5를 능가
  • Reasoning, Coding, Agentic 전반에서 경쟁 모델 대비 상위권 성능
  • Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4 등 최신 모델과 비교 시에도 다수 항목에서 근접 또는 우위

공개 및 사용 방법

  • MIT 라이선스로 오픈소스 공개
  • api.z.ai, BigModel.cn에서 사용 가능하며, Claude CodeOpenClaw와 호환
  • GLM Coding Plan 구독자는 모델명을 "GLM-5.1"로 변경해 즉시 사용 가능
    • 피크 시간(UTC+8 14:00–18:00)에는 3×, 비피크 시간에는 2× 쿼터 소모
    • 4월 말까지 비피크 시간은 1×로 프로모션 적용
  • GUI 환경으로는 Z Code 제공, SSH를 통한 원격 개발 및 모바일 작업 지원
  • 모델 가중치는 HuggingFaceModelScope에서 공개
  • vLLM, SGLang 등 주요 추론 프레임워크 지원, GitHub에서 배포 가이드 제공
  • Z.ai 채팅 플랫폼에서도 사용 가능 예정

평가 설정 및 주석

  • HLE 및 기타 추론 과제: 최대 163,840 토큰 생성, GPT-5.2를 판정 모델로 사용
  • SWE-Bench Pro: 200K 컨텍스트 윈도우, OpenHands 기반 실행
  • NL2Repo: 악성 명령 탐지 및 차단 포함
  • Terminal-Bench 2.0: 16 CPU, 32GB RAM 제한, 3시간 타임아웃
  • KernelBench Level 3: H100 GPU 환경, 1,200회 도구 호출 제한, 독립 감사 수행
  • CyberGym, MCP-Atlas, τ³-bench, Vending Bench 2 등 다양한 외부 벤치마크에서 독립 평가 수행
Read Entire Article