GLM-5.1: 장기적 과제 수행을 향한 진화

1 month ago 20

차세대 에이전틱 엔지니어링 모델 GLM-5.1은 코딩과 문제 해결 능력을 대폭 강화한 플래그십 버전으로, 장기적 최적화와 지속적 개선을 핵심으로 설계됨
SWE-Bench Pro, NL2Repo, Terminal-Bench 2.0 등 주요 벤치마크에서 최고 수준의 성능을 기록하며, 장시간 반복 실행에서도 생산적 지속성을 유지함
VectorDBBench, KernelBench, 웹앱 구축 시나리오 등에서 수백~수천 회 반복을 통해 성능을 계속 향상시키며, 자체 로그 분석과 전략 수정으로 병목을 제거함
모델은 자기 평가와 구조적 전환을 통해 복잡한 소프트웨어 엔지니어링 과제에서도 효율적으로 작동하고, 장기 실행 시 결과 품질이 꾸준히 개선됨
MIT 라이선스 오픈소스로 공개되어 다양한 플랫폼과 프레임워크에서 사용 가능하며, 장기 최적화형 AI 모델의 새로운 기준으로 제시됨

GLM-5.1 개요

GLM-5.1은 차세대 에이전틱 엔지니어링(agentic engineering) 모델로, 이전 버전보다 코딩 성능이 크게 향상된 플래그십 모델임
SWE-Bench Pro에서 최고 성능을 기록하고, NL2Repo(저장소 생성) 및 Terminal-Bench 2.0(실제 터미널 작업) 에서도 GLM-5 대비 큰 격차로 우위 확보
단순 1회 실행 성능을 넘어, 장기적 최적화 능력과 지속적 문제 해결력을 중점으로 설계됨
모호한 문제를 더 잘 판단하고, 긴 세션에서도 생산성을 유지하며, 반복적 실험과 전략 수정으로 수백 회 반복에도 성능을 계속 향상시킴
긴 시간 동안 실행할수록 결과가 개선되는 구조로, 장기적 작업 지속성(long-horizon capability) 을 핵심 특징으로 함

GLM-5.1은 복잡한 소프트웨어 엔지니어링 작업에서 최고 수준의 성능을 달성
이전 모델들은 초기 성능 향상 후 빠르게 정체되지만, GLM-5.1은 장기적 에이전틱 작업에서도 효율 유지
모델은 문제를 세분화하고, 실험을 수행하며, 결과를 분석해 병목을 식별하고, 반복적 추론을 통해 전략을 수정
세 가지 점진적으로 구조화가 약한 과제에서 이를 입증함
- 벡터 검색 최적화 문제 (단일 수치 지표 기반)
- GPU 커널 벤치마크 (문제별 속도 향상 측정)
- 웹 애플리케이션 구축 (명시적 지표 없이 자체 판단 기반 개선)

VectorDBBench는 근사 최근접 탐색용 고성능 데이터베이스를 구축하는 모델의 코딩 능력을 평가하는 오픈소스 챌린지
모델은 Rust 기반 스켈레톤 코드와 HTTP API 엔드포인트를 제공받고, 50회 도구 호출(tool-call) 내에서 파일 읽기/쓰기, 컴파일, 테스트, 프로파일링을 수행
기존 최고 성능은 Claude Opus 4.6의 3,547 QPS(Recall ≥ 95%) 였음
GLM-5.1은 외부 최적화 루프를 추가해 600회 이상 반복(6,000회 이상 도구 호출) 수행, 최종적으로 21.5k QPS 달성
- 이는 단일 50회 세션 대비 약 6배 향상
성능 향상 과정은 계단형(staircase) 패턴을 보이며, 점진적 튜닝과 구조적 전환이 교차
- 약 90회차: IVF 클러스터 프로빙 + f16 벡터 압축 도입 → 6.4k QPS
- 약 240회차: u8 프리스코어링 + f16 리랭킹 2단계 파이프라인 도입 → 13.4k QPS
총 6회의 구조적 전환이 발생했으며, 각 전환은 모델이 자체 로그를 분석해 병목을 식별한 결과
Recall이 95% 미만으로 떨어진 지점은 주로 새로운 전략 탐색 시점에 집중됨

KernelBench는 PyTorch 기준 구현을 동일 출력의 더 빠른 GPU 커널로 변환하는 모델의 능력을 평가
세 단계(Level 1~3)로 구성되며, Level 3은 MobileNet, VGG, MiniGPT, Mamba 등 전체 모델 단위 최적화를 포함
torch.compile 기본 설정은 1.15×, max-autotune은 1.49× 속도 향상 달성
GLM-5.1은 Level 3에서 3.6× 속도 향상을 기록하며, GLM-5보다 훨씬 긴 시간 동안 유효한 최적화를 지속
GLM-5는 초기 급상승 후 정체, Claude Opus 4.5는 더 오래 지속되나 후반에 둔화
Claude Opus 4.6은 최종적으로 4.2× 로 가장 높은 성능을 유지하며, 여전히 추가 개선 여지 존재

웹사이트 생성은 명시적 수치 지표가 없는 주관적 과제로, 완성도·시각적 품질·상호작용 품질이 평가 기준
테스트 프롬프트: “Linux 스타일 데스크톱 환경을 웹 애플리케이션으로 구축하라”
- 초기 코드, 디자인, 중간 피드백 없이 시작
대부분의 모델은 기본 UI만 생성 후 종료하지만, GLM-5.1은 자체 결과 검토 및 개선 루프를 통해 지속적 발전 수행
8시간 동안 반복 실행하며, 초기 단순 레이아웃에서 점차 완전한 데스크톱 환경으로 확장
- 파일 브라우저, 터미널, 텍스트 에디터, 시스템 모니터, 계산기, 게임 등 추가
- 각 기능이 일관된 UI로 통합, 스타일과 상호작용 품질이 점진적으로 개선
최종 결과는 브라우저 내에서 실행되는 완전하고 시각적으로 일관된 데스크톱 환경

세 시나리오 모두에서 핵심 변수는 실행 시간 자체가 아니라, 추가 시간이 실제로 유효한가임
GLM-5.1은 GLM-5 대비 생산적 지속 시간(productive horizon) 을 크게 확장
그러나 KernelBench 등 일부 과제에서는 여전히 개선 여지 존재
남은 과제
- 점진적 튜닝이 한계에 도달했을 때 지역 최적점 탈출
- 수천 회 도구 호출에 걸친 일관성 유지
- 명시적 수치 지표가 없는 과제에서의 신뢰할 수 있는 자기 평가(self-evaluation)
GLM-5.1은 이러한 장기 최적화 방향으로의 첫 단계로 제시됨

GLM-5.1은 SWE-Bench Pro 58.4, NL2Repo 42.7, Terminal-Bench 2.0 63.5 등 주요 코딩 벤치마크에서 GLM-5를 능가
Reasoning, Coding, Agentic 전반에서 경쟁 모델 대비 상위권 성능
Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4 등 최신 모델과 비교 시에도 다수 항목에서 근접 또는 우위

MIT 라이선스로 오픈소스 공개
api.z.ai, BigModel.cn에서 사용 가능하며, Claude Code 및 OpenClaw와 호환
GLM Coding Plan 구독자는 모델명을 "GLM-5.1"로 변경해 즉시 사용 가능
- 피크 시간(UTC+8 14:00–18:00)에는 3×, 비피크 시간에는 2× 쿼터 소모
- 4월 말까지 비피크 시간은 1×로 프로모션 적용
GUI 환경으로는 Z Code 제공, SSH를 통한 원격 개발 및 모바일 작업 지원
모델 가중치는 HuggingFace와 ModelScope에서 공개
vLLM, SGLang 등 주요 추론 프레임워크 지원, GitHub에서 배포 가이드 제공
곧 Z.ai 채팅 플랫폼에서도 사용 가능 예정

HLE 및 기타 추론 과제: 최대 163,840 토큰 생성, GPT-5.2를 판정 모델로 사용
SWE-Bench Pro: 200K 컨텍스트 윈도우, OpenHands 기반 실행
NL2Repo: 악성 명령 탐지 및 차단 포함
Terminal-Bench 2.0: 16 CPU, 32GB RAM 제한, 3시간 타임아웃
KernelBench Level 3: H100 GPU 환경, 1,200회 도구 호출 제한, 독립 감사 수행
CyberGym, MCP-Atlas, τ³-bench, Vending Bench 2 등 다양한 외부 벤치마크에서 독립 평가 수행