GLM 5.2 대 Opus

2 hours ago 2
  • 같은 원샷 프롬프트로 raw WebGL 3D 플랫폼 게임을 만들게 하자, Opus는 더 빠르고 완성도 높은 결과를 냈고 GLM-5.2는 낮은 비용과 오픈 가중치라는 장점을 보임
  • GLM-5.2는 Z.ai의 MIT 라이선스 오픈 가중치 모델로 1M 토큰 컨텍스트와 High/Max 사고 수준을 제공하지만, 텍스트 전용이라 이미지 기반 자기 검증에는 한계가 있음
  • 실제 테스트 비용은 GLM-5.2가 $5.39, Opus가 약 $21.92였고, 빌드 시간은 각각 1시간 10분 40초와 33분 30초로 속도와 비용의 선택지가 갈림
  • GLM-5.2 결과물에는 텍스처 누락, 작동하지 않는 스파이크, 승리 조건 부재, 디버그 오버레이 잔존 같은 기본 문제가 있었고, Opus는 더 깨끗했지만 얇은 공중 발판 판정과 먼 승리 트리거가 남음
  • 벤치마크와 외부 평가에서도 GLM-5.2는 강한 오픈 가중치 모델로 보이지만, 코딩·에이전트 작업 다수에서는 Opus가 앞서며 비용·개방성·시각 판단이 선택 기준이 됨

같은 과제에서 드러난 차이

  • GLM-5.2는 오픈 모델의 가능성을 보여준 최신 사례지만, 동일한 실전 과제에서는 Claude Opus 4.8이 더 빠르고 정확한 결과물을 냄
  • 테스트는 두 모델에 같은 원샷 프롬프트를 주고, 게임 엔진이나 Three.js 같은 3D 렌더링 라이브러리 없이 브라우저용 3D 플랫폼 게임을 raw WebGL로 처음부터 만들게 하는 방식이었음
  • 두 결과물과 소스는 공개되어 있음
  • 두 게임 모두 무료 CC0 에셋인 Kenney Platformer Kit를 사용함

GLM-5.2의 성격과 접근 방식

  • GLM-5.2는 Z.ai의 최신 플래그십 모델이며, MIT 라이선스 오픈 가중치로 제공됨
    • 다운로드해 직접 실행하거나 Z.ai API로 호출할 수 있음
    • Hugging Face와 ModelScope에 가중치가 올라와 있으며 지역 제한은 없음
    • vLLM, SGLang, Transformers 같은 프레임워크로 로컬 서빙이 가능함
  • 모델은 장시간 다단계 코딩 에이전트 작업 같은 long-horizon 작업을 겨냥함
    • 1M 토큰 컨텍스트 창을 제공함
    • 사고 수준은 High와 Max가 있으며, 테스트에서는 High가 사용됨
  • 결정적인 제한은 텍스트 전용이라는 점임
    • GLM-5.2는 이미지를 읽을 수 없음
    • 스크린샷이나 다이어그램을 직접 확인해야 하는 워크플로에는 Claude Opus 같은 멀티모달 모델이 필요함

가격과 실행 비용

  • 벤더 문서 기준 1M 토큰당 가격은 GLM-5.2가 Opus보다 낮음
    • Claude Opus 4.8: 입력 $5, 캐시 읽기 $0.50, 출력 $25
    • GLM-5.2: 입력 $1.4, 캐시 읽기 $0.26, 출력 $4.4
  • 출력 토큰 기준으로 GLM-5.2는 Opus 가격의 5분의 1 미만
  • 실제 게임 제작 테스트에서는 시간과 비용이 반대로 갈림
지표 GLM-5.2 (Pi/OpenRouter) Opus (Claude Code)
벽시계 기준 빌드 시간 1시간 10분 40초 33분 30초
출력 토큰 131,000 216,809
최대 컨텍스트 사용량 1M의 16% 1M의 19%
도구 호출 128 153
비용 $5.39 실제 청구액 약 $21.92 추정치
  • Opus는 약 절반의 시간에 끝났고, GLM-5.2는 훨씬 낮은 비용으로 작업을 완료함

테스트 과제: raw WebGL 3D 플랫폼 게임

  • 과제는 단순한 랜딩 페이지 생성보다 구조가 복잡했음
    • GLB 모델 파서
    • 행렬·벡터 수학
    • GLSL 셰이더
    • 스키닝된 골격 애니메이션
    • 고정 타임스텝 루프
    • 충돌 처리
    • 팔로우 카메라
  • 두 모델은 동일한 프롬프트, 동일한 에셋, 힌트 없는 단일 시도를 받음
  • 완성 조건은 다음과 같았음
    • raw WebGL 기반 3D 엔진과 렌더러
    • 제공된 3D 캐릭터와 월드 모델 로더
    • 중력과 충돌이 있는 캐릭터 이동·점프
    • 팔로우 카메라와 키보드 조작
    • 하나의 명령으로 브라우저에서 실행 가능한 전체 게임
  • 두 모델 모두 GLB 바이너리 파서, 행렬·쿼터니언 수학, WebGL2 렌더러, GLSL 스키닝 셰이더, 서브스텝 AABB 충돌을 상당 부분 직접 구현함
  • 빌드 기록도 공개되어 있음

플레이 결과와 남은 버그

  • 두 게임 모두 세 번째 사람 시점의 3D 플랫폼 게임 형태를 갖춤
    • WASD 또는 방향키로 이동
    • Space로 점프
    • Shift로 달리기
    • 마우스 드래그로 카메라 회전
    • 휠로 줌
    • 코인을 모으고, 스파이크를 피하며, 깃발에 도달하는 목표를 가짐
    • 맵 밖으로 떨어지면 시작점으로 돌아감
  • GLM-5.2 결과

    • GLM-5.2의 게임은 전반적으로 거친 완성도를 보임
    • 캐릭터 일부 머티리얼이 빠지고, 캐릭터가 이동 방향과 반대로 돌아선 채 걷는 문제가 있었음
    • 스파이크 함정은 캐릭터를 죽이거나 리셋하지 않았고, 깃발에 도달해도 승리 조건이 발동하지 않음
    • 카메라가 움직일 때 머리가 사라졌고, 디버그 오버레이도 남아 있었음
    • 스프링을 밟으면 다음 플랫폼까지 캐릭터가 튀어 오르는 부분은 잘 동작함
    • Kenney 모델은 별도 파일의 공유 색상 팔레트를 참조하지만, GLM-5.2의 렌더러는 이 파일을 로드하지 않아 평면 색상으로 대체됨
  • Opus 결과

    • Opus의 게임은 더 깨끗하고 잘 동작함
    • 카메라와 컨트롤러가 작동했고, 스파이크가 플레이어를 죽이는 로직도 동작함
    • 텍스처가 제대로 적용되고 애니메이션이 부드러웠으며, 깃발에 도달하면 승리할 수 있음
    • 남은 버그는 기본 기능보다 엣지 케이스에 가까웠음
    • 플랫폼 옆 공중에 캐릭터가 잠시 서 있을 수 있었고, 이는 엣지에서 벗어난 직후에도 점프를 허용하는 coyote-time 유예 시간이 과하게 설정된 결과임
    • 깃발에서 아직 꽤 떨어져 있어도 승리 조건이 발동함

자기 검증에서 갈린 멀티모달 차이

  • 두 모델 모두 작업을 끝내기 전에 결과를 검증하라는 지시를 받음
  • Opus는 멀티모달 모델이라 게임을 렌더링한 뒤 캡처된 스크린샷을 직접 검사
    • 화면에 남아 있던 디버그 표시를 보고 제거한 뒤 마무리함
    • 최종 장면에서 블록, 계단, 코인, 보석, 스파이크, 깃발, 캐릭터, 점수 HUD, 조명과 지오메트리를 확인함
  • GLM-5.2는 이미지를 읽을 수 없어 스크린샷을 직접 보지 못함
    • 대신 원시 픽셀 데이터를 읽고 색상이 기대값과 대략 맞는지 확인하는 우회 방식을 사용함
    • 저장된 이미지에서 grass green, dirt brown, coin gold, flag red, character bluish, half-Lambert lit, no black 같은 색상 조건을 확인함
  • 이 방식은 실제 화면의 문제를 놓침
    • 캐릭터가 회색으로 보이고 텍스처가 누락된 상태였음
    • 디버그 오버레이가 여전히 화면 위에 남아 있었음
  • 시각적 결과물이 중요한 작업에서는 이미지를 이해할 수 있는 멀티모달 검증이 실제 품질 차이로 이어짐

벤치마크에서 보인 위치

  • Z.ai의 모델 카드 벤치마크에서 GLM-5.2는 최상위 폐쇄 모델 바로 뒤쪽에 위치하는 항목이 많았고, 일부 추론 벤치마크에서는 앞섬
  • 주요 수치는 다음과 같음
    • HLE: GLM-5.2 40.5, Opus 4.8 49.8
    • HLE with tools: GLM-5.2 54.7, Opus 4.8 57.9
    • AIME 2026: GLM-5.2 99.2, Opus 4.8 95.7
    • IMOAnswerBench: GLM-5.2 91.0, Opus 4.8 83.5
    • SWE-bench Pro: GLM-5.2 62.1, Opus 4.8 69.2
    • NL2Repo: GLM-5.2 48.9, Opus 4.8 69.7
    • ProgramBench: GLM-5.2 63.7, Opus 4.8 71.9
    • SWE-Marathon: GLM-5.2 13.0, Opus 4.8 26.0
    • MCP-Atlas public: GLM-5.2 76.8, Opus 4.8 77.8
    • Tool-Decathlon: GLM-5.2 48.2, Opus 4.8 59.9
  • ArtificialAnalysis의 독립 실행 결과도 GLM-5.2를 강한 오픈 가중치 모델로 평가함
    • Intelligence Index v4.1 점수 51
    • MiniMax-M3 44, DeepSeek V4 Pro 44, Kimi K2.6 43보다 높음
    • TerminalBench v2.1은 78%로, 모델 카드의 81 또는 82.7과는 다른 하네스를 사용함
    • 작업당 출력 토큰은 약 43k로 GLM-5.1의 26k보다 많음
  • 벤치마크 흐름은 실전 테스트와 비슷함
    • GLM-5.2는 오픈 가중치 모델 중 선두권이고 추론에서는 일부 경쟁력이 있음
    • Opus는 코딩과 에이전트 벤치마크 다수에서 앞섬

외부 반응

  • Simon Willison은 GLM-5.2를 “아마도 가장 강력한 텍스트 전용 오픈 가중치 LLM”이라고 평가함
    • 그의 SVG 테스트에서 GLM-5.2는 자전거를 타는 펠리컨을 완전히 애니메이션된 형태로 생성했고, 깨진 부분이 없었음
    • 스쿠터를 탄 주머니쥐 테스트는 이전 GLM-5.1보다 좋지 않아 성능이 균일하지는 않았음
  • Artificial Analysis는 GLM-5.2를 자체 Intelligence Index에서 선두 오픈 가중치 모델로 평가함
    • 같은 수준에서 가장 저렴한 모델로 비용 대비 지능 프런티어에 위치한다고 봄
    • 다만 작업당 약 43k 출력 토큰을 쓰는 토큰 소모가 큰 모델로 표시함
  • Nathan Lambert는 LMArena 리더보드 기준으로 GLM-5.2가 Gemini보다 나은 에이전트라고 볼 수도 있다고 평가했고, MIT 라이선스 오픈 모델로서는 “serious accomplishment”라고 봄
    • 최상위 미국 모델이 여전히 전체적으로 앞서지만, 중국 연구소들이 더 적은 컴퓨트로 높은 점수에 도달하고 있다는 점을 강조함

어떤 모델을 선택할지

  • GLM-5.2는 Opus 가격의 일부로 강한 성능을 내는 오픈 가중치 모델
    • 비용과 개방성이 중요하고 작업이 주로 텍스트와 논리 중심일 때 적합함
    • 다운로드 가능한 가중치는 폐쇄형 모델처럼 갑자기 은퇴하거나 제한될 수 없음
  • Opus는 테스트에서 더 빠르고 더 깨끗하며 더 정확한 결과를 냄
    • 시각적 결과물을 직접 보고 검증할 수 있음
    • 정확성, 폴리시, 시각적 판단이 중요하고 비용을 감수할 수 있는 작업에 더 적합함
  • GLM-5.2는 Opus를 대체할 주력 모델이라기보다, 저렴하고 항상 접근 가능한 강력한 보조 모델에 가까움
Read Entire Article