GLM 5.2 대 Opus
2 hours ago
2
- 같은 원샷 프롬프트로 raw WebGL 3D 플랫폼 게임을 만들게 하자, Opus는 더 빠르고 완성도 높은 결과를 냈고 GLM-5.2는 낮은 비용과 오픈 가중치라는 장점을 보임
- GLM-5.2는 Z.ai의 MIT 라이선스 오픈 가중치 모델로 1M 토큰 컨텍스트와 High/Max 사고 수준을 제공하지만, 텍스트 전용이라 이미지 기반 자기 검증에는 한계가 있음
- 실제 테스트 비용은 GLM-5.2가 $5.39, Opus가 약 $21.92였고, 빌드 시간은 각각 1시간 10분 40초와 33분 30초로 속도와 비용의 선택지가 갈림
- GLM-5.2 결과물에는 텍스처 누락, 작동하지 않는 스파이크, 승리 조건 부재, 디버그 오버레이 잔존 같은 기본 문제가 있었고, Opus는 더 깨끗했지만 얇은 공중 발판 판정과 먼 승리 트리거가 남음
- 벤치마크와 외부 평가에서도 GLM-5.2는 강한 오픈 가중치 모델로 보이지만, 코딩·에이전트 작업 다수에서는 Opus가 앞서며 비용·개방성·시각 판단이 선택 기준이 됨
같은 과제에서 드러난 차이
- GLM-5.2는 오픈 모델의 가능성을 보여준 최신 사례지만, 동일한 실전 과제에서는 Claude Opus 4.8이 더 빠르고 정확한 결과물을 냄
- 테스트는 두 모델에 같은 원샷 프롬프트를 주고, 게임 엔진이나 Three.js 같은 3D 렌더링 라이브러리 없이 브라우저용 3D 플랫폼 게임을 raw WebGL로 처음부터 만들게 하는 방식이었음
- 두 결과물과 소스는 공개되어 있음
- 두 게임 모두 무료 CC0 에셋인 Kenney Platformer Kit를 사용함
GLM-5.2의 성격과 접근 방식
- GLM-5.2는 Z.ai의 최신 플래그십 모델이며, MIT 라이선스 오픈 가중치로 제공됨
- 다운로드해 직접 실행하거나 Z.ai API로 호출할 수 있음
- Hugging Face와 ModelScope에 가중치가 올라와 있으며 지역 제한은 없음
- vLLM, SGLang, Transformers 같은 프레임워크로 로컬 서빙이 가능함
- 모델은 장시간 다단계 코딩 에이전트 작업 같은 long-horizon 작업을 겨냥함
- 1M 토큰 컨텍스트 창을 제공함
- 사고 수준은 High와 Max가 있으며, 테스트에서는 High가 사용됨
- 결정적인 제한은 텍스트 전용이라는 점임
- GLM-5.2는 이미지를 읽을 수 없음
- 스크린샷이나 다이어그램을 직접 확인해야 하는 워크플로에는 Claude Opus 같은 멀티모달 모델이 필요함
가격과 실행 비용
- 벤더 문서 기준 1M 토큰당 가격은 GLM-5.2가 Opus보다 낮음
- Claude Opus 4.8: 입력 $5, 캐시 읽기 $0.50, 출력 $25
- GLM-5.2: 입력 $1.4, 캐시 읽기 $0.26, 출력 $4.4
- 출력 토큰 기준으로 GLM-5.2는 Opus 가격의 5분의 1 미만임
- 실제 게임 제작 테스트에서는 시간과 비용이 반대로 갈림
지표
GLM-5.2 (Pi/OpenRouter)
Opus (Claude Code)
| 벽시계 기준 빌드 시간 |
1시간 10분 40초 |
33분 30초 |
| 출력 토큰 |
131,000 |
216,809 |
| 최대 컨텍스트 사용량 |
1M의 16% |
1M의 19% |
| 도구 호출 |
128 |
153 |
| 비용 |
$5.39 실제 청구액 |
약 $21.92 추정치 |
- Opus는 약 절반의 시간에 끝났고, GLM-5.2는 훨씬 낮은 비용으로 작업을 완료함
테스트 과제: raw WebGL 3D 플랫폼 게임
- 과제는 단순한 랜딩 페이지 생성보다 구조가 복잡했음
- GLB 모델 파서
- 행렬·벡터 수학
- GLSL 셰이더
- 스키닝된 골격 애니메이션
- 고정 타임스텝 루프
- 충돌 처리
- 팔로우 카메라
- 두 모델은 동일한 프롬프트, 동일한 에셋, 힌트 없는 단일 시도를 받음
- 완성 조건은 다음과 같았음
- raw WebGL 기반 3D 엔진과 렌더러
- 제공된 3D 캐릭터와 월드 모델 로더
- 중력과 충돌이 있는 캐릭터 이동·점프
- 팔로우 카메라와 키보드 조작
- 하나의 명령으로 브라우저에서 실행 가능한 전체 게임
- 두 모델 모두 GLB 바이너리 파서, 행렬·쿼터니언 수학, WebGL2 렌더러, GLSL 스키닝 셰이더, 서브스텝 AABB 충돌을 상당 부분 직접 구현함
- 빌드 기록도 공개되어 있음
플레이 결과와 남은 버그
- 두 게임 모두 세 번째 사람 시점의 3D 플랫폼 게임 형태를 갖춤
- WASD 또는 방향키로 이동
- Space로 점프
- Shift로 달리기
- 마우스 드래그로 카메라 회전
- 휠로 줌
- 코인을 모으고, 스파이크를 피하며, 깃발에 도달하는 목표를 가짐
- 맵 밖으로 떨어지면 시작점으로 돌아감
-
GLM-5.2 결과
- GLM-5.2의 게임은 전반적으로 거친 완성도를 보임
- 캐릭터 일부 머티리얼이 빠지고, 캐릭터가 이동 방향과 반대로 돌아선 채 걷는 문제가 있었음
- 스파이크 함정은 캐릭터를 죽이거나 리셋하지 않았고, 깃발에 도달해도 승리 조건이 발동하지 않음
- 카메라가 움직일 때 머리가 사라졌고, 디버그 오버레이도 남아 있었음
- 스프링을 밟으면 다음 플랫폼까지 캐릭터가 튀어 오르는 부분은 잘 동작함
- Kenney 모델은 별도 파일의 공유 색상 팔레트를 참조하지만, GLM-5.2의 렌더러는 이 파일을 로드하지 않아 평면 색상으로 대체됨
-
Opus 결과
- Opus의 게임은 더 깨끗하고 잘 동작함
- 카메라와 컨트롤러가 작동했고, 스파이크가 플레이어를 죽이는 로직도 동작함
- 텍스처가 제대로 적용되고 애니메이션이 부드러웠으며, 깃발에 도달하면 승리할 수 있음
- 남은 버그는 기본 기능보다 엣지 케이스에 가까웠음
- 플랫폼 옆 공중에 캐릭터가 잠시 서 있을 수 있었고, 이는 엣지에서 벗어난 직후에도 점프를 허용하는 coyote-time 유예 시간이 과하게 설정된 결과임
- 깃발에서 아직 꽤 떨어져 있어도 승리 조건이 발동함
자기 검증에서 갈린 멀티모달 차이
- 두 모델 모두 작업을 끝내기 전에 결과를 검증하라는 지시를 받음
- Opus는 멀티모달 모델이라 게임을 렌더링한 뒤 캡처된 스크린샷을 직접 검사함
- 화면에 남아 있던 디버그 표시를 보고 제거한 뒤 마무리함
- 최종 장면에서 블록, 계단, 코인, 보석, 스파이크, 깃발, 캐릭터, 점수 HUD, 조명과 지오메트리를 확인함
- GLM-5.2는 이미지를 읽을 수 없어 스크린샷을 직접 보지 못함
- 대신 원시 픽셀 데이터를 읽고 색상이 기대값과 대략 맞는지 확인하는 우회 방식을 사용함
- 저장된 이미지에서 grass green, dirt brown, coin gold, flag red, character bluish, half-Lambert lit, no black 같은 색상 조건을 확인함
- 이 방식은 실제 화면의 문제를 놓침
- 캐릭터가 회색으로 보이고 텍스처가 누락된 상태였음
- 디버그 오버레이가 여전히 화면 위에 남아 있었음
- 시각적 결과물이 중요한 작업에서는 이미지를 이해할 수 있는 멀티모달 검증이 실제 품질 차이로 이어짐
벤치마크에서 보인 위치
- Z.ai의 모델 카드 벤치마크에서 GLM-5.2는 최상위 폐쇄 모델 바로 뒤쪽에 위치하는 항목이 많았고, 일부 추론 벤치마크에서는 앞섬
- 주요 수치는 다음과 같음
- HLE: GLM-5.2 40.5, Opus 4.8 49.8
- HLE with tools: GLM-5.2 54.7, Opus 4.8 57.9
- AIME 2026: GLM-5.2 99.2, Opus 4.8 95.7
- IMOAnswerBench: GLM-5.2 91.0, Opus 4.8 83.5
- SWE-bench Pro: GLM-5.2 62.1, Opus 4.8 69.2
- NL2Repo: GLM-5.2 48.9, Opus 4.8 69.7
- ProgramBench: GLM-5.2 63.7, Opus 4.8 71.9
- SWE-Marathon: GLM-5.2 13.0, Opus 4.8 26.0
- MCP-Atlas public: GLM-5.2 76.8, Opus 4.8 77.8
- Tool-Decathlon: GLM-5.2 48.2, Opus 4.8 59.9
- ArtificialAnalysis의 독립 실행 결과도 GLM-5.2를 강한 오픈 가중치 모델로 평가함
- Intelligence Index v4.1 점수 51
- MiniMax-M3 44, DeepSeek V4 Pro 44, Kimi K2.6 43보다 높음
- TerminalBench v2.1은 78%로, 모델 카드의 81 또는 82.7과는 다른 하네스를 사용함
- 작업당 출력 토큰은 약 43k로 GLM-5.1의 26k보다 많음
- 벤치마크 흐름은 실전 테스트와 비슷함
- GLM-5.2는 오픈 가중치 모델 중 선두권이고 추론에서는 일부 경쟁력이 있음
- Opus는 코딩과 에이전트 벤치마크 다수에서 앞섬
외부 반응
- Simon Willison은 GLM-5.2를 “아마도 가장 강력한 텍스트 전용 오픈 가중치 LLM”이라고 평가함
- 그의 SVG 테스트에서 GLM-5.2는 자전거를 타는 펠리컨을 완전히 애니메이션된 형태로 생성했고, 깨진 부분이 없었음
- 스쿠터를 탄 주머니쥐 테스트는 이전 GLM-5.1보다 좋지 않아 성능이 균일하지는 않았음
- Artificial Analysis는 GLM-5.2를 자체 Intelligence Index에서 선두 오픈 가중치 모델로 평가함
- 같은 수준에서 가장 저렴한 모델로 비용 대비 지능 프런티어에 위치한다고 봄
- 다만 작업당 약 43k 출력 토큰을 쓰는 토큰 소모가 큰 모델로 표시함
- Nathan Lambert는 LMArena 리더보드 기준으로 GLM-5.2가 Gemini보다 나은 에이전트라고 볼 수도 있다고 평가했고, MIT 라이선스 오픈 모델로서는 “serious accomplishment”라고 봄
- 최상위 미국 모델이 여전히 전체적으로 앞서지만, 중국 연구소들이 더 적은 컴퓨트로 높은 점수에 도달하고 있다는 점을 강조함
어떤 모델을 선택할지
- GLM-5.2는 Opus 가격의 일부로 강한 성능을 내는 오픈 가중치 모델임
- 비용과 개방성이 중요하고 작업이 주로 텍스트와 논리 중심일 때 적합함
- 다운로드 가능한 가중치는 폐쇄형 모델처럼 갑자기 은퇴하거나 제한될 수 없음
- Opus는 테스트에서 더 빠르고 더 깨끗하며 더 정확한 결과를 냄
- 시각적 결과물을 직접 보고 검증할 수 있음
- 정확성, 폴리시, 시각적 판단이 중요하고 비용을 감수할 수 있는 작업에 더 적합함
- GLM-5.2는 Opus를 대체할 주력 모델이라기보다, 저렴하고 항상 접근 가능한 강력한 보조 모델에 가까움
-
Homepage
-
개발자
- GLM 5.2 대 Opus