GLM-4.7: 코딩 역량을 한 단계 끌어올리다

1 month ago 13

  • GLM-4.7은 다국어 코딩, 터미널 기반 작업, 복합 추론 등에서 전작 대비 성능을 크게 향상시킨 대규모 언어 모델임
  • SWE-bench, Terminal Bench 2.0, HLE 등 주요 벤치마크에서 각각 +5.8%, +16.5%, +12.4%의 향상치를 기록함
  • UI 생성 품질이 개선되어 더 깔끔하고 현대적인 웹페이지와 정확한 슬라이드 레이아웃을 생성함
  • Interleaved Thinking, Preserved Thinking, Turn-level Thinking 기능을 통해 복잡한 에이전트 작업에서 안정성과 일관성을 강화함
  • Z.ai API, OpenRouter, HuggingFace 등을 통해 전 세계적으로 접근 가능하며, 코딩 에이전트 및 로컬 배포도 지원함

주요 성능 및 특징

  • GLM-4.7은 GLM-4.6 대비 전반적인 코딩 및 추론 능력 향상을 달성
    • SWE-bench Verified 73.8%(+5.8%), SWE-bench Multilingual 66.7%(+12.9%), Terminal Bench 2.0 41%(+16.5%)
    • HLE(Humanity’s Last Exam) 벤치마크에서 42.8%(+12.4%)로 수학 및 논리 추론 능력 강화
  • UI 생성 품질(Vibe Coding) 이 개선되어 더 세련된 웹페이지와 슬라이드 제작 가능
  • 도구 활용 능력이 향상되어 τ²-Bench 및 BrowseComp 등에서 높은 점수 기록
  • 다양한 시나리오(채팅, 창작, 롤플레이 등)에서도 성능 개선 확인

벤치마크 비교

  • GLM-4.7은 GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro 등과 함께 17개 벤치마크에서 비교 평가됨
    • Reasoning 부문: MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
    • Coding 부문: SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
    • Agent 부문: BrowseComp 52.0, τ²-Bench 87.4
  • 일부 항목에서는 상위 모델 대비 근접하거나 우수한 결과를 보임

사고(Thinking) 모드 강화

  • Interleaved Thinking: 응답 및 도구 호출 전 사고 단계를 거쳐 지시 이행과 생성 품질 향상
  • Preserved Thinking: 다중 턴 대화에서 사고 블록을 유지해 정보 손실과 불일치 감소
  • Turn-level Thinking: 요청 복잡도에 따라 사고 기능을 켜거나 꺼서 정확도와 비용 균형 조정
  • 이 기능들은 장기적·복잡한 코딩 에이전트 작업에 적합

활용 및 배포

  • Z.ai API 플랫폼OpenRouter를 통해 GLM-4.7 모델 사용 가능
  • Claude Code, Kilo Code, Roo Code, Cline 등 주요 코딩 에이전트에서 통합 지원
  • GLM Coding Plan 구독자는 자동으로 GLM-4.7로 업그레이드되며, 기존 설정 파일에서 모델명만 변경하면 됨
  • HuggingFaceModelScope에서 모델 가중치 공개, vLLMSGLang 프레임워크로 로컬 추론 지원

시각적 및 창작 사례

  • 프론트엔드 웹사이트, Voxel Pagoda와 같은 3D 아트워크, 포스터, 슬라이드 등 다양한 생성 예시 제공
  • 고대비 다크 모드, 애니메이션 효과, 정교한 레이아웃 등 디자인 품질 향상을 시각적으로 입증

기본 설정 및 테스트 조건

  • 일반 작업: temperature 1.0, top-p 0.95, max new tokens 131072
  • SWE-bench 및 Terminal Bench: temperature 0.7, top-p 1.0, max new tokens 16384
  • τ²-Bench: temperature 0, max new tokens 16384, 일부 도메인별 프롬프트 수정 적용

종합 평가

  • GLM-4.7은 코딩 중심의 AGI 발전 단계로, 단순한 벤치마크 점수 이상의 실제 사용 경험 품질을 중시
  • 테스트 성능뿐 아니라 사용자 체감 지능과 통합성을 목표로 설계된 모델임

Read Entire Article