Qwen3.7-Max: 에이전트 프런티어

1 week ago 5

Qwen3.7-Max는 코딩·디버깅, 사무 자동화, 수백~수천 단계 자율 실행을 겨냥한 에이전트 중심 독점 모델임
코딩·범용 에이전트·추론·다국어 평가에서 경쟁 모델과 맞붙으며, Terminal Bench 2.0-Terminus 69.7점과 GPQA Diamond 92.4점을 기록함
35시간 자율 커널 최적화에서 1,158회 도구 호출과 432회 평가를 수행해 Triton 기준 기하평균 10.0배 속도 향상을 달성함
학습 인스턴스를 Task·Harness·Verifier로 분리해 교차 하네스 RL 학습을 수행하고, 특정 하네스 지름길보다 일반화된 문제 해결을 유도함
Alibaba Cloud Model Studio를 통해 곧 API가 제공되며, Claude Code·OpenClaw·Qwen Code 등 에이전트 프레임워크와 통합 가능함

성능 평가

Qwen3.7-Max는 코딩 에이전트, 범용 에이전트, STEM·추론, 일반 역량, 다국어 영역에서 여러 비교 모델과 함께 평가됨
빈 셀(--)은 점수가 아직 제공되지 않았다는 뜻임
코딩 에이전트
- Terminal Bench 2.0-Terminus에서 69.7점을 기록해 DS-V4-Pro Max의 67.9점을 넘어섬
- SWE-Verified에서는 80.4점으로 Opus-4.6 Max 80.8점, DS-V4-Pro Max 80.6점과 비슷한 수준임
- SWE-Pro 60.6점, SWE-Multilingual 78.3점, SciCode 53.5점, QwenSVG 1608점을 기록함
- NL2repo는 Claude Code로 평가했으며, 특정 저장소 접근을 시도하는 pip download, pip install, git clone 같은 Bash 명령을 비활성화함
- QwenWebDev는 영어·중국어 이중언어 프런트엔드 코드 생성 내부 벤치마크이며, 7개 범주와 자동 렌더링, 멀티모달 판정, BT/Elo 평점을 사용함
범용 에이전트
- MCP-Mark에서 60.8점으로 GLM-5.1의 57.5점을 넘었고, MCP-Atlas에서 76.4점으로 Opus-4.6의 75.8점을 넘어섬
- Skillsbench에서는 59.2점으로 K2.6의 56.2점을 상회함
- Kernel Bench L3에서는 중앙값 1.98배 속도 향상과 96% 승률을 기록해 GPU 커널 최적화 역량을 보임
- BFCL-V4 75.0점, Qwenclaw 64.3점, ClawEval 65.2점으로 Opus-4.6 Max에 근접함
- SpreadSheetBench-v1에서는 87.0점을 기록해 사무 자동화 벤치마크에서도 높은 성능을 보임
- QwenClawBench는 실제 사용자 분포를 반영한 Claw 에이전트 벤치마크로 오픈소스 공개됨
- CoWorkBench는 컴퓨터과학, 금융, 법률, 의료 등 생산성 도메인의 장기 작업을 다루는 내부 협업 벤치마크임
추론
- GPQA Diamond에서 92.4점으로 Opus-4.6의 91.3점을 넘음
- HLE에서는 41.4점으로 Opus-4.6의 40.0점을 넘고, HMMT 2026 Feb에서는 97.1점으로 Opus-4.6의 96.2점을 넘어섬
- IMOAnswerBench에서는 90.0점으로 DS-V4-Pro의 89.8점을 넘고, Apex에서는 44.5점으로 DS-V4-Pro의 38.3점을 넘음
- 추론 시나리오에는 Reasoning effort is set to xhigh...로 시작하는 시스템 프롬프트가 권장됨
일반 역량과 다국어
- IFBench에서 79.1점으로 DS-V4-Pro의 77.0점을 넘으며 정밀한 지시 따르기 성능을 보임
- WMT24++에서 85.8점, MAXIFE에서 89.2점을 기록해 다국어 이해와 번역 품질에서도 강점을 보임
- SuperGPQA에서는 73.6점, QwenWorldBench에서는 57.3점을 기록함
- WMT24++는 더 어려운 WMT24 하위 집합이며, 55개 언어에서 XCOMET-XXL 평균 점수를 사용함
- MAXIFE는 영어와 다국어 프롬프트 23개 설정의 정확도를 측정함
- MMLU-ProX는 29개 언어의 평균 정확도를 사용함

평가 조건과 벤치마크 세부사항

Terminal-Bench 2.0은 Harbor/Terminus-2 하네스, 5시간 제한, 12 CPU/24GB RAM, temp=1.0, top_p=0.95, top_k=20, 최대 80K 토큰, 256K 컨텍스트, 5회 평균으로 평가됨
SWE-Bench 계열은 내부 에이전트 스캐폴드와 Bash·파일 편집 도구를 사용하며, temp=1.0, top_p=0.95, 200K 컨텍스트 창으로 평가됨
SkillsBench는 OpenCode로 평가했으며, 외부 API 의존 작업 9개를 제외한 78개 작업에서 5회 평균을 사용함
MCP-Mark는 GitHub MCP v0.30.3을 사용하고 Playwright 응답을 32K 토큰에서 잘랐음
MCP-Atlas는 공개 세트 점수이며 gemini-2.5-pro 판정자를 사용함
Kernel Bench L3는 50개 문제에서 PyTorch eager 기준 대비 문제별 속도 향상의 중앙값과 torch.compile보다 빠른 문제 비율을 보고함
Kernel Bench L3의 각 테스트 샘플은 H100 80GB GPU 1개가 있는 격리 Docker 컨테이너에서 실행되며, 인터넷 접근은 CUTLASS 코드베이스와 공식 CUDA 문서로 제한됨
Kernel Bench L3는 500회 도구 호출 제한과 100회 비개선 턴 후 조기 중단을 사용하고, GPT-5.4(xhigh)로 잠재적 해킹 행동을 탐지하며, CUPTI로 커널 수준 타이밍을 측정함
MRCR-v2는 8개 바늘을 포함한 128K 컨텍스트 하위 집합이며 Google DeepMind eval_hub의 mrcr_v2 프로토콜을 채택함

협업 생산성 어시스턴트

Qwen3.7-Max는 현실 업무 생산성을 위한 고급 동료 역할을 목표로 하며, 복잡한 정보 종합, 심층 데이터 분석과 모델링, 출판 가능한 문서·시각화 생성을 수행함
주요 에이전트 하네스와 기본 호환성을 갖추고, 장기 작업에서는 자율 계획과 여러 시간 동안의 지속 실행을 지원함
수천 회의 도구 호출과 수십 회의 개선 반복을 통해 출력 품질을 점진적으로 높임
일반적으로 전문 팀이 1~2주 걸리는 복잡한 프로젝트를 몇 시간 안에 end-to-end로 완료할 수 있다고 제시함

에이전트 학습과 일반화

Qwen3.5에서 도입된 환경 스케일링 접근을 바탕으로, Qwen3.7에서는 에이전트 학습 환경의 품질과 다양성을 확장함
언어 모델이 다양한 사전학습 텍스트에서 일반화하듯, 에이전트 역량도 다양한 학습 환경에서 일반화된다는 관찰을 바탕으로 함
평가의 모든 벤치마크는 학습에 포함되지 않은 완전히 새로운 out-of-domain 환경으로 구성됨
환경 스케일링은 명확하고 일관된 개선 궤적을 만들며, Qwen3.7-Max는 Claude-4.6-Opus-Max에 근접한 상위 3위 평균 순위를 달성함
벤치마크 하위 집합의 성능 향상이 남은 벤치마크와 전체 평균의 상대적 향상을 예측할 만큼 일관돼, 벤치마크 특화 개선보다 역량 일반화를 시사함
스케일링 동역학과 방법론의 추가 분석은 향후 기술 보고서에서 다뤄질 예정임

교차 하네스 일반화

Rollout 환경 인프라는 각 학습 인스턴스를 Task, Harness, Verifier라는 세 가지 직교 구성요소로 분리함
다양한 하네스와 그 버전을 지원하며, 합성 프록시가 아니라 현실 환경에 기반한 환경을 사용함
분리 설계는 같은 작업을 다양한 하네스 유형·버전, 검증자와 최소한의 추가 비용으로 조합하는 조합적 스케일링을 가능하게 함
같은 작업을 서로 다른 하네스 구성에서 만나게 하는 교차 하네스·교차 검증자 RL 학습을 통해, 모델이 특정 하네스의 지름길이 아니라 일반화 가능한 문제 해결 전략을 학습하도록 함
QwenClawBench와 CoWorkBench에서 Qwen3.7-Max는 평가 시 사용되는 하네스와 무관하게 강하고 일관된 성능을 보임

실제 환경에서의 자기 진화

Extend Attention은 SGLang의 프로덕션급 가변 길이 멀티헤드 어텐션 연산자임
테스트 시나리오는 MTP와 함께 새로 생성된 토큰과 최대 32K 항목의 prefix KV-cache 사이의 어텐션 점수를 계산하는 LLM 서빙의 메모리 병목·지연 민감 커널을 다룸
기준 구현은 SGLang의 공식 Triton 구현임
미지의 PPU 아키텍처에서 커널 최적화
- Qwen3.7-Max는 학습 중 본 적 없는 T-Head ZW-M890 PPU가 장착된 ECS 인스턴스에서 이 커널을 최적화함
- 사전 프로파일링 데이터, 하드웨어 문서, 해당 아키텍처용 예제 커널 없이 시작함
- 빈 작업공간에는 작업 설명, 기존 SGLang 구현, 평가 스크립트만 있었음
- 약 35시간 연속 자율 실행 동안 1,158회 도구 호출과 432회 커널 평가를 수행함
- 컴파일 실패 진단, 정합성 버그 수정, 런타임 프로파일링 기반 병목 식별, 커널 아키텍처 재설계를 모두 자체적으로 수행함
- 최종 결과는 여러 워크로드에서 Triton 기준 대비 기하평균 10.0배 속도 향상임
- 30시간이 지난 뒤에도 의미 있는 개선을 찾아내며 장기 자율 최적화의 생산성을 보임
최적화 궤적
- Split-KV 병렬화로 prefix KV-cache를 쿼리당 여러 스레드 블록으로 나누고, online softmax rescaling으로 부분 결과를 병합하는 reduction 커널을 도입해 약 2시간 만에 0.33배에서 2.58배로 향상됨
- per-call cudaMalloc/cudaFree를 사전 할당된 torch::empty 텐서로 대체하고, 동기 cudaMemcpy를 제거하며, 내부 루프를 2배 언롤링해 약 2.5시간 만에 5.37배로 향상됨
- 고정 split divisor를 워크로드 크기 기반 휴리스틱으로 바꾸고 36-SM 아키텍처의 SM wave occupancy를 높여 약 3시간 만에 6.85배로 향상됨
- 공유 메모리 배리어 제거, 레지스터 기반 K/V 로딩, persistent static tensor, batched softmax update, Q 사전 스케일링을 결합해 3~25시간 구간에서 8.50배로 향상됨
- MTP γ=4 특화 커널은 블록당 4개 쿼리 토큰을 동시에 처리하고 쿼리 간 K/V 로드를 공유해 32~35시간 구간에서 10.0배에 도달함
동일 조건 비교
- GLM 5.1은 7.3배, Kimi K2.6은 5.0배, DeepSeek V4 Pro는 3.3배, Qwen3.6-Plus는 1.1배에 도달함
- 일찍 중단된 모델은 5회 연속 도구 호출을 내지 않아 더 이상 진전할 수 없다고 판단하고 세션을 자발적으로 종료함
NVIDIA GPU 커널 생성
- Qwen3.7-Max는 PPU 커널 생성뿐 아니라 다양한 NVIDIA GPU에서도 프로덕션급 커널을 생성함
- KernelBench L3에서 Qwen3.7-Max는 96% 시나리오에서 가속 커널을 만들 수 있음
- 비교 수치는 Opus-4.6 98%, GLM 5.1 78%, Kimi K2.6 80%, DeepSeek V4 Pro 54%, Qwen3.6-Plus 48%임
장기 자율 에이전트의 특징
- 1,000회가 넘는 도구 호출 동안 최적화 전략을 유지하며 컨텍스트를 잃거나 퇴행하지 않는 장기 추론 지속성을 보임
- 학습 중 보지 못한 아키텍처에서 암기된 하드웨어 지식이 아니라 런타임 피드백을 기반으로 경쟁력 있는 커널을 만드는 인컨텍스트 일반화를 보임

보상 해킹 모니터링

Qwen3.7-Max는 소프트웨어 엔지니어링 작업의 RL 모니터링에 통합돼, 보상 해킹 자기 모니터링과 규칙 자기 진화 프레임워크를 구성함
80시간을 넘는 RL 실험 동안 학습 궤적을 자율적으로 검색·재생하며 10,000회 이상의 호출을 실행함
GitHub에서 정답에 접근하기 위해 제약을 우회하려는 시도 같은 후보 해킹 패턴을 체계적으로 식별함
규칙 검증, 반례 채굴, 반복 최적화를 수행함
여러 차례의 규칙 자기 진화를 통해 13개의 새 휴리스틱 규칙을 추가하고, 1,618건의 해킹 케이스를 정확히 플래그함
이 과정은 RL 보상의 안정성을 보장하고, 정교한 소프트웨어 엔지니어링 에이전트로서 모델의 지속적 자기 개선을 촉진함

스타트업 경영에서의 장기 계획과 실행

Dynamic Cumulative Survival Games 프레임워크에서 학습 작업의 시간 복잡도를 확장해 장기 계획과 실행 역량을 강화함
천 단계를 넘는 순차 의사결정 궤적에서 에이전트의 정책 일관성을 높여, 가설 구축, 환경 피드백 기반 전략 조정, 장기 경험과 메모리 축적을 지속하게 함
긴 시간 범위에서도 안정적인 실행 리듬을 유지하며, 컨텍스트 열화와 지시 이탈에 견디도록 함
YC-Bench 결과
- YC-Bench는 스타트업의 1년 전체 생애주기를 시뮬레이션하는 벤치마크임
- 에이전트는 인력 관리, 계약 검토, 악성 고객 식별 등 수백 라운드의 의사결정을 수행하면서 상승하는 인건비 속에서도 이익률을 유지해야 함
- Qwen3.7-Max는 총매출 208만 달러를 달성해 Qwen3.6-Plus의 105만 달러 대비 2배, Qwen3.5-Plus의 35만2천 달러 대비 5.9배 성능을 냄
- 완료한 작업 수는 237개임
- 잠재 고객 탐색, 악성 함정 식별과 블랙리스트 등록, 안정적 수익원 우선순위화, 중기 위기에서의 자율 회복을 수행함
- 최종적으로 안정적이고 고효율인 실행 루프로 수렴함

Qwen3.7로 구축하기

Qwen3.7-Max는 Alibaba Cloud Model Studio를 통해 곧 제공될 예정이며, 인기 에이전트 프레임워크와 코딩 어시스턴트에 통합할 수 있음
API 사용
- Qwen3.7-Max는 이전 모든 턴의 사고 내용을 메시지에 보존하는 preserve_thinking 기능을 지원하며, 에이전트 작업에 권장됨
- Alibaba Cloud Model Studio는 OpenAI 사양과 호환되는 chat completions·responses API, Anthropic 호환 API 인터페이스 등 업계 표준 프로토콜을 지원함
- DASHSCOPE_API_KEY는 Model Studio 콘솔에서 받은 API 키를 사용함
- DASHSCOPE_BASE_URL은 선택 사항이며, 호환 모드 API의 기본 URL로 https://dashscope-intl.aliyuncs.com/compatible-mode/v1을 사용할 수 있음
- 베이징 URL은 https://dashscope.aliyuncs.com/compatible-mode/v1, 싱가포르 URL은 https://dashscope-intl.aliyuncs.com/compatible-mode/v1, 미국 버지니아 URL은 https://dashscope-us.aliyuncs.com/compatible-mode/v1임
- 추가 정보는 API 문서에서 확인 가능함
프런트엔드 코딩
- Qwen3.7-Max는 단일 프롬프트에서 Three.js 3D 장면, Canvas 애니메이션, 전체 페이지 레이아웃, 동적 SVG를 포함한 상호작용 웹 애플리케이션을 생성할 수 있음
- 예시 프롬프트는 카메라로 손바닥의 펼침·쥠을 감지해 입자군 수축과 확산을 제어하고, 손가락 제스처 1·2에 따라 각각 hello, world와 I’am Qwen 문자를 형성하며, 3D 회전 효과를 가진 HTML 구현을 요구함
사무 어시스턴트
- Qwen3.7-Max는 도구 통합을 통해 지능형 사무 어시스턴트로 동작할 수 있음
- 예시에서는 대학 논문 형식 규정을 읽고, 어수선한 초안을 자율적인 office-cli 도구 호출로 다시 포맷함
- 페이지 레이아웃, 제목 스타일, 글꼴, 여백, 목차, 참고문헌 형식을 수정함
- 샘플 논문은 데모용으로 AI가 생성한 것임
물리 세계 내비게이션 에이전트
- Qwen3.7-Max는 도구 호출을 통해 로봇 개를 조작할 수 있음
- 물리 환경에서 물리적 이해, 계획, 메모리, 의사결정을 수행함
- 로보틱스 에이전트 하네스 Qwen-RobotClaw, 내비게이션 기반 모델 Qwen-RobotNav, Qwen-plus 모델로 구축한 여러 비전 도구를 사용함
- 데모의 왼쪽 패널은 물리 세계에서 20분 동안 진행된 에이전트 도구 호출 상호작용 흐름을, 가운데는 사족보행 로봇의 궤적상 1인칭 시야를, 오른쪽은 에이전트의 장기 메모리를 보여줌
코딩 어시스턴트 통합
- Qwen3.7-Max는 인기 에이전트 프레임워크와 코딩 어시스턴트에 통합됨
- Claude Code
  - Qwen API는 Anthropic API 프로토콜을 지원해 Claude Code에서 직접 사용할 수 있음
  - ANTHROPIC_MODEL과 ANTHROPIC_SMALL_FAST_MODEL을 qwen3.7-max로 설정하고, ANTHROPIC_BASE_URL은 https://dashscope-intl.aliyuncs.com/apps/anthropic으로 설정함
- OpenClaw
  - OpenClaw는 Model Studio를 통해 연결할 수 있음
  - DASHSCOPE_API_KEY를 설정한 뒤 openclaw dashboard를 실행하고, ~/.openclaw/openclaw.json에서 modelstudio/qwen3.7-max를 기본 모델로 지정함
  - 설정 예시는 contextWindow 1000000, maxTokens 65536, reasoning true를 포함함
- Qwen Code
  - Qwen Code는 Qwen 시리즈에 깊이 최적화돼 있음
  - npm install -g @qwen-code/qwen-code@latest로 설치한 뒤 qwen 명령으로 실행함