Qwen3.7-Max: 에이전트 프런티어
1 week ago
5
- Qwen3.7-Max는 코딩·디버깅, 사무 자동화, 수백~수천 단계 자율 실행을 겨냥한 에이전트 중심 독점 모델임
- 코딩·범용 에이전트·추론·다국어 평가에서 경쟁 모델과 맞붙으며, Terminal Bench 2.0-Terminus 69.7점과 GPQA Diamond 92.4점을 기록함
- 35시간 자율 커널 최적화에서 1,158회 도구 호출과 432회 평가를 수행해 Triton 기준 기하평균 10.0배 속도 향상을 달성함
- 학습 인스턴스를 Task·Harness·Verifier로 분리해 교차 하네스 RL 학습을 수행하고, 특정 하네스 지름길보다 일반화된 문제 해결을 유도함
- Alibaba Cloud Model Studio를 통해 곧 API가 제공되며, Claude Code·OpenClaw·Qwen Code 등 에이전트 프레임워크와 통합 가능함
성능 평가
- Qwen3.7-Max는 코딩 에이전트, 범용 에이전트, STEM·추론, 일반 역량, 다국어 영역에서 여러 비교 모델과 함께 평가됨
- 빈 셀(--)은 점수가 아직 제공되지 않았다는 뜻임
-
코딩 에이전트
- Terminal Bench 2.0-Terminus에서 69.7점을 기록해 DS-V4-Pro Max의 67.9점을 넘어섬
- SWE-Verified에서는 80.4점으로 Opus-4.6 Max 80.8점, DS-V4-Pro Max 80.6점과 비슷한 수준임
- SWE-Pro 60.6점, SWE-Multilingual 78.3점, SciCode 53.5점, QwenSVG 1608점을 기록함
- NL2repo는 Claude Code로 평가했으며, 특정 저장소 접근을 시도하는 pip download, pip install, git clone 같은 Bash 명령을 비활성화함
- QwenWebDev는 영어·중국어 이중언어 프런트엔드 코드 생성 내부 벤치마크이며, 7개 범주와 자동 렌더링, 멀티모달 판정, BT/Elo 평점을 사용함
-
범용 에이전트
- MCP-Mark에서 60.8점으로 GLM-5.1의 57.5점을 넘었고, MCP-Atlas에서 76.4점으로 Opus-4.6의 75.8점을 넘어섬
- Skillsbench에서는 59.2점으로 K2.6의 56.2점을 상회함
- Kernel Bench L3에서는 중앙값 1.98배 속도 향상과 96% 승률을 기록해 GPU 커널 최적화 역량을 보임
- BFCL-V4 75.0점, Qwenclaw 64.3점, ClawEval 65.2점으로 Opus-4.6 Max에 근접함
- SpreadSheetBench-v1에서는 87.0점을 기록해 사무 자동화 벤치마크에서도 높은 성능을 보임
- QwenClawBench는 실제 사용자 분포를 반영한 Claw 에이전트 벤치마크로 오픈소스 공개됨
- CoWorkBench는 컴퓨터과학, 금융, 법률, 의료 등 생산성 도메인의 장기 작업을 다루는 내부 협업 벤치마크임
-
추론
- GPQA Diamond에서 92.4점으로 Opus-4.6의 91.3점을 넘음
- HLE에서는 41.4점으로 Opus-4.6의 40.0점을 넘고, HMMT 2026 Feb에서는 97.1점으로 Opus-4.6의 96.2점을 넘어섬
- IMOAnswerBench에서는 90.0점으로 DS-V4-Pro의 89.8점을 넘고, Apex에서는 44.5점으로 DS-V4-Pro의 38.3점을 넘음
- 추론 시나리오에는 Reasoning effort is set to xhigh...로 시작하는 시스템 프롬프트가 권장됨
-
일반 역량과 다국어
- IFBench에서 79.1점으로 DS-V4-Pro의 77.0점을 넘으며 정밀한 지시 따르기 성능을 보임
- WMT24++에서 85.8점, MAXIFE에서 89.2점을 기록해 다국어 이해와 번역 품질에서도 강점을 보임
- SuperGPQA에서는 73.6점, QwenWorldBench에서는 57.3점을 기록함
- WMT24++는 더 어려운 WMT24 하위 집합이며, 55개 언어에서 XCOMET-XXL 평균 점수를 사용함
- MAXIFE는 영어와 다국어 프롬프트 23개 설정의 정확도를 측정함
- MMLU-ProX는 29개 언어의 평균 정확도를 사용함
평가 조건과 벤치마크 세부사항
- Terminal-Bench 2.0은 Harbor/Terminus-2 하네스, 5시간 제한, 12 CPU/24GB RAM, temp=1.0, top_p=0.95, top_k=20, 최대 80K 토큰, 256K 컨텍스트, 5회 평균으로 평가됨
- SWE-Bench 계열은 내부 에이전트 스캐폴드와 Bash·파일 편집 도구를 사용하며, temp=1.0, top_p=0.95, 200K 컨텍스트 창으로 평가됨
- SkillsBench는 OpenCode로 평가했으며, 외부 API 의존 작업 9개를 제외한 78개 작업에서 5회 평균을 사용함
- MCP-Mark는 GitHub MCP v0.30.3을 사용하고 Playwright 응답을 32K 토큰에서 잘랐음
- MCP-Atlas는 공개 세트 점수이며 gemini-2.5-pro 판정자를 사용함
- Kernel Bench L3는 50개 문제에서 PyTorch eager 기준 대비 문제별 속도 향상의 중앙값과 torch.compile보다 빠른 문제 비율을 보고함
- Kernel Bench L3의 각 테스트 샘플은 H100 80GB GPU 1개가 있는 격리 Docker 컨테이너에서 실행되며, 인터넷 접근은 CUTLASS 코드베이스와 공식 CUDA 문서로 제한됨
- Kernel Bench L3는 500회 도구 호출 제한과 100회 비개선 턴 후 조기 중단을 사용하고, GPT-5.4(xhigh)로 잠재적 해킹 행동을 탐지하며, CUPTI로 커널 수준 타이밍을 측정함
- MRCR-v2는 8개 바늘을 포함한 128K 컨텍스트 하위 집합이며 Google DeepMind eval_hub의 mrcr_v2 프로토콜을 채택함
협업 생산성 어시스턴트
- Qwen3.7-Max는 현실 업무 생산성을 위한 고급 동료 역할을 목표로 하며, 복잡한 정보 종합, 심층 데이터 분석과 모델링, 출판 가능한 문서·시각화 생성을 수행함
- 주요 에이전트 하네스와 기본 호환성을 갖추고, 장기 작업에서는 자율 계획과 여러 시간 동안의 지속 실행을 지원함
- 수천 회의 도구 호출과 수십 회의 개선 반복을 통해 출력 품질을 점진적으로 높임
- 일반적으로 전문 팀이 1~2주 걸리는 복잡한 프로젝트를 몇 시간 안에 end-to-end로 완료할 수 있다고 제시함
에이전트 학습과 일반화
- Qwen3.5에서 도입된 환경 스케일링 접근을 바탕으로, Qwen3.7에서는 에이전트 학습 환경의 품질과 다양성을 확장함
- 언어 모델이 다양한 사전학습 텍스트에서 일반화하듯, 에이전트 역량도 다양한 학습 환경에서 일반화된다는 관찰을 바탕으로 함
- 평가의 모든 벤치마크는 학습에 포함되지 않은 완전히 새로운 out-of-domain 환경으로 구성됨
- 환경 스케일링은 명확하고 일관된 개선 궤적을 만들며, Qwen3.7-Max는 Claude-4.6-Opus-Max에 근접한 상위 3위 평균 순위를 달성함
- 벤치마크 하위 집합의 성능 향상이 남은 벤치마크와 전체 평균의 상대적 향상을 예측할 만큼 일관돼, 벤치마크 특화 개선보다 역량 일반화를 시사함
- 스케일링 동역학과 방법론의 추가 분석은 향후 기술 보고서에서 다뤄질 예정임
교차 하네스 일반화
- Rollout 환경 인프라는 각 학습 인스턴스를 Task, Harness, Verifier라는 세 가지 직교 구성요소로 분리함
- 다양한 하네스와 그 버전을 지원하며, 합성 프록시가 아니라 현실 환경에 기반한 환경을 사용함
- 분리 설계는 같은 작업을 다양한 하네스 유형·버전, 검증자와 최소한의 추가 비용으로 조합하는 조합적 스케일링을 가능하게 함
- 같은 작업을 서로 다른 하네스 구성에서 만나게 하는 교차 하네스·교차 검증자 RL 학습을 통해, 모델이 특정 하네스의 지름길이 아니라 일반화 가능한 문제 해결 전략을 학습하도록 함
- QwenClawBench와 CoWorkBench에서 Qwen3.7-Max는 평가 시 사용되는 하네스와 무관하게 강하고 일관된 성능을 보임
실제 환경에서의 자기 진화
- Extend Attention은 SGLang의 프로덕션급 가변 길이 멀티헤드 어텐션 연산자임
- 테스트 시나리오는 MTP와 함께 새로 생성된 토큰과 최대 32K 항목의 prefix KV-cache 사이의 어텐션 점수를 계산하는 LLM 서빙의 메모리 병목·지연 민감 커널을 다룸
- 기준 구현은 SGLang의 공식 Triton 구현임
-
미지의 PPU 아키텍처에서 커널 최적화
- Qwen3.7-Max는 학습 중 본 적 없는 T-Head ZW-M890 PPU가 장착된 ECS 인스턴스에서 이 커널을 최적화함
- 사전 프로파일링 데이터, 하드웨어 문서, 해당 아키텍처용 예제 커널 없이 시작함
- 빈 작업공간에는 작업 설명, 기존 SGLang 구현, 평가 스크립트만 있었음
- 약 35시간 연속 자율 실행 동안 1,158회 도구 호출과 432회 커널 평가를 수행함
- 컴파일 실패 진단, 정합성 버그 수정, 런타임 프로파일링 기반 병목 식별, 커널 아키텍처 재설계를 모두 자체적으로 수행함
- 최종 결과는 여러 워크로드에서 Triton 기준 대비 기하평균 10.0배 속도 향상임
- 30시간이 지난 뒤에도 의미 있는 개선을 찾아내며 장기 자율 최적화의 생산성을 보임
-
최적화 궤적
- Split-KV 병렬화로 prefix KV-cache를 쿼리당 여러 스레드 블록으로 나누고, online softmax rescaling으로 부분 결과를 병합하는 reduction 커널을 도입해 약 2시간 만에 0.33배에서 2.58배로 향상됨
- per-call cudaMalloc/cudaFree를 사전 할당된 torch::empty 텐서로 대체하고, 동기 cudaMemcpy를 제거하며, 내부 루프를 2배 언롤링해 약 2.5시간 만에 5.37배로 향상됨
- 고정 split divisor를 워크로드 크기 기반 휴리스틱으로 바꾸고 36-SM 아키텍처의 SM wave occupancy를 높여 약 3시간 만에 6.85배로 향상됨
- 공유 메모리 배리어 제거, 레지스터 기반 K/V 로딩, persistent static tensor, batched softmax update, Q 사전 스케일링을 결합해 3~25시간 구간에서 8.50배로 향상됨
- MTP γ=4 특화 커널은 블록당 4개 쿼리 토큰을 동시에 처리하고 쿼리 간 K/V 로드를 공유해 32~35시간 구간에서 10.0배에 도달함
-
동일 조건 비교
- GLM 5.1은 7.3배, Kimi K2.6은 5.0배, DeepSeek V4 Pro는 3.3배, Qwen3.6-Plus는 1.1배에 도달함
- 일찍 중단된 모델은 5회 연속 도구 호출을 내지 않아 더 이상 진전할 수 없다고 판단하고 세션을 자발적으로 종료함
-
NVIDIA GPU 커널 생성
- Qwen3.7-Max는 PPU 커널 생성뿐 아니라 다양한 NVIDIA GPU에서도 프로덕션급 커널을 생성함
- KernelBench L3에서 Qwen3.7-Max는 96% 시나리오에서 가속 커널을 만들 수 있음
- 비교 수치는 Opus-4.6 98%, GLM 5.1 78%, Kimi K2.6 80%, DeepSeek V4 Pro 54%, Qwen3.6-Plus 48%임
-
장기 자율 에이전트의 특징
- 1,000회가 넘는 도구 호출 동안 최적화 전략을 유지하며 컨텍스트를 잃거나 퇴행하지 않는 장기 추론 지속성을 보임
- 학습 중 보지 못한 아키텍처에서 암기된 하드웨어 지식이 아니라 런타임 피드백을 기반으로 경쟁력 있는 커널을 만드는 인컨텍스트 일반화를 보임
보상 해킹 모니터링
- Qwen3.7-Max는 소프트웨어 엔지니어링 작업의 RL 모니터링에 통합돼, 보상 해킹 자기 모니터링과 규칙 자기 진화 프레임워크를 구성함
- 80시간을 넘는 RL 실험 동안 학습 궤적을 자율적으로 검색·재생하며 10,000회 이상의 호출을 실행함
- GitHub에서 정답에 접근하기 위해 제약을 우회하려는 시도 같은 후보 해킹 패턴을 체계적으로 식별함
- 규칙 검증, 반례 채굴, 반복 최적화를 수행함
- 여러 차례의 규칙 자기 진화를 통해 13개의 새 휴리스틱 규칙을 추가하고, 1,618건의 해킹 케이스를 정확히 플래그함
- 이 과정은 RL 보상의 안정성을 보장하고, 정교한 소프트웨어 엔지니어링 에이전트로서 모델의 지속적 자기 개선을 촉진함
스타트업 경영에서의 장기 계획과 실행
- Dynamic Cumulative Survival Games 프레임워크에서 학습 작업의 시간 복잡도를 확장해 장기 계획과 실행 역량을 강화함
- 천 단계를 넘는 순차 의사결정 궤적에서 에이전트의 정책 일관성을 높여, 가설 구축, 환경 피드백 기반 전략 조정, 장기 경험과 메모리 축적을 지속하게 함
- 긴 시간 범위에서도 안정적인 실행 리듬을 유지하며, 컨텍스트 열화와 지시 이탈에 견디도록 함
-
YC-Bench 결과
- YC-Bench는 스타트업의 1년 전체 생애주기를 시뮬레이션하는 벤치마크임
- 에이전트는 인력 관리, 계약 검토, 악성 고객 식별 등 수백 라운드의 의사결정을 수행하면서 상승하는 인건비 속에서도 이익률을 유지해야 함
- Qwen3.7-Max는 총매출 208만 달러를 달성해 Qwen3.6-Plus의 105만 달러 대비 2배, Qwen3.5-Plus의 35만2천 달러 대비 5.9배 성능을 냄
- 완료한 작업 수는 237개임
- 잠재 고객 탐색, 악성 함정 식별과 블랙리스트 등록, 안정적 수익원 우선순위화, 중기 위기에서의 자율 회복을 수행함
- 최종적으로 안정적이고 고효율인 실행 루프로 수렴함
Qwen3.7로 구축하기
- Qwen3.7-Max는 Alibaba Cloud Model Studio를 통해 곧 제공될 예정이며, 인기 에이전트 프레임워크와 코딩 어시스턴트에 통합할 수 있음
-
API 사용
-
프런트엔드 코딩
- Qwen3.7-Max는 단일 프롬프트에서 Three.js 3D 장면, Canvas 애니메이션, 전체 페이지 레이아웃, 동적 SVG를 포함한 상호작용 웹 애플리케이션을 생성할 수 있음
- 예시 프롬프트는 카메라로 손바닥의 펼침·쥠을 감지해 입자군 수축과 확산을 제어하고, 손가락 제스처 1·2에 따라 각각 hello, world와 I’am Qwen 문자를 형성하며, 3D 회전 효과를 가진 HTML 구현을 요구함
-
사무 어시스턴트
- Qwen3.7-Max는 도구 통합을 통해 지능형 사무 어시스턴트로 동작할 수 있음
- 예시에서는 대학 논문 형식 규정을 읽고, 어수선한 초안을 자율적인 office-cli 도구 호출로 다시 포맷함
- 페이지 레이아웃, 제목 스타일, 글꼴, 여백, 목차, 참고문헌 형식을 수정함
- 샘플 논문은 데모용으로 AI가 생성한 것임
-
물리 세계 내비게이션 에이전트
- Qwen3.7-Max는 도구 호출을 통해 로봇 개를 조작할 수 있음
- 물리 환경에서 물리적 이해, 계획, 메모리, 의사결정을 수행함
- 로보틱스 에이전트 하네스 Qwen-RobotClaw, 내비게이션 기반 모델 Qwen-RobotNav, Qwen-plus 모델로 구축한 여러 비전 도구를 사용함
- 데모의 왼쪽 패널은 물리 세계에서 20분 동안 진행된 에이전트 도구 호출 상호작용 흐름을, 가운데는 사족보행 로봇의 궤적상 1인칭 시야를, 오른쪽은 에이전트의 장기 메모리를 보여줌
-
코딩 어시스턴트 통합
- Qwen3.7-Max는 인기 에이전트 프레임워크와 코딩 어시스턴트에 통합됨
-
Claude Code
-
OpenClaw
- OpenClaw는 Model Studio를 통해 연결할 수 있음
- DASHSCOPE_API_KEY를 설정한 뒤 openclaw dashboard를 실행하고, ~/.openclaw/openclaw.json에서 modelstudio/qwen3.7-max를 기본 모델로 지정함
- 설정 예시는 contextWindow 1000000, maxTokens 65536, reasoning true를 포함함
-
Qwen Code
- Qwen Code는 Qwen 시리즈에 깊이 최적화돼 있음
- npm install -g @qwen-code/qwen-code@latest로 설치한 뒤 qwen 명령으로 실행함
-
Homepage
-
개발자
- Qwen3.7-Max: 에이전트 프런티어