MiMo-V2.5-Pro-UltraSpeed: 초당 1000토큰을 생성하는 1T 모델
1 hour ago
1
- 1조 매개변수급 AI 추론 모델이 실시간 응답, 즉각적 반복, 마찰 없는 협업을 가능하게 하는 수준의 디코딩 속도에 처음으로 도달함
- MiMo-V2.5-Pro-UltraSpeed API는 MiMo-V2.5-Pro 대비 3배 가격·약 10배 생성 속도로 한정 제공되며, 신청 기반 API와 무료 Chat 체험은 승인 사용자에게만 제공
- 초당 1000토큰 속도는 Best-of-N / Tree Search 같은 병렬 추론 경로, 자동 검증, 자기 수정, Coding Agents 생산성 가속, 실시간 의사결정 루프 진입을 가능하게 함
- 구현은 FP4 양자화, DFlash 추측 디코딩, TileRT 초저지연 커널을 결합한 모델-시스템 codesign이며, 단일 표준 8-GPU 상용 노드에서 1T 모델의 1000토큰/초 이상 출력 달성
- FP4-DFlash 체크포인트가 HuggingFace에 공개됐고 MiMo-V2.5용 UltraSpeed 지원도 준비 중이며, 초고속 추론을 커뮤니티가 시험할 수 있는 기반 마련
1. Xiaomi MiMo-V2.5-Pro-UltraSpeed: 속도가 궁극의 우위
- AI 추론 속도는 기다리는 도구와 사고의 확장을 가르는 요소이며, 충분히 빠른 모델은 실시간 응답, 즉각적 반복, 마찰 없는 협업을 가능하게 함
- Xiaomi MiMo-V2.5-Pro-UltraSpeed는 TileRT와의 협업으로 1조 매개변수 모델에서 처음으로 초당 1000토큰 디코딩 속도 돌파
- 실시간 생성 속도 비교 데모는 최대 약 1200토큰/초 수준의 MiMo-V2.5-Pro UltraSpeed 생성 속도 표시
2. 한정 기간 접근 · 신청 기반
- MiMo-V2.5-Pro-UltraSpeed API는 MiMo-V2.5-Pro 비용의 3배 가격으로 출시되며, 생성 속도는 약 10배 제공
- 이 API는 API 전용이며 Token Plan 미지원
- 고속 추론 리소스가 제한돼 신청 기반의 한정 기간 창구로 제공되며, 승인 사용자는 체험 기간 동안 API 접근 가능
- 체험 기간은 2026년 6월 9일부터 6월 23일 23:59까지이며, 기준 시각은 베이징 시간 UTC+8 / 08:59 PDT
-
신청 방법
-
Chat 경험, 체험 기간 무료
- 승인 사용자는 2주 창구 안에서 유효한 무료 Chat 접근 권한 획득
- Chat 진입점은 ultraspeed.xiaomimimo.com
- 리소스 제약 아래 품질과 공정성을 보장하기 위한 계정별 규칙 적용
- 계정당 하루 최대 10회 대기열 입장 가능
- 세션당 최대 30분 제한
- 5분 이상 유휴 세션 자동 해제
3. 1000 tokens/s: 단순한 속도가 아닌 패러다임 전환
- 1조 매개변수 규모에서 1000 tps 돌파는 더 빠른 타자기를 넘어 AI 애플리케이션 패러다임 자체를 흔드는 변화
- 속도 자체가 지능으로 전환되기 시작하며, 같은 실제 시간 안에서 수십 개 추론 경로를 병렬 실행하는 Best-of-N / Tree Search 가능
- 병렬 추론 경로는 백그라운드에서 자동 검증과 자기 수정을 수행하며, 원시 속도를 사고의 깊이로 바꿔 추론 품질을 직접 향상
- Coding Agents는 추론 지연으로 화면 앞에서 기다리던 병목을 줄이고, 1000 tps에서 코드 생성 속도와 생산 효율의 패러다임급 가속 경험
- 1조 매개변수 모델은 밀리초 단위의 생각-응답 주기로 시간 민감 시나리오에 연결 가능
- 고빈도 퀀트 트레이딩 신호 생성
- 즉시 사기 방지 차단
- 지능형 입찰
- 실시간 인터랙티브 대화
- 생사가 걸린 수술 보조와 의료 영상 분석에서 AI 속도는 효율 지표를 넘어 죽음과의 경쟁에 투입되는 카드가 됨
- 수술대에서 AI가 병변 분석과 위험 예측을 완료하는 시간을 1초라도 줄이면 외과의에게 하나의 자유도가 추가
- 속도의 궁극적 의의는 생산성 향상만이 아니라 기술이 인간이 더 잘 살도록 돕는 데 있음
4. 극한 모델-시스템 codesign
- 1T 플래그십 모델로 1000토큰/초 이상 생성 속도를 달성한 결과는 단일 기술의 돌파가 아니라 MiMo 모델 팀과 TileRT 시스템 팀의 깊은 협업 및 극한 codesign의 산물
- 유사한 극한 속도를 향한 업계의 현재 접근은 일반적으로 Cerebras의 Wafer-Scale 통합이나 Groq의 순수 온칩 SRAM 맞춤형 아키텍처 같은 특수 하드웨어에 의존
- 선택한 경로는 모델-시스템 codesign만으로 상용 GPU에서 더 인상적인 추론 속도를 달성하는 방식
- 모델 측면에서는 상용 하드웨어의 대역폭 병목을 겨냥한 FP4 양자화로 모델 크기와 메모리 접근 오버헤드 축소
- 동시에 블록 단위 마스크 병렬 예측 기반의 효율적 추측 디코딩 방식인 DFlash로 검증 단계당 수락 토큰 길이 확대
- 시스템 측면에서는 TileRT가 해당 알고리듬의 동적 특성에 맞춰 새로운 양자화 및 추측 디코딩 파이프라인 전용 컴파일 엔진과 계산 커널 제공
- 이 codesign으로 단일 표준 8-GPU 상용 노드에서 1T 모델의 1000토큰/초 이상 출력 달성
-
3.1 FP4 양자화
- 1조 매개변수 규모에서 기존 8비트 FP8 / INT8 또는 16비트 추론은 감당하기 어려운 메모리 점유와 대역폭 압박 발생
- 매개변수 비트 폭 축소는 디코딩 속도에 직접 기여하며, 사실상 무손실로 널리 검증된 FP4(MXFP4) 양자화 형식 채택
- 전체 모델에 단순히 FP4를 적용하면 복잡한 추론, 논리, 코드 생성 성능 저하 발생
- Xiaomi MiMo-V2.5-Pro의 MoE(Mixture of Experts) 아키텍처에서 Experts는 매개변수의 대부분을 차지하고 양자화 허용도가 가장 높음
- MoE Experts만 FP4로 선택적 양자화하고 나머지 모든 모듈은 원래 정밀도 유지
- FP4 QAT(Quantization-Aware Training)를 통해 모델 크기를 크게 줄이고 하드웨어 대역폭 활용을 극대화하면서 전체 역량은 원본과 사실상 동등한 수준 유지
- 벤치마크 비교에서 MoE Experts만 FP4로 양자화한 모델과 FP8 모델의 전체 역량은 원본 모델과 본질적으로 동등한 수준
-
3.2 DFlash 추측 디코딩
- 전통적 추측 디코딩은 작은 드래프트 모델이 후속 토큰을 추측하고 대형 모델이 이를 검증하는 방식
- 이 방식은 자기회귀 생성의 1회 순전파당 1토큰 구조를 병렬 다중 토큰 생성으로 바꾸며, 검증 중 거부 샘플링으로 출력 품질 손실 방지
- 병목은 드래프트 모델 품질이 수락률을 결정하고, 더 강한 드래프트 모델은 더 높은 계산 오버헤드를 만든다는 긴장 관계
- DFlash는 연구 커뮤니티의 블록 단위 마스크 병렬 예측 방식으로, 드래프트 모델이 한 번의 순전파에서 마스크된 위치의 전체 블록을 채움
- 이 방식은 자기회귀 드래프팅의 직렬 제약을 근본적으로 제거
- MiMo-V2.5-Pro에는 1조 규모 MoE와 긴 컨텍스트 시나리오에 맞춘 맞춤 최적화 적용
- Muon 2차 최적화기와 모델 자기 증류를 사용해 압축된 마스크 블록에서도 이상적 수락률을 보장하고 드래프트 단계 오버헤드를 이론적 최솟값에 가깝게 압축
- 드래프트 모델은 Sliding Window Attention(SWA)만 사용하며, MiMo-V2 시리즈의 SWA 설계와 자연스럽게 정렬
- 완전한 접두어 의존성을 제거해 예측당 계산량을 컨텍스트 길이에 선형인 구조에서 상수 구조로 축소
- 학습 중 마스크 신호 샘플링을 GPU 로컬 샤드로 내려 한 시퀀스가 한 단계에서 다양한 컨텍스트 위치를 포괄하는 수만 개 독립 학습 신호 생성
- 이 방식은 MiMo-V2 시리즈의 긴 컨텍스트 역량과 정렬하면서 디바이스 간 통신 오버헤드 회피
- 병렬 예측 추측 디코딩은 고가치 에이전트와 코딩 시나리오 전반에서 수락 길이를 크게 개선
- 대형 모델은 검증 라운드마다 더 많은 내용을 “한숨에” 확정 가능
- 블록 크기는 8로 제한해 검증 오버헤드를 줄이고 동시성을 높이며, 높은 수락 길이를 높은 추론 처리량으로 직접 연결
- | 시나리오 | 수락 길이 |
- | --- | --- |
- | Coding | 6.30 |
- | Math / Reasoning | 5.56 |
- | Agent | 4.29 |
- Coding 시나리오의 평균 수락 길이는 6.30이며, 일부 샘플은 최대 7.14 도달
- 검증 라운드마다 8개 드래프트 토큰 중 6~7개가 수락되는 수준
- 드래프트 모델은 경량성을 유지하면서 실제 엔드투엔드 이득을 만드는 수준까지 수락률을 끌어올림
- 의미적으로 더 갈라지고 불확실성이 높은 일반 대화 시나리오에서는 현재 수락률이 아직 높지 않음
- 더 높은 일반화 상한을 탐색하기 위한 알고리듬 최적화 지속 중
-
3.3 TileRT 초저지연 추론 커널 / 시스템
- MiMo의 알고리듬 혁신이 수천억·1조 매개변수 모델의 대역폭 제약을 풀어낸다면, TileRT 추론 시스템은 상용 GPU의 물리적 잠재력을 마이크로초 단위까지 끌어냄
- 1000토큰/초 작동 주파수에서는 각 연산자 수명주기가 마이크로초로 압축되며, 전통적 추론 시스템의 연산자 경계가 핵심 병목으로 전환
- 모든 연산자 실행, 하드웨어 동기화, 글로벌 메모리 왕복은 마이크로초 규모에서 실행 흐름을 끊고 눈에 보이는 Execution Gaps 노출
-
TileRT의 패러다임급 실행 모델 혁신
- TileRT는 초저지연 추론의 기반 인프라로서 연산자 경계에서 생기는 실행 간극을 근본적으로 제거하는 새로운 실행 모델 도입
- Persistent Engine Kernel은 전통적 연산자별 실행 패러다임을 완전히 버리고 전체 계산 파이프라인을 GPU 안에 지속적으로 상주시킴
- 이 구조는 현재 Tile이 Tensor Cores에서 계산되는 동안 후속 데이터가 이미 메모리 계층을 통과하는 전체 파이프라인 연속 프리페치를 가능하게 하며, 데이터 이동과 계산의 극한 중첩 달성
- Warp Specialization은 Tile 수준에서 통신, 데이터 이동, 텐서 계산을 더 세밀한 물리 단위로 분해
- 동질적 lock-step 실행 모델을 깨고 서로 다른 Warps(스레드 그룹)와 GPU 전반의 이기종 실행 도메인이 독립적으로 작동하면서도 정밀하게 협력
- 이 구조는 GPU를 지속적으로 흐르고 정밀하게 조율되는 이기종 실행 시스템으로 전환
-
마이크로초 규모 하드웨어-소프트웨어 심층 결합
- 기반 실행 모델이 하드웨어 성능을 한계까지 밀어붙이면 순수 런타임 최적화는 물리적 경계에 도달
- TileRT 시스템 팀과 Xiaomi MiMo 팀은 모델 동작을 초저지연 실행 파이프라인에 맞추기 위해 전통적 소프트웨어 계층 경계를 해체
- 모델 계층은 최종적으로 MoE Experts용 혼합 FP4 양자화 전략과 1조 매개변수 아키텍처의 SWA 정렬 DFlash 추측 디코딩 채택
- TileRT는 이러한 알고리듬 특성과 양자화 방식에 밀접하게 결합된 맞춤 컴파일 엔진과 계산 커널 제공
- 두 팀은 하드웨어 물리에 기반한 공동 엔지니어링 트레이드오프를 수행해 실행 압력이 하드웨어 경계 안에서 매끄럽게 닫히도록 조정
- 1000토큰/초는 단편 최적화의 우연이 아니라 세계적 수준의 시스템 인프라와 극한 알고리듬 모델이 서로 깊이 수렴하고 함께 진화한 결과
- TileRT는 차세대 AI 인프라와 초저지연 추론에 집중하는 프런티어 시스템 아키텍처 팀
- TileRT는 프로덕션 환경의 프런티어 대형 모델에 밀리초 단위 실시간 응답을 가능하게 하고, 새로운 런타임 아키텍처로 전통적 저장-계산 장벽을 깨는 데 집중
- Persistent kernels, tile pipelines, heterogeneous collaboration의 풀스택 돌파로 복잡한 이기종 생태계 안에서 극한 계산 활용률 달성
- TileRT 기술 세부 정보는 tilert.ai/blog/breaking-1000-tps.html
5. 더 많은 데모
- Snake 게임을 10초 만에 구축
- MacOS 인터페이스를 1분 만에 재현
6. 오픈소스 및 전망
- MiMo-V2.5-Pro-FP4-DFlash 체크포인트가 HuggingFace에 오픈소스로 공개
- 공개 체크포인트는 FP4 양자화 가중치와 DFlash 모델 매개변수 포함
- 커뮤니티 사용과 피드백을 위한 저장소는 huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash
- MiMo-V2.5용 UltraSpeed 지원 준비 중
- MiMo × TileRT의 극한 모델-시스템 codesign은 1조 매개변수 모델에 1000 tps 출력 속도 제공
-
Homepage
-
개발자
- MiMo-V2.5-Pro-UltraSpeed: 초당 1000토큰을 생성하는 1T 모델