MiMo-V2.5-Pro-UltraSpeed: 초당 1000토큰을 생성하는 1T 모델

1 hour ago 1

1조 매개변수급 AI 추론 모델이 실시간 응답, 즉각적 반복, 마찰 없는 협업을 가능하게 하는 수준의 디코딩 속도에 처음으로 도달함
MiMo-V2.5-Pro-UltraSpeed API는 MiMo-V2.5-Pro 대비 3배 가격·약 10배 생성 속도로 한정 제공되며, 신청 기반 API와 무료 Chat 체험은 승인 사용자에게만 제공
초당 1000토큰 속도는 Best-of-N / Tree Search 같은 병렬 추론 경로, 자동 검증, 자기 수정, Coding Agents 생산성 가속, 실시간 의사결정 루프 진입을 가능하게 함
구현은 FP4 양자화, DFlash 추측 디코딩, TileRT 초저지연 커널을 결합한 모델-시스템 codesign이며, 단일 표준 8-GPU 상용 노드에서 1T 모델의 1000토큰/초 이상 출력 달성
FP4-DFlash 체크포인트가 HuggingFace에 공개됐고 MiMo-V2.5용 UltraSpeed 지원도 준비 중이며, 초고속 추론을 커뮤니티가 시험할 수 있는 기반 마련

1. Xiaomi MiMo-V2.5-Pro-UltraSpeed: 속도가 궁극의 우위

AI 추론 속도는 기다리는 도구와 사고의 확장을 가르는 요소이며, 충분히 빠른 모델은 실시간 응답, 즉각적 반복, 마찰 없는 협업을 가능하게 함
Xiaomi MiMo-V2.5-Pro-UltraSpeed는 TileRT와의 협업으로 1조 매개변수 모델에서 처음으로 초당 1000토큰 디코딩 속도 돌파
실시간 생성 속도 비교 데모는 최대 약 1200토큰/초 수준의 MiMo-V2.5-Pro UltraSpeed 생성 속도 표시

2. 한정 기간 접근 · 신청 기반

MiMo-V2.5-Pro-UltraSpeed API는 MiMo-V2.5-Pro 비용의 3배 가격으로 출시되며, 생성 속도는 약 10배 제공
이 API는 API 전용이며 Token Plan 미지원
고속 추론 리소스가 제한돼 신청 기반의 한정 기간 창구로 제공되며, 승인 사용자는 체험 기간 동안 API 접근 가능
체험 기간은 2026년 6월 9일부터 6월 23일 23:59까지이며, 기준 시각은 베이징 시간 UTC+8 / 08:59 PDT
신청 방법
- API 플랫폼은 platform.xiaomimimo.com/ultraspeed
- 체험 슬롯은 제한적이며, 제출만으로 승인 보장 없음
- 실제 비즈니스 수요가 있는 기업과 전문 개발자 우선
- 표준 모델 접근은 MiMo-V2.5 모델 시리즈 이용
- UltraSpeed 모델의 심층 비즈니스 파트너십 문의는 business-mimo@xiaomi.com
Chat 경험, 체험 기간 무료
- 승인 사용자는 2주 창구 안에서 유효한 무료 Chat 접근 권한 획득
- Chat 진입점은 ultraspeed.xiaomimimo.com
- 리소스 제약 아래 품질과 공정성을 보장하기 위한 계정별 규칙 적용
- 계정당 하루 최대 10회 대기열 입장 가능
- 세션당 최대 30분 제한
- 5분 이상 유휴 세션 자동 해제

3. 1000 tokens/s: 단순한 속도가 아닌 패러다임 전환

1조 매개변수 규모에서 1000 tps 돌파는 더 빠른 타자기를 넘어 AI 애플리케이션 패러다임 자체를 흔드는 변화
속도 자체가 지능으로 전환되기 시작하며, 같은 실제 시간 안에서 수십 개 추론 경로를 병렬 실행하는 Best-of-N / Tree Search 가능
병렬 추론 경로는 백그라운드에서 자동 검증과 자기 수정을 수행하며, 원시 속도를 사고의 깊이로 바꿔 추론 품질을 직접 향상
Coding Agents는 추론 지연으로 화면 앞에서 기다리던 병목을 줄이고, 1000 tps에서 코드 생성 속도와 생산 효율의 패러다임급 가속 경험
1조 매개변수 모델은 밀리초 단위의 생각-응답 주기로 시간 민감 시나리오에 연결 가능
- 고빈도 퀀트 트레이딩 신호 생성
- 즉시 사기 방지 차단
- 지능형 입찰
- 실시간 인터랙티브 대화
생사가 걸린 수술 보조와 의료 영상 분석에서 AI 속도는 효율 지표를 넘어 죽음과의 경쟁에 투입되는 카드가 됨
수술대에서 AI가 병변 분석과 위험 예측을 완료하는 시간을 1초라도 줄이면 외과의에게 하나의 자유도가 추가
속도의 궁극적 의의는 생산성 향상만이 아니라 기술이 인간이 더 잘 살도록 돕는 데 있음

4. 극한 모델-시스템 codesign

1T 플래그십 모델로 1000토큰/초 이상 생성 속도를 달성한 결과는 단일 기술의 돌파가 아니라 MiMo 모델 팀과 TileRT 시스템 팀의 깊은 협업 및 극한 codesign의 산물
유사한 극한 속도를 향한 업계의 현재 접근은 일반적으로 Cerebras의 Wafer-Scale 통합이나 Groq의 순수 온칩 SRAM 맞춤형 아키텍처 같은 특수 하드웨어에 의존
선택한 경로는 모델-시스템 codesign만으로 상용 GPU에서 더 인상적인 추론 속도를 달성하는 방식
모델 측면에서는 상용 하드웨어의 대역폭 병목을 겨냥한 FP4 양자화로 모델 크기와 메모리 접근 오버헤드 축소
동시에 블록 단위 마스크 병렬 예측 기반의 효율적 추측 디코딩 방식인 DFlash로 검증 단계당 수락 토큰 길이 확대
시스템 측면에서는 TileRT가 해당 알고리듬의 동적 특성에 맞춰 새로운 양자화 및 추측 디코딩 파이프라인 전용 컴파일 엔진과 계산 커널 제공
이 codesign으로 단일 표준 8-GPU 상용 노드에서 1T 모델의 1000토큰/초 이상 출력 달성
3.1 FP4 양자화
- 1조 매개변수 규모에서 기존 8비트 FP8 / INT8 또는 16비트 추론은 감당하기 어려운 메모리 점유와 대역폭 압박 발생
- 매개변수 비트 폭 축소는 디코딩 속도에 직접 기여하며, 사실상 무손실로 널리 검증된 FP4(MXFP4) 양자화 형식 채택
- 전체 모델에 단순히 FP4를 적용하면 복잡한 추론, 논리, 코드 생성 성능 저하 발생
- Xiaomi MiMo-V2.5-Pro의 MoE(Mixture of Experts) 아키텍처에서 Experts는 매개변수의 대부분을 차지하고 양자화 허용도가 가장 높음
- MoE Experts만 FP4로 선택적 양자화하고 나머지 모든 모듈은 원래 정밀도 유지
- FP4 QAT(Quantization-Aware Training)를 통해 모델 크기를 크게 줄이고 하드웨어 대역폭 활용을 극대화하면서 전체 역량은 원본과 사실상 동등한 수준 유지
- 벤치마크 비교에서 MoE Experts만 FP4로 양자화한 모델과 FP8 모델의 전체 역량은 원본 모델과 본질적으로 동등한 수준
3.2 DFlash 추측 디코딩
- 전통적 추측 디코딩은 작은 드래프트 모델이 후속 토큰을 추측하고 대형 모델이 이를 검증하는 방식
- 이 방식은 자기회귀 생성의 1회 순전파당 1토큰 구조를 병렬 다중 토큰 생성으로 바꾸며, 검증 중 거부 샘플링으로 출력 품질 손실 방지
- 병목은 드래프트 모델 품질이 수락률을 결정하고, 더 강한 드래프트 모델은 더 높은 계산 오버헤드를 만든다는 긴장 관계
- DFlash는 연구 커뮤니티의 블록 단위 마스크 병렬 예측 방식으로, 드래프트 모델이 한 번의 순전파에서 마스크된 위치의 전체 블록을 채움
- 이 방식은 자기회귀 드래프팅의 직렬 제약을 근본적으로 제거
- MiMo-V2.5-Pro에는 1조 규모 MoE와 긴 컨텍스트 시나리오에 맞춘 맞춤 최적화 적용
- Muon 2차 최적화기와 모델 자기 증류를 사용해 압축된 마스크 블록에서도 이상적 수락률을 보장하고 드래프트 단계 오버헤드를 이론적 최솟값에 가깝게 압축
- 드래프트 모델은 Sliding Window Attention(SWA)만 사용하며, MiMo-V2 시리즈의 SWA 설계와 자연스럽게 정렬
- 완전한 접두어 의존성을 제거해 예측당 계산량을 컨텍스트 길이에 선형인 구조에서 상수 구조로 축소
- 학습 중 마스크 신호 샘플링을 GPU 로컬 샤드로 내려 한 시퀀스가 한 단계에서 다양한 컨텍스트 위치를 포괄하는 수만 개 독립 학습 신호 생성
- 이 방식은 MiMo-V2 시리즈의 긴 컨텍스트 역량과 정렬하면서 디바이스 간 통신 오버헤드 회피
- 병렬 예측 추측 디코딩은 고가치 에이전트와 코딩 시나리오 전반에서 수락 길이를 크게 개선
- 대형 모델은 검증 라운드마다 더 많은 내용을 “한숨에” 확정 가능
- 블록 크기는 8로 제한해 검증 오버헤드를 줄이고 동시성을 높이며, 높은 수락 길이를 높은 추론 처리량으로 직접 연결
- | 시나리오 | 수락 길이 |
- | --- | --- |
- | Coding | 6.30 |
- | Math / Reasoning | 5.56 |
- | Agent | 4.29 |
- Coding 시나리오의 평균 수락 길이는 6.30이며, 일부 샘플은 최대 7.14 도달
- 검증 라운드마다 8개 드래프트 토큰 중 6~7개가 수락되는 수준
- 드래프트 모델은 경량성을 유지하면서 실제 엔드투엔드 이득을 만드는 수준까지 수락률을 끌어올림
- 의미적으로 더 갈라지고 불확실성이 높은 일반 대화 시나리오에서는 현재 수락률이 아직 높지 않음
- 더 높은 일반화 상한을 탐색하기 위한 알고리듬 최적화 지속 중
3.3 TileRT 초저지연 추론 커널 / 시스템
- MiMo의 알고리듬 혁신이 수천억·1조 매개변수 모델의 대역폭 제약을 풀어낸다면, TileRT 추론 시스템은 상용 GPU의 물리적 잠재력을 마이크로초 단위까지 끌어냄
- 1000토큰/초 작동 주파수에서는 각 연산자 수명주기가 마이크로초로 압축되며, 전통적 추론 시스템의 연산자 경계가 핵심 병목으로 전환
- 모든 연산자 실행, 하드웨어 동기화, 글로벌 메모리 왕복은 마이크로초 규모에서 실행 흐름을 끊고 눈에 보이는 Execution Gaps 노출
- TileRT의 패러다임급 실행 모델 혁신
  - TileRT는 초저지연 추론의 기반 인프라로서 연산자 경계에서 생기는 실행 간극을 근본적으로 제거하는 새로운 실행 모델 도입
  - Persistent Engine Kernel은 전통적 연산자별 실행 패러다임을 완전히 버리고 전체 계산 파이프라인을 GPU 안에 지속적으로 상주시킴
  - 이 구조는 현재 Tile이 Tensor Cores에서 계산되는 동안 후속 데이터가 이미 메모리 계층을 통과하는 전체 파이프라인 연속 프리페치를 가능하게 하며, 데이터 이동과 계산의 극한 중첩 달성
  - Warp Specialization은 Tile 수준에서 통신, 데이터 이동, 텐서 계산을 더 세밀한 물리 단위로 분해
  - 동질적 lock-step 실행 모델을 깨고 서로 다른 Warps(스레드 그룹)와 GPU 전반의 이기종 실행 도메인이 독립적으로 작동하면서도 정밀하게 협력
  - 이 구조는 GPU를 지속적으로 흐르고 정밀하게 조율되는 이기종 실행 시스템으로 전환
- 마이크로초 규모 하드웨어-소프트웨어 심층 결합
  - 기반 실행 모델이 하드웨어 성능을 한계까지 밀어붙이면 순수 런타임 최적화는 물리적 경계에 도달
  - TileRT 시스템 팀과 Xiaomi MiMo 팀은 모델 동작을 초저지연 실행 파이프라인에 맞추기 위해 전통적 소프트웨어 계층 경계를 해체
  - 모델 계층은 최종적으로 MoE Experts용 혼합 FP4 양자화 전략과 1조 매개변수 아키텍처의 SWA 정렬 DFlash 추측 디코딩 채택
  - TileRT는 이러한 알고리듬 특성과 양자화 방식에 밀접하게 결합된 맞춤 컴파일 엔진과 계산 커널 제공
  - 두 팀은 하드웨어 물리에 기반한 공동 엔지니어링 트레이드오프를 수행해 실행 압력이 하드웨어 경계 안에서 매끄럽게 닫히도록 조정
  - 1000토큰/초는 단편 최적화의 우연이 아니라 세계적 수준의 시스템 인프라와 극한 알고리듬 모델이 서로 깊이 수렴하고 함께 진화한 결과
  - TileRT는 차세대 AI 인프라와 초저지연 추론에 집중하는 프런티어 시스템 아키텍처 팀
  - TileRT는 프로덕션 환경의 프런티어 대형 모델에 밀리초 단위 실시간 응답을 가능하게 하고, 새로운 런타임 아키텍처로 전통적 저장-계산 장벽을 깨는 데 집중
  - Persistent kernels, tile pipelines, heterogeneous collaboration의 풀스택 돌파로 복잡한 이기종 생태계 안에서 극한 계산 활용률 달성
  - TileRT 기술 세부 정보는 tilert.ai/blog/breaking-1000-tps.html