MiMo-V2.5-Pro-UltraSpeed: 초당 1000토큰을 생성하는 1T 모델

1 hour ago 1
  • 1조 매개변수급 AI 추론 모델이 실시간 응답, 즉각적 반복, 마찰 없는 협업을 가능하게 하는 수준의 디코딩 속도에 처음으로 도달함
  • MiMo-V2.5-Pro-UltraSpeed API는 MiMo-V2.5-Pro 대비 3배 가격·약 10배 생성 속도로 한정 제공되며, 신청 기반 API와 무료 Chat 체험은 승인 사용자에게만 제공
  • 초당 1000토큰 속도는 Best-of-N / Tree Search 같은 병렬 추론 경로, 자동 검증, 자기 수정, Coding Agents 생산성 가속, 실시간 의사결정 루프 진입을 가능하게 함
  • 구현은 FP4 양자화, DFlash 추측 디코딩, TileRT 초저지연 커널을 결합한 모델-시스템 codesign이며, 단일 표준 8-GPU 상용 노드에서 1T 모델의 1000토큰/초 이상 출력 달성
  • FP4-DFlash 체크포인트가 HuggingFace에 공개됐고 MiMo-V2.5용 UltraSpeed 지원도 준비 중이며, 초고속 추론을 커뮤니티가 시험할 수 있는 기반 마련

1. Xiaomi MiMo-V2.5-Pro-UltraSpeed: 속도가 궁극의 우위

  • AI 추론 속도는 기다리는 도구와 사고의 확장을 가르는 요소이며, 충분히 빠른 모델은 실시간 응답, 즉각적 반복, 마찰 없는 협업을 가능하게 함
  • Xiaomi MiMo-V2.5-Pro-UltraSpeed는 TileRT와의 협업으로 1조 매개변수 모델에서 처음으로 초당 1000토큰 디코딩 속도 돌파
  • 실시간 생성 속도 비교 데모는 최대 약 1200토큰/초 수준의 MiMo-V2.5-Pro UltraSpeed 생성 속도 표시

2. 한정 기간 접근 · 신청 기반

  • MiMo-V2.5-Pro-UltraSpeed API는 MiMo-V2.5-Pro 비용의 3배 가격으로 출시되며, 생성 속도는 약 10배 제공
  • 이 API는 API 전용이며 Token Plan 미지원
  • 고속 추론 리소스가 제한돼 신청 기반의 한정 기간 창구로 제공되며, 승인 사용자는 체험 기간 동안 API 접근 가능
  • 체험 기간은 2026년 6월 9일부터 6월 23일 23:59까지이며, 기준 시각은 베이징 시간 UTC+8 / 08:59 PDT
  • 신청 방법

    • API 플랫폼은 platform.xiaomimimo.com/ultraspeed
    • 체험 슬롯은 제한적이며, 제출만으로 승인 보장 없음
    • 실제 비즈니스 수요가 있는 기업과 전문 개발자 우선
    • 표준 모델 접근은 MiMo-V2.5 모델 시리즈 이용
    • UltraSpeed 모델의 심층 비즈니스 파트너십 문의는 business-mimo@xiaomi.com
  • Chat 경험, 체험 기간 무료

    • 승인 사용자는 2주 창구 안에서 유효한 무료 Chat 접근 권한 획득
    • Chat 진입점은 ultraspeed.xiaomimimo.com
    • 리소스 제약 아래 품질과 공정성을 보장하기 위한 계정별 규칙 적용
    • 계정당 하루 최대 10회 대기열 입장 가능
    • 세션당 최대 30분 제한
    • 5분 이상 유휴 세션 자동 해제

3. 1000 tokens/s: 단순한 속도가 아닌 패러다임 전환

  • 1조 매개변수 규모에서 1000 tps 돌파는 더 빠른 타자기를 넘어 AI 애플리케이션 패러다임 자체를 흔드는 변화
  • 속도 자체가 지능으로 전환되기 시작하며, 같은 실제 시간 안에서 수십 개 추론 경로를 병렬 실행하는 Best-of-N / Tree Search 가능
  • 병렬 추론 경로는 백그라운드에서 자동 검증과 자기 수정을 수행하며, 원시 속도를 사고의 깊이로 바꿔 추론 품질을 직접 향상
  • Coding Agents는 추론 지연으로 화면 앞에서 기다리던 병목을 줄이고, 1000 tps에서 코드 생성 속도와 생산 효율의 패러다임급 가속 경험
  • 1조 매개변수 모델은 밀리초 단위의 생각-응답 주기로 시간 민감 시나리오에 연결 가능
    • 고빈도 퀀트 트레이딩 신호 생성
    • 즉시 사기 방지 차단
    • 지능형 입찰
    • 실시간 인터랙티브 대화
  • 생사가 걸린 수술 보조와 의료 영상 분석에서 AI 속도는 효율 지표를 넘어 죽음과의 경쟁에 투입되는 카드가 됨
  • 수술대에서 AI가 병변 분석과 위험 예측을 완료하는 시간을 1초라도 줄이면 외과의에게 하나의 자유도가 추가
  • 속도의 궁극적 의의는 생산성 향상만이 아니라 기술이 인간이 더 잘 살도록 돕는 데 있음

4. 극한 모델-시스템 codesign

  • 1T 플래그십 모델로 1000토큰/초 이상 생성 속도를 달성한 결과는 단일 기술의 돌파가 아니라 MiMo 모델 팀과 TileRT 시스템 팀의 깊은 협업 및 극한 codesign의 산물
  • 유사한 극한 속도를 향한 업계의 현재 접근은 일반적으로 Cerebras의 Wafer-Scale 통합이나 Groq의 순수 온칩 SRAM 맞춤형 아키텍처 같은 특수 하드웨어에 의존
  • 선택한 경로는 모델-시스템 codesign만으로 상용 GPU에서 더 인상적인 추론 속도를 달성하는 방식
  • 모델 측면에서는 상용 하드웨어의 대역폭 병목을 겨냥한 FP4 양자화로 모델 크기와 메모리 접근 오버헤드 축소
  • 동시에 블록 단위 마스크 병렬 예측 기반의 효율적 추측 디코딩 방식인 DFlash로 검증 단계당 수락 토큰 길이 확대
  • 시스템 측면에서는 TileRT가 해당 알고리듬의 동적 특성에 맞춰 새로운 양자화 및 추측 디코딩 파이프라인 전용 컴파일 엔진과 계산 커널 제공
  • 이 codesign으로 단일 표준 8-GPU 상용 노드에서 1T 모델의 1000토큰/초 이상 출력 달성
  • 3.1 FP4 양자화

    • 1조 매개변수 규모에서 기존 8비트 FP8 / INT8 또는 16비트 추론은 감당하기 어려운 메모리 점유와 대역폭 압박 발생
    • 매개변수 비트 폭 축소는 디코딩 속도에 직접 기여하며, 사실상 무손실로 널리 검증된 FP4(MXFP4) 양자화 형식 채택
    • 전체 모델에 단순히 FP4를 적용하면 복잡한 추론, 논리, 코드 생성 성능 저하 발생
    • Xiaomi MiMo-V2.5-Pro의 MoE(Mixture of Experts) 아키텍처에서 Experts는 매개변수의 대부분을 차지하고 양자화 허용도가 가장 높음
    • MoE Experts만 FP4로 선택적 양자화하고 나머지 모든 모듈은 원래 정밀도 유지
    • FP4 QAT(Quantization-Aware Training)를 통해 모델 크기를 크게 줄이고 하드웨어 대역폭 활용을 극대화하면서 전체 역량은 원본과 사실상 동등한 수준 유지
    • 벤치마크 비교에서 MoE Experts만 FP4로 양자화한 모델과 FP8 모델의 전체 역량은 원본 모델과 본질적으로 동등한 수준
  • 3.2 DFlash 추측 디코딩

    • 전통적 추측 디코딩은 작은 드래프트 모델이 후속 토큰을 추측하고 대형 모델이 이를 검증하는 방식
    • 이 방식은 자기회귀 생성의 1회 순전파당 1토큰 구조를 병렬 다중 토큰 생성으로 바꾸며, 검증 중 거부 샘플링으로 출력 품질 손실 방지
    • 병목은 드래프트 모델 품질이 수락률을 결정하고, 더 강한 드래프트 모델은 더 높은 계산 오버헤드를 만든다는 긴장 관계
    • DFlash는 연구 커뮤니티의 블록 단위 마스크 병렬 예측 방식으로, 드래프트 모델이 한 번의 순전파에서 마스크된 위치의 전체 블록을 채움
    • 이 방식은 자기회귀 드래프팅의 직렬 제약을 근본적으로 제거
    • MiMo-V2.5-Pro에는 1조 규모 MoE와 긴 컨텍스트 시나리오에 맞춘 맞춤 최적화 적용
    • Muon 2차 최적화기와 모델 자기 증류를 사용해 압축된 마스크 블록에서도 이상적 수락률을 보장하고 드래프트 단계 오버헤드를 이론적 최솟값에 가깝게 압축
    • 드래프트 모델은 Sliding Window Attention(SWA)만 사용하며, MiMo-V2 시리즈의 SWA 설계와 자연스럽게 정렬
    • 완전한 접두어 의존성을 제거해 예측당 계산량을 컨텍스트 길이에 선형인 구조에서 상수 구조로 축소
    • 학습 중 마스크 신호 샘플링을 GPU 로컬 샤드로 내려 한 시퀀스가 한 단계에서 다양한 컨텍스트 위치를 포괄하는 수만 개 독립 학습 신호 생성
    • 이 방식은 MiMo-V2 시리즈의 긴 컨텍스트 역량과 정렬하면서 디바이스 간 통신 오버헤드 회피
    • 병렬 예측 추측 디코딩은 고가치 에이전트와 코딩 시나리오 전반에서 수락 길이를 크게 개선
    • 대형 모델은 검증 라운드마다 더 많은 내용을 “한숨에” 확정 가능
    • 블록 크기는 8로 제한해 검증 오버헤드를 줄이고 동시성을 높이며, 높은 수락 길이를 높은 추론 처리량으로 직접 연결
    • | 시나리오 | 수락 길이 |
    • | --- | --- |
    • | Coding | 6.30 |
    • | Math / Reasoning | 5.56 |
    • | Agent | 4.29 |
    • Coding 시나리오의 평균 수락 길이는 6.30이며, 일부 샘플은 최대 7.14 도달
    • 검증 라운드마다 8개 드래프트 토큰 중 6~7개가 수락되는 수준
    • 드래프트 모델은 경량성을 유지하면서 실제 엔드투엔드 이득을 만드는 수준까지 수락률을 끌어올림
    • 의미적으로 더 갈라지고 불확실성이 높은 일반 대화 시나리오에서는 현재 수락률이 아직 높지 않음
    • 더 높은 일반화 상한을 탐색하기 위한 알고리듬 최적화 지속 중
  • 3.3 TileRT 초저지연 추론 커널 / 시스템

    • MiMo의 알고리듬 혁신이 수천억·1조 매개변수 모델의 대역폭 제약을 풀어낸다면, TileRT 추론 시스템은 상용 GPU의 물리적 잠재력을 마이크로초 단위까지 끌어냄
    • 1000토큰/초 작동 주파수에서는 각 연산자 수명주기가 마이크로초로 압축되며, 전통적 추론 시스템의 연산자 경계가 핵심 병목으로 전환
    • 모든 연산자 실행, 하드웨어 동기화, 글로벌 메모리 왕복은 마이크로초 규모에서 실행 흐름을 끊고 눈에 보이는 Execution Gaps 노출
    • TileRT의 패러다임급 실행 모델 혁신

      • TileRT는 초저지연 추론의 기반 인프라로서 연산자 경계에서 생기는 실행 간극을 근본적으로 제거하는 새로운 실행 모델 도입
      • Persistent Engine Kernel은 전통적 연산자별 실행 패러다임을 완전히 버리고 전체 계산 파이프라인을 GPU 안에 지속적으로 상주시킴
      • 이 구조는 현재 Tile이 Tensor Cores에서 계산되는 동안 후속 데이터가 이미 메모리 계층을 통과하는 전체 파이프라인 연속 프리페치를 가능하게 하며, 데이터 이동과 계산의 극한 중첩 달성
      • Warp Specialization은 Tile 수준에서 통신, 데이터 이동, 텐서 계산을 더 세밀한 물리 단위로 분해
      • 동질적 lock-step 실행 모델을 깨고 서로 다른 Warps(스레드 그룹)와 GPU 전반의 이기종 실행 도메인이 독립적으로 작동하면서도 정밀하게 협력
      • 이 구조는 GPU를 지속적으로 흐르고 정밀하게 조율되는 이기종 실행 시스템으로 전환
    • 마이크로초 규모 하드웨어-소프트웨어 심층 결합

      • 기반 실행 모델이 하드웨어 성능을 한계까지 밀어붙이면 순수 런타임 최적화는 물리적 경계에 도달
      • TileRT 시스템 팀과 Xiaomi MiMo 팀은 모델 동작을 초저지연 실행 파이프라인에 맞추기 위해 전통적 소프트웨어 계층 경계를 해체
      • 모델 계층은 최종적으로 MoE Experts용 혼합 FP4 양자화 전략과 1조 매개변수 아키텍처의 SWA 정렬 DFlash 추측 디코딩 채택
      • TileRT는 이러한 알고리듬 특성과 양자화 방식에 밀접하게 결합된 맞춤 컴파일 엔진과 계산 커널 제공
      • 두 팀은 하드웨어 물리에 기반한 공동 엔지니어링 트레이드오프를 수행해 실행 압력이 하드웨어 경계 안에서 매끄럽게 닫히도록 조정
      • 1000토큰/초는 단편 최적화의 우연이 아니라 세계적 수준의 시스템 인프라와 극한 알고리듬 모델이 서로 깊이 수렴하고 함께 진화한 결과
      • TileRT는 차세대 AI 인프라와 초저지연 추론에 집중하는 프런티어 시스템 아키텍처 팀
      • TileRT는 프로덕션 환경의 프런티어 대형 모델에 밀리초 단위 실시간 응답을 가능하게 하고, 새로운 런타임 아키텍처로 전통적 저장-계산 장벽을 깨는 데 집중
      • Persistent kernels, tile pipelines, heterogeneous collaboration의 풀스택 돌파로 복잡한 이기종 생태계 안에서 극한 계산 활용률 달성
      • TileRT 기술 세부 정보는 tilert.ai/blog/breaking-1000-tps.html

5. 더 많은 데모

  • Snake 게임을 10초 만에 구축
  • MacOS 인터페이스를 1분 만에 재현

6. 오픈소스 및 전망

  • MiMo-V2.5-Pro-FP4-DFlash 체크포인트가 HuggingFace에 오픈소스로 공개
  • 공개 체크포인트는 FP4 양자화 가중치와 DFlash 모델 매개변수 포함
  • 커뮤니티 사용과 피드백을 위한 저장소는 huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash
  • MiMo-V2.5용 UltraSpeed 지원 준비 중
  • MiMo × TileRT의 극한 모델-시스템 codesign은 1조 매개변수 모델에 1000 tps 출력 속도 제공
Read Entire Article