Google은 Gemma 4 공개 후 몇 주 만에 다운로드 6,000만 회를 넘겼고, Gemma 4 제품군용 다중 토큰 예측(MTP) drafter를 공개함
MTP drafter는 특화된 추측 디코딩(speculative decoding) 아키텍처로 출력 품질이나 추론 로직 저하 없이 추론 속도를 최대 3배 높이며, LiteRT-LM, MLX, Hugging Face Transformers, vLLM 사용 하드웨어에서 테스트됨
표준 LLM 추론은 단일 토큰 생성을 위해 수십억 개 매개변수를 VRAM에서 연산 유닛으로 옮기느라 메모리 대역폭 병목이 커지고, MTP는 가벼운 drafter가 여러 미래 토큰을 제안한 뒤 대상 모델이 병렬 검증하게 만듦
대상 모델이 초안 토큰에 동의하면 전체 시퀀스를 단일 순전파에서 받아들이고 추가 토큰 하나도 생성해, 애플리케이션은 보통 단일 토큰 시간에 초안 시퀀스와 추가 토큰을 출력할 수 있음
MTP drafter는 대상 모델 활성값과 KV 캐시를 공유하고, E2B·E4B 엣지 모델에는 효율적인 임베더(embedder) 클러스터링을 적용하며, 가중치는 Hugging Face와 Kaggle에서 Apache 2.0 라이선스로 제공됨
추측 디코딩이 필요한 이유
표준 LLM 추론은 메모리 대역폭에 묶여 있어 지연 병목이 커짐
프로세서는 단일 토큰을 생성하기 위해 수십억 개의 매개변수를 VRAM에서 연산 유닛으로 옮기는 데 대부분의 시간을 쓰게 됨
이 구조는 특히 소비자용 하드웨어에서 연산 자원을 충분히 활용하지 못하게 만들고 지연을 높임
추측 디코딩은 토큰 생성과 검증을 분리함
무거운 대상 모델, 예를 들어 Gemma 4 31B를 가벼운 drafter인 MTP 모델과 짝지어, 비어 있는 연산 자원으로 여러 미래 토큰을 한 번에 예측함
drafter는 대상 모델이 토큰 하나를 처리하는 데 걸리는 시간보다 짧은 시간에 여러 토큰을 제안하고, 대상 모델은 제안된 토큰을 병렬로 검증함
MTP가 동작하는 방식
표준 대규모 언어 모델은 자기회귀 방식으로 텍스트를 생성하며, 한 번에 정확히 하나의 토큰만 만듦
이 방식은 “Actions speak louder than…” 뒤에 “words”를 예측하는 쉬운 이어쓰기와 복잡한 논리 퍼즐 풀이에 같은 양의 연산을 투입함