Gemma 4 가속: 다중 토큰 예측 drafter로 더 빠른 추론

8 hours ago 1

Google은 Gemma 4 공개 후 몇 주 만에 다운로드 6,000만 회를 넘겼고, Gemma 4 제품군용 다중 토큰 예측(MTP) drafter를 공개함
MTP drafter는 특화된 추측 디코딩(speculative decoding) 아키텍처로 출력 품질이나 추론 로직 저하 없이 추론 속도를 최대 3배 높이며, LiteRT-LM, MLX, Hugging Face Transformers, vLLM 사용 하드웨어에서 테스트됨
표준 LLM 추론은 단일 토큰 생성을 위해 수십억 개 매개변수를 VRAM에서 연산 유닛으로 옮기느라 메모리 대역폭 병목이 커지고, MTP는 가벼운 drafter가 여러 미래 토큰을 제안한 뒤 대상 모델이 병렬 검증하게 만듦
대상 모델이 초안 토큰에 동의하면 전체 시퀀스를 단일 순전파에서 받아들이고 추가 토큰 하나도 생성해, 애플리케이션은 보통 단일 토큰 시간에 초안 시퀀스와 추가 토큰을 출력할 수 있음
MTP drafter는 대상 모델 활성값과 KV 캐시를 공유하고, E2B·E4B 엣지 모델에는 효율적인 임베더(embedder) 클러스터링을 적용하며, 가중치는 Hugging Face와 Kaggle에서 Apache 2.0 라이선스로 제공됨

추측 디코딩이 필요한 이유

표준 LLM 추론은 메모리 대역폭에 묶여 있어 지연 병목이 커짐
프로세서는 단일 토큰을 생성하기 위해 수십억 개의 매개변수를 VRAM에서 연산 유닛으로 옮기는 데 대부분의 시간을 쓰게 됨
이 구조는 특히 소비자용 하드웨어에서 연산 자원을 충분히 활용하지 못하게 만들고 지연을 높임
추측 디코딩은 토큰 생성과 검증을 분리함
무거운 대상 모델, 예를 들어 Gemma 4 31B를 가벼운 drafter인 MTP 모델과 짝지어, 비어 있는 연산 자원으로 여러 미래 토큰을 한 번에 예측함
drafter는 대상 모델이 토큰 하나를 처리하는 데 걸리는 시간보다 짧은 시간에 여러 토큰을 제안하고, 대상 모델은 제안된 토큰을 병렬로 검증함

표준 대규모 언어 모델은 자기회귀 방식으로 텍스트를 생성하며, 한 번에 정확히 하나의 토큰만 만듦
이 방식은 “Actions speak louder than…” 뒤에 “words”를 예측하는 쉬운 이어쓰기와 복잡한 논리 퍼즐 풀이에 같은 양의 연산을 투입함
MTP는 Google 연구자들이 Fast Inference from Transformers via Speculative Decoding에서 도입한 추측 디코딩으로 이런 비효율을 줄임
대상 모델이 초안 토큰에 동의하면 전체 시퀀스를 단일 순전파에서 받아들이고, 대상 모델 자체도 추가 토큰 하나를 동시에 생성함
애플리케이션은 보통 단일 토큰을 생성하는 데 걸리는 시간에 초안 시퀀스 전체와 추가 토큰 하나를 출력할 수 있음

개발자에게 추론 속도는 프로덕션 배포의 주요 병목이 되는 경우가 많음
빠른 다단계 계획이 필요한 자율 에이전트, 코딩 어시스턴트, 온디바이스로 완전히 실행되는 반응형 모바일 애플리케이션에서는 밀리초 단위 지연도 중요함
Gemma 4 모델을 해당 drafter와 함께 사용하면 다음 효과를 얻을 수 있음
응답성 개선
- 거의 실시간 채팅, 몰입형 음성 애플리케이션, 에이전트형 워크플로의 지연을 크게 줄일 수 있음
로컬 개발 가속
- 개인 컴퓨터와 소비자용 GPU에서 26B MoE 및 31B Dense 모델을 빠르게 실행해 복잡한 오프라인 코딩과 에이전트형 워크플로를 지원함
온디바이스 성능 향상
- E2B 및 E4B 모델을 엣지 기기에서 더 빠르게 출력하도록 해 기기의 배터리 사용을 줄이는 데 도움이 됨
품질 저하 없음
- 기본 Gemma 4 모델이 최종 검증을 유지하므로 같은 수준의 추론과 정확도를 훨씬 빠르게 제공함
- Gemma 4 26B를 NVIDIA RTX PRO 6000에서 실행한 예시는 표준 추론과 MTP drafter의 초당 토큰 수 차이를 비교하며, 같은 출력 품질에서 대기 시간이 절반 수준임을 보여줌
- 비교 영상은 다운로드해 볼 수 있음

MTP drafter를 빠르고 정확하게 만들기 위해 여러 아키텍처 개선이 적용됨
초안 모델은 대상 모델의 활성값을 자연스럽게 활용하고 대상 모델의 KV 캐시를 공유함
KV 캐시 공유 덕분에 큰 모델이 이미 처리한 문맥을 다시 계산하는 데 시간을 낭비하지 않음
E2B와 E4B 엣지 모델에서는 최종 로짓 계산이 큰 병목이 되기 때문에, 임베더에 효율적인 클러스터링 기법을 구현해 생성을 더 빠르게 함
하드웨어별 최적화도 분석됨
Apple Silicon에서 26B mixture-of-experts 모델은 배치 크기 1일 때 고유한 라우팅 과제가 있지만, 여러 요청을 동시에 처리하면 로컬에서 최대 약 2.2배 속도 향상을 얻음
예시 배치 크기는 4~8이며, NVIDIA A100에서도 배치 크기를 늘릴 때 유사한 향상이 나타남
시각적 아키텍처, KV 캐시 공유, 효율적인 임베더의 동작 방식은 심층 기술 설명에서 확인할 수 있음