Gemma 4 가속: 다중 토큰 예측 drafter로 더 빠른 추론

8 hours ago 1
  • Google은 Gemma 4 공개 후 몇 주 만에 다운로드 6,000만 회를 넘겼고, Gemma 4 제품군용 다중 토큰 예측(MTP) drafter를 공개함
  • MTP drafter는 특화된 추측 디코딩(speculative decoding) 아키텍처로 출력 품질이나 추론 로직 저하 없이 추론 속도를 최대 3배 높이며, LiteRT-LM, MLX, Hugging Face Transformers, vLLM 사용 하드웨어에서 테스트됨
  • 표준 LLM 추론은 단일 토큰 생성을 위해 수십억 개 매개변수를 VRAM에서 연산 유닛으로 옮기느라 메모리 대역폭 병목이 커지고, MTP는 가벼운 drafter가 여러 미래 토큰을 제안한 뒤 대상 모델이 병렬 검증하게 만듦
  • 대상 모델이 초안 토큰에 동의하면 전체 시퀀스를 단일 순전파에서 받아들이고 추가 토큰 하나도 생성해, 애플리케이션은 보통 단일 토큰 시간에 초안 시퀀스와 추가 토큰을 출력할 수 있음
  • MTP drafter는 대상 모델 활성값과 KV 캐시를 공유하고, E2B·E4B 엣지 모델에는 효율적인 임베더(embedder) 클러스터링을 적용하며, 가중치는 Hugging FaceKaggle에서 Apache 2.0 라이선스로 제공됨

추측 디코딩이 필요한 이유

  • 표준 LLM 추론은 메모리 대역폭에 묶여 있어 지연 병목이 커짐
  • 프로세서는 단일 토큰을 생성하기 위해 수십억 개의 매개변수를 VRAM에서 연산 유닛으로 옮기는 데 대부분의 시간을 쓰게 됨
  • 이 구조는 특히 소비자용 하드웨어에서 연산 자원을 충분히 활용하지 못하게 만들고 지연을 높임
  • 추측 디코딩은 토큰 생성과 검증을 분리함
  • 무거운 대상 모델, 예를 들어 Gemma 4 31B를 가벼운 drafter인 MTP 모델과 짝지어, 비어 있는 연산 자원으로 여러 미래 토큰을 한 번에 예측함
  • drafter는 대상 모델이 토큰 하나를 처리하는 데 걸리는 시간보다 짧은 시간에 여러 토큰을 제안하고, 대상 모델은 제안된 토큰을 병렬로 검증함

MTP가 동작하는 방식

  • 표준 대규모 언어 모델은 자기회귀 방식으로 텍스트를 생성하며, 한 번에 정확히 하나의 토큰만 만듦
  • 이 방식은 “Actions speak louder than…” 뒤에 “words”를 예측하는 쉬운 이어쓰기와 복잡한 논리 퍼즐 풀이에 같은 양의 연산을 투입함
  • MTP는 Google 연구자들이 Fast Inference from Transformers via Speculative Decoding에서 도입한 추측 디코딩으로 이런 비효율을 줄임
  • 대상 모델이 초안 토큰에 동의하면 전체 시퀀스를 단일 순전파에서 받아들이고, 대상 모델 자체도 추가 토큰 하나를 동시에 생성함
  • 애플리케이션은 보통 단일 토큰을 생성하는 데 걸리는 시간에 초안 시퀀스 전체와 추가 토큰 하나를 출력할 수 있음

개발자에게 주는 성능 효과

  • 개발자에게 추론 속도는 프로덕션 배포의 주요 병목이 되는 경우가 많음
  • 빠른 다단계 계획이 필요한 자율 에이전트, 코딩 어시스턴트, 온디바이스로 완전히 실행되는 반응형 모바일 애플리케이션에서는 밀리초 단위 지연도 중요함
  • Gemma 4 모델을 해당 drafter와 함께 사용하면 다음 효과를 얻을 수 있음
  • 응답성 개선

    • 거의 실시간 채팅, 몰입형 음성 애플리케이션, 에이전트형 워크플로의 지연을 크게 줄일 수 있음
  • 로컬 개발 가속

    • 개인 컴퓨터와 소비자용 GPU에서 26B MoE 및 31B Dense 모델을 빠르게 실행해 복잡한 오프라인 코딩과 에이전트형 워크플로를 지원함
  • 온디바이스 성능 향상

    • E2B 및 E4B 모델을 엣지 기기에서 더 빠르게 출력하도록 해 기기의 배터리 사용을 줄이는 데 도움이 됨
  • 품질 저하 없음

    • 기본 Gemma 4 모델이 최종 검증을 유지하므로 같은 수준의 추론과 정확도를 훨씬 빠르게 제공함
    • Gemma 4 26B를 NVIDIA RTX PRO 6000에서 실행한 예시는 표준 추론과 MTP drafter의 초당 토큰 수 차이를 비교하며, 같은 출력 품질에서 대기 시간이 절반 수준임을 보여줌
    • 비교 영상은 다운로드해 볼 수 있음

MTP drafter의 내부 최적화

  • MTP drafter를 빠르고 정확하게 만들기 위해 여러 아키텍처 개선이 적용됨
  • 초안 모델은 대상 모델의 활성값을 자연스럽게 활용하고 대상 모델의 KV 캐시를 공유함
  • KV 캐시 공유 덕분에 큰 모델이 이미 처리한 문맥을 다시 계산하는 데 시간을 낭비하지 않음
  • E2B와 E4B 엣지 모델에서는 최종 로짓 계산이 큰 병목이 되기 때문에, 임베더에 효율적인 클러스터링 기법을 구현해 생성을 더 빠르게 함
  • 하드웨어별 최적화도 분석됨
  • Apple Silicon에서 26B mixture-of-experts 모델은 배치 크기 1일 때 고유한 라우팅 과제가 있지만, 여러 요청을 동시에 처리하면 로컬에서 최대 약 2.2배 속도 향상을 얻음
  • 예시 배치 크기는 4~8이며, NVIDIA A100에서도 배치 크기를 늘릴 때 유사한 향상이 나타남
  • 시각적 아키텍처, KV 캐시 공유, 효율적인 임베더의 동작 방식은 심층 기술 설명에서 확인할 수 있음

사용 방법과 제공 위치

  • Gemma 4 제품군용 MTP drafter는 Gemma 4와 같은 오픈소스 Apache 2.0 라이선스로 제공됨
  • MTP를 Gemma 4와 함께 사용하는 방법은 문서에서 확인할 수 있음
  • 모델 가중치는 Hugging FaceKaggle에서 다운로드할 수 있음
  • 더 빠른 추론은 transformers, MLX, vLLM, SGLang, Ollama로 실험할 수 있음
  • Google AI Edge Gallery에서 Android 또는 iOS로 직접 사용해볼 수 있음
  • Google은 Gemma 생태계인 Gemmaverse에서 이 속도 향상이 개발을 가속하기를 기대함
Read Entire Article