Gemma 4 QAT 모델: 모바일과 노트북 효율성을 위한 압축 최적화

1 hour ago 2

Gemma 4 양자화 인식 학습(QAT) 체크포인트는 일상적 에지 기기와 소비자용 GPU에서 로컬 실행을 돕도록 메모리 요구량과 온디바이스 성능을 최적화함
QAT는 학습 중 양자화를 시뮬레이션해 압축 시 품질 손실을 줄이며, 표준 PTQ 기준선보다 전반적 품질이 더 높은 결과를 냄
공개된 체크포인트는 Q4_0 형식과 모바일 특화 형식을 대상으로 하며, 모바일 형식은 Gemma 4 E2B의 메모리 풋프린트를 1GB로 낮춤
모바일 스키마는 정적 활성화, 채널별 양자화, 선택적 2비트 양자화, 임베딩·KV 캐시 최적화로 모바일 칩의 작업량과 활성 메모리 사용을 줄임
Hugging Face 가중치, llama.cpp·Ollama·LM Studio, LiteRT-LM·Transformers.js, SGLang·vLLM·MLX·Unsloth 지원으로 로컬 실행과 온디바이스 배포, 파인튜닝을 수행할 수 있음

공개 배경과 범위

Gemma 4 출시 두 달 뒤, Google은 추론 가속용 Multi-Token Prediction(MTP)과 E4B·26B MOE 모델 사이를 메우는 12B 모델에 이어 QAT 체크포인트를 공개함
새 체크포인트는 일상적 에지 기기와 소비자용 GPU에서 Gemma 4를 로컬로 실행할 수 있게 하려는 효율화 작업임
QAT는 학습 중 양자화를 시뮬레이션해 모델 압축 시 품질 손실을 최소화하는 방식임
이번 릴리스는 인기 있는 Q4_0 양자화 형식용 QAT 체크포인트와 모바일 사용 사례에 특화된 새 양자화 형식을 제공함

양자화는 소비자 하드웨어에서 모델을 실행하기 위한 핵심 기술이며, 메모리 풋프린트를 줄이고 디코드 속도를 높임
표준 학습 후 양자화(PTQ)는 종종 성능 저하를 낳지만, QAT는 양자화 과정을 학습에 직접 통합함
PTQ도 품질 보존에 효과적이지만, QAT 결과는 표준 PTQ 기준선보다 더 높은 전반적 품질을 냄
Google은 모든 모델 성능 극대화를 위해 Q4_0 형식에 QAT 레시피를 적용했고, E2B·E4B 에지 모델에는 모바일 특화 양자화 스키마를 따로 설계함

표준 압축 형식은 모바일 프로세서에서 효율적으로 실행하기 어려운 경우가 많아, Gemma 4는 에지 하드웨어용 맞춤형 모바일 양자화 스키마를 사용함
정적 활성화는 데이터 스케일 설정을 학습 중 미리 계산해 모바일 칩의 작업량을 줄이고 응답 속도를 높임
채널별 양자화는 압축 데이터를 모바일 가속기 구조에 맞춰 구성해 느린 우회 방식 없이 네이티브 계산을 가능하게 함
선택적 2비트 양자화는 토큰 생성 부분을 2비트로 강하게 압축하고 핵심 추론 레이어는 더 높은 정밀도로 유지해 저장 공간을 절약함
임베딩 및 KV 캐시 최적화는 모델의 어휘 목록과 단기 메모리에 압축을 집중해 활성 메모리 풋프린트를 크게 줄이고 긴 대화를 가능하게 함
오디오·비전 인코더가 필요 없는 사용 사례에서는 필요한 모달리티만 배포해 메모리 풋프린트를 더 줄일 수 있으며, Per-Layer Embeddings 없는 Gemma 4 E2B 텍스트 전용 모델은 1GB 미만의 메모리를 요구함

Google은 Q4_0 및 mobile 모델 가중치를 Hugging Face에서 제공함
GGUF 형식은 llama.cpp에서 바로 사용할 수 있고, 압축 텐서는 vLLM용으로 제공되며, 그 외 워크플로에는 Q4_0 지원 형식으로 변환·양자화할 수 있는 비양자화 체크포인트를 공유함
배포 방법은 문서에서 확인할 수 있음
데스크톱에서는 llama.cpp, Ollama, LM Studio로 Gemma 4 QAT 모델을 로컬에서 다운로드·관리·실행할 수 있음
온디바이스 배포에는 Google의 경량 LiteRT-LM 런타임을 사용할 수 있고, 웹에서는 Transformers.js로 직접 실행할 수 있음
대형 모델 서빙에는 SGLang과 vLLM을 사용할 수 있고, Apple Silicon 최적화에는 MLX을 사용할 수 있음
MTP QAT 체크포인트는 모델을 양자화하면서 MTP의 속도 향상을 보존하며, Hugging Face Transformers와 Unsloth로 가중치를 직접 파인튜닝할 수 있음