Gemma 4 QAT 모델: 모바일과 노트북 효율성을 위한 압축 최적화
1 hour ago
2
- Gemma 4 양자화 인식 학습(QAT) 체크포인트는 일상적 에지 기기와 소비자용 GPU에서 로컬 실행을 돕도록 메모리 요구량과 온디바이스 성능을 최적화함
- QAT는 학습 중 양자화를 시뮬레이션해 압축 시 품질 손실을 줄이며, 표준 PTQ 기준선보다 전반적 품질이 더 높은 결과를 냄
- 공개된 체크포인트는 Q4_0 형식과 모바일 특화 형식을 대상으로 하며, 모바일 형식은 Gemma 4 E2B의 메모리 풋프린트를 1GB로 낮춤
- 모바일 스키마는 정적 활성화, 채널별 양자화, 선택적 2비트 양자화, 임베딩·KV 캐시 최적화로 모바일 칩의 작업량과 활성 메모리 사용을 줄임
- Hugging Face 가중치, llama.cpp·Ollama·LM Studio, LiteRT-LM·Transformers.js, SGLang·vLLM·MLX·Unsloth 지원으로 로컬 실행과 온디바이스 배포, 파인튜닝을 수행할 수 있음
공개 배경과 범위
- Gemma 4 출시 두 달 뒤, Google은 추론 가속용 Multi-Token Prediction(MTP)과 E4B·26B MOE 모델 사이를 메우는 12B 모델에 이어 QAT 체크포인트를 공개함
- 새 체크포인트는 일상적 에지 기기와 소비자용 GPU에서 Gemma 4를 로컬로 실행할 수 있게 하려는 효율화 작업임
- QAT는 학습 중 양자화를 시뮬레이션해 모델 압축 시 품질 손실을 최소화하는 방식임
- 이번 릴리스는 인기 있는 Q4_0 양자화 형식용 QAT 체크포인트와 모바일 사용 사례에 특화된 새 양자화 형식을 제공함
압축과 품질 절충
- 양자화는 소비자 하드웨어에서 모델을 실행하기 위한 핵심 기술이며, 메모리 풋프린트를 줄이고 디코드 속도를 높임
- 표준 학습 후 양자화(PTQ)는 종종 성능 저하를 낳지만, QAT는 양자화 과정을 학습에 직접 통합함
- PTQ도 품질 보존에 효과적이지만, QAT 결과는 표준 PTQ 기준선보다 더 높은 전반적 품질을 냄
- Google은 모든 모델 성능 극대화를 위해 Q4_0 형식에 QAT 레시피를 적용했고, E2B·E4B 에지 모델에는 모바일 특화 양자화 스키마를 따로 설계함
모바일 최적화 구조
- 표준 압축 형식은 모바일 프로세서에서 효율적으로 실행하기 어려운 경우가 많아, Gemma 4는 에지 하드웨어용 맞춤형 모바일 양자화 스키마를 사용함
- 정적 활성화는 데이터 스케일 설정을 학습 중 미리 계산해 모바일 칩의 작업량을 줄이고 응답 속도를 높임
- 채널별 양자화는 압축 데이터를 모바일 가속기 구조에 맞춰 구성해 느린 우회 방식 없이 네이티브 계산을 가능하게 함
- 선택적 2비트 양자화는 토큰 생성 부분을 2비트로 강하게 압축하고 핵심 추론 레이어는 더 높은 정밀도로 유지해 저장 공간을 절약함
- 임베딩 및 KV 캐시 최적화는 모델의 어휘 목록과 단기 메모리에 압축을 집중해 활성 메모리 풋프린트를 크게 줄이고 긴 대화를 가능하게 함
- 오디오·비전 인코더가 필요 없는 사용 사례에서는 필요한 모달리티만 배포해 메모리 풋프린트를 더 줄일 수 있으며, Per-Layer Embeddings 없는 Gemma 4 E2B 텍스트 전용 모델은 1GB 미만의 메모리를 요구함
사용 방법과 도구 지원
- Google은 Q4_0 및 mobile 모델 가중치를 Hugging Face에서 제공함
- GGUF 형식은 llama.cpp에서 바로 사용할 수 있고, 압축 텐서는 vLLM용으로 제공되며, 그 외 워크플로에는 Q4_0 지원 형식으로 변환·양자화할 수 있는 비양자화 체크포인트를 공유함
- 배포 방법은 문서에서 확인할 수 있음
- 데스크톱에서는 llama.cpp, Ollama, LM Studio로 Gemma 4 QAT 모델을 로컬에서 다운로드·관리·실행할 수 있음
- 온디바이스 배포에는 Google의 경량 LiteRT-LM 런타임을 사용할 수 있고, 웹에서는 Transformers.js로 직접 실행할 수 있음
- 대형 모델 서빙에는 SGLang과 vLLM을 사용할 수 있고, Apple Silicon 최적화에는 MLX을 사용할 수 있음
- MTP QAT 체크포인트는 모델을 양자화하면서 MTP의 속도 향상을 보존하며, Hugging Face Transformers와 Unsloth로 가중치를 직접 파인튜닝할 수 있음
-
Homepage
-
개발자
- Gemma 4 QAT 모델: 모바일과 노트북 효율성을 위한 압축 최적화