Mac mini에서 Ollama과 Gemma 4 26B 모델 설정 요약 (2026년 4월 기준)

6 days ago 7

Apple Silicon 기반 Mac mini에서 Ollama와 Gemma 4 모델을 자동 실행하고 메모리에 지속 유지하도록 구성하는 절차 정리
Homebrew, Launch Agent, 환경 변수를 이용해 재부팅 후에도 모델이 자동 로드되며, 8B 모델은 약 9.6GB 메모리로 안정적 동작
Ollama v0.19 이상은 MLX 백엔드와 NVFP4 포맷을 지원해 Apple 및 NVIDIA 환경에서 추론 성능 향상
26B 모델은 메모리 점유가 높아 비추천되며, 8B 모델이 실사용에 적합
로컬 API를 통해 OpenAI 호환 Chat Completion 요청이 가능하며, Mac mini에서 지속적 LLM 서비스 환경 구축에 유용함

사전 준비

Apple Silicon (M1~M5) 기반 Mac mini 필요
Gemma 4 (8B) 모델 구동을 위해 최소 16GB 통합 메모리 권장
Homebrew가 설치된 macOS 환경 필요

Step 1 — Ollama 설치

Homebrew cask를 이용해 Ollama macOS 앱 설치
brew install --cask ollama-app
설치 후 /Applications/에 Ollama.app, /opt/homebrew/bin/ollama에 CLI 배치
자동 업데이트 및 MLX 백엔드 포함

Step 2 — Ollama 실행 및 확인

Ollama 앱 실행
open -a Ollama
메뉴 막대에 아이콘 표시 후 서버 초기화 대기
실행 상태 확인
ollama list

Step 3 — Gemma 4 모델 다운로드

모델 다운로드
ollama pull gemma4
약 9.6GB 다운로드 후 ollama list로 확인
26B 모델은 24GB 메모리 대부분을 점유해 시스템 응답 저하 발생
- 기본 8B (Q4_K_M 양자화) 모델 사용 권장

Step 4 — 모델 테스트 및 GPU 가속 확인

모델 테스트
ollama run gemma4:latest "Hello, what model are you?"
GPU 가속 상태 확인
ollama ps
- 예시: CPU/GPU 비율 14%/86%

Step 5 — 자동 실행 및 모델 유지 설정

5a. Ollama 앱 자동 실행
- 메뉴 막대 아이콘 클릭 → Launch at Login 활성화
- 또는 System Settings > General > Login Items에서 수동 추가
5b. Gemma 4 자동 프리로드
- Ollama 시작 후 모델을 자동 로드하고 5분마다 유지하도록 Launch Agent 생성
  cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist ... EOF
- 에이전트 로드
  launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
- 5분마다 빈 프롬프트를 보내 모델을 메모리에 유지
5c. 모델 무기한 유지
- 기본적으로 5분 비활성 시 모델 언로드됨
- 무기한 유지 설정
  launchctl setenv OLLAMA_KEEP_ALIVE "-1"
- 재부팅 후에도 유지하려면 ~/.zshrc에 추가

Step 6 — 설정 검증

Ollama 서버 실행 확인
ollama list
모델 메모리 로드 상태 확인
ollama ps
Launch Agent 등록 확인
launchctl list | grep ollama
예상 출력 예시
gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever

API 접근

로컬 API 엔드포인트: http://localhost:11434
OpenAI 호환 Chat Completion 예시
curl http://localhost:11434/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "gemma4:latest", "messages": [{"role": "user", "content": "Hello"}] }'

유용한 명령어

명령어 설명

ollama list	다운로드된 모델 목록
ollama ps	실행 중인 모델 및 메모리 사용량
ollama run gemma4:latest	대화형 실행
ollama stop gemma4:latest	모델 언로드
ollama pull gemma4:latest	최신 버전 업데이트
ollama rm gemma4:latest	모델 삭제

Ollama 제거 및 자동 실행 해제

launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist brew uninstall --cask ollama-app

Ollama v0.19+ 주요 개선점 (2026년 3월 31일)

MLX 백엔드 (Apple Silicon)
- Apple MLX 프레임워크를 자동 사용하여 추론 속도 향상
- M5 계열 칩은 GPU Neural Accelerator 추가 가속 지원
- M4 이하 칩도 MLX 기반 일반 속도 향상 적용
NVFP4 포맷 (NVIDIA)
- NVFP4 형식을 통해 정확도를 유지하면서 메모리 대역폭과 저장 공간 절감
- NVIDIA 모델 최적화 도구로 생성된 모델과 호환
캐싱 개선 (코딩 및 에이전트 작업)
- 메모리 사용량 감소: 대화 간 캐시 재사용으로 효율 향상
- 지능형 체크포인트: 프롬프트 처리량 감소 및 응답 속도 향상
- 스마트 캐시 제거: 공통 프리픽스 유지로 분기 작업 효율 개선