- Apple Silicon 기반 Mac mini에서 Ollama와 Gemma 4 모델을 자동 실행하고 메모리에 지속 유지하도록 구성하는 절차 정리
- Homebrew, Launch Agent, 환경 변수를 이용해 재부팅 후에도 모델이 자동 로드되며, 8B 모델은 약 9.6GB 메모리로 안정적 동작
- Ollama v0.19 이상은 MLX 백엔드와 NVFP4 포맷을 지원해 Apple 및 NVIDIA 환경에서 추론 성능 향상
- 26B 모델은 메모리 점유가 높아 비추천되며, 8B 모델이 실사용에 적합
- 로컬 API를 통해 OpenAI 호환 Chat Completion 요청이 가능하며, Mac mini에서 지속적 LLM 서비스 환경 구축에 유용함
사전 준비
- Apple Silicon (M1~M5) 기반 Mac mini 필요
- Gemma 4 (8B) 모델 구동을 위해 최소 16GB 통합 메모리 권장
- Homebrew가 설치된 macOS 환경 필요
Step 1 — Ollama 설치
-
Homebrew cask를 이용해 Ollama macOS 앱 설치
brew install --cask ollama-app -
설치 후 /Applications/에 Ollama.app, /opt/homebrew/bin/ollama에 CLI 배치
-
자동 업데이트 및 MLX 백엔드 포함
Step 2 — Ollama 실행 및 확인
-
Ollama 앱 실행
open -a Ollama -
메뉴 막대에 아이콘 표시 후 서버 초기화 대기
-
실행 상태 확인
ollama list
Step 3 — Gemma 4 모델 다운로드
-
모델 다운로드
ollama pull gemma4 -
약 9.6GB 다운로드 후 ollama list로 확인
-
26B 모델은 24GB 메모리 대부분을 점유해 시스템 응답 저하 발생
- 기본 8B (Q4_K_M 양자화) 모델 사용 권장
Step 4 — 모델 테스트 및 GPU 가속 확인
-
모델 테스트
ollama run gemma4:latest "Hello, what model are you?" -
GPU 가속 상태 확인
ollama ps- 예시: CPU/GPU 비율 14%/86%
Step 5 — 자동 실행 및 모델 유지 설정
-
5a. Ollama 앱 자동 실행
- 메뉴 막대 아이콘 클릭 → Launch at Login 활성화
- 또는 System Settings > General > Login Items에서 수동 추가
-
5b. Gemma 4 자동 프리로드
-
Ollama 시작 후 모델을 자동 로드하고 5분마다 유지하도록 Launch Agent 생성
cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist ... EOF -
에이전트 로드
launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist -
5분마다 빈 프롬프트를 보내 모델을 메모리에 유지
-
-
5c. 모델 무기한 유지
-
기본적으로 5분 비활성 시 모델 언로드됨
-
무기한 유지 설정
launchctl setenv OLLAMA_KEEP_ALIVE "-1" -
재부팅 후에도 유지하려면 ~/.zshrc에 추가
-
Step 6 — 설정 검증
-
Ollama 서버 실행 확인
ollama list -
모델 메모리 로드 상태 확인
ollama ps -
Launch Agent 등록 확인
launchctl list | grep ollama -
예상 출력 예시
gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever
API 접근
-
로컬 API 엔드포인트: http://localhost:11434
-
OpenAI 호환 Chat Completion 예시
curl http://localhost:11434/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "gemma4:latest", "messages": [{"role": "user", "content": "Hello"}] }'
유용한 명령어
| ollama list | 다운로드된 모델 목록 |
| ollama ps | 실행 중인 모델 및 메모리 사용량 |
| ollama run gemma4:latest | 대화형 실행 |
| ollama stop gemma4:latest | 모델 언로드 |
| ollama pull gemma4:latest | 최신 버전 업데이트 |
| ollama rm gemma4:latest | 모델 삭제 |
Ollama 제거 및 자동 실행 해제
launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist brew uninstall --cask ollama-appOllama v0.19+ 주요 개선점 (2026년 3월 31일)
-
MLX 백엔드 (Apple Silicon)
- Apple MLX 프레임워크를 자동 사용하여 추론 속도 향상
- M5 계열 칩은 GPU Neural Accelerator 추가 가속 지원
- M4 이하 칩도 MLX 기반 일반 속도 향상 적용
-
NVFP4 포맷 (NVIDIA)
- NVFP4 형식을 통해 정확도를 유지하면서 메모리 대역폭과 저장 공간 절감
- NVIDIA 모델 최적화 도구로 생성된 모델과 호환
-
캐싱 개선 (코딩 및 에이전트 작업)
- 메모리 사용량 감소: 대화 간 캐시 재사용으로 효율 향상
- 지능형 체크포인트: 프롬프트 처리량 감소 및 응답 속도 향상
- 스마트 캐시 제거: 공통 프리픽스 유지로 분기 작업 효율 개선
추가 메모
-
Gemma 4 (8B) 모델은 약 9.6GB 메모리 사용
- 24GB Mac mini에서 약 14GB 여유 확보 가능
-
26B 모델은 약 17GB 사용으로 시스템 스왑 및 응답 저하 발생
- 8B 모델이 안정적 성능 제공

6 days ago
7









English (US) ·