Mac mini에서 Ollama과 Gemma 4 26B 모델 설정 요약 (2026년 4월 기준)

6 days ago 7
  • Apple Silicon 기반 Mac mini에서 OllamaGemma 4 모델을 자동 실행하고 메모리에 지속 유지하도록 구성하는 절차 정리
  • Homebrew, Launch Agent, 환경 변수를 이용해 재부팅 후에도 모델이 자동 로드되며, 8B 모델은 약 9.6GB 메모리로 안정적 동작
  • Ollama v0.19 이상MLX 백엔드NVFP4 포맷을 지원해 Apple 및 NVIDIA 환경에서 추론 성능 향상
  • 26B 모델은 메모리 점유가 높아 비추천되며, 8B 모델이 실사용에 적합
  • 로컬 API를 통해 OpenAI 호환 Chat Completion 요청이 가능하며, Mac mini에서 지속적 LLM 서비스 환경 구축에 유용함

사전 준비

  • Apple Silicon (M1~M5) 기반 Mac mini 필요
  • Gemma 4 (8B) 모델 구동을 위해 최소 16GB 통합 메모리 권장
  • Homebrew가 설치된 macOS 환경 필요

Step 1 — Ollama 설치

  • Homebrew cask를 이용해 Ollama macOS 앱 설치

    brew install --cask ollama-app
  • 설치 후 /Applications/에 Ollama.app, /opt/homebrew/bin/ollama에 CLI 배치

  • 자동 업데이트 및 MLX 백엔드 포함

Step 2 — Ollama 실행 및 확인

  • Ollama 앱 실행

    open -a Ollama
  • 메뉴 막대에 아이콘 표시 후 서버 초기화 대기

  • 실행 상태 확인

    ollama list

Step 3 — Gemma 4 모델 다운로드

  • 모델 다운로드

    ollama pull gemma4
  • 9.6GB 다운로드 후 ollama list로 확인

  • 26B 모델은 24GB 메모리 대부분을 점유해 시스템 응답 저하 발생

    • 기본 8B (Q4_K_M 양자화) 모델 사용 권장

Step 4 — 모델 테스트 및 GPU 가속 확인

  • 모델 테스트

    ollama run gemma4:latest "Hello, what model are you?"
  • GPU 가속 상태 확인

    ollama ps
    • 예시: CPU/GPU 비율 14%/86%

Step 5 — 자동 실행 및 모델 유지 설정

  • 5a. Ollama 앱 자동 실행

    • 메뉴 막대 아이콘 클릭 → Launch at Login 활성화
    • 또는 System Settings > General > Login Items에서 수동 추가
  • 5b. Gemma 4 자동 프리로드

    • Ollama 시작 후 모델을 자동 로드하고 5분마다 유지하도록 Launch Agent 생성

      cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist ... EOF
    • 에이전트 로드

      launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
    • 5분마다 빈 프롬프트를 보내 모델을 메모리에 유지

  • 5c. 모델 무기한 유지

    • 기본적으로 5분 비활성 시 모델 언로드됨

    • 무기한 유지 설정

      launchctl setenv OLLAMA_KEEP_ALIVE "-1"
    • 재부팅 후에도 유지하려면 ~/.zshrc에 추가

Step 6 — 설정 검증

  • Ollama 서버 실행 확인

    ollama list
  • 모델 메모리 로드 상태 확인

    ollama ps
  • Launch Agent 등록 확인

    launchctl list | grep ollama
  • 예상 출력 예시

    gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever

API 접근

유용한 명령어

명령어 설명
ollama list 다운로드된 모델 목록
ollama ps 실행 중인 모델 및 메모리 사용량
ollama run gemma4:latest 대화형 실행
ollama stop gemma4:latest 모델 언로드
ollama pull gemma4:latest 최신 버전 업데이트
ollama rm gemma4:latest 모델 삭제

Ollama 제거 및 자동 실행 해제

launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist brew uninstall --cask ollama-app

Ollama v0.19+ 주요 개선점 (2026년 3월 31일)

  • MLX 백엔드 (Apple Silicon)

    • Apple MLX 프레임워크를 자동 사용하여 추론 속도 향상
    • M5 계열 칩은 GPU Neural Accelerator 추가 가속 지원
    • M4 이하 칩도 MLX 기반 일반 속도 향상 적용
  • NVFP4 포맷 (NVIDIA)

    • NVFP4 형식을 통해 정확도를 유지하면서 메모리 대역폭과 저장 공간 절감
    • NVIDIA 모델 최적화 도구로 생성된 모델과 호환
  • 캐싱 개선 (코딩 및 에이전트 작업)

    • 메모리 사용량 감소: 대화 간 캐시 재사용으로 효율 향상
    • 지능형 체크포인트: 프롬프트 처리량 감소 및 응답 속도 향상
    • 스마트 캐시 제거: 공통 프리픽스 유지로 분기 작업 효율 개선

추가 메모

  • Gemma 4 (8B) 모델은 약 9.6GB 메모리 사용
    • 24GB Mac mini에서 약 14GB 여유 확보 가능
  • 26B 모델은 약 17GB 사용으로 시스템 스왑 및 응답 저하 발생
    • 8B 모델이 안정적 성능 제공

참고 링크

Read Entire Article