Gemma 4를 Codex CLI에서 로컬 모델로 실행한 실험

2 hours ago 1
  • Gemma 4를 클라우드 대신 로컬 Codex CLI 환경에서 실행해 도구 호출 성능과 안정성을 검증한 사례로, GPT-5.4 대비 비용·프라이버시 이점을 확인
  • Mac(M4 Pro)NVIDIA GB10 두 환경에서 각각 llama.cppOllama를 사용해 동일한 코드 생성 작업을 수행, 설정 차이에 따른 성능을 비교
  • 도구 호출 성공률이 6.6%에서 86.4%로 향상되어 로컬 모델의 실용 가능성이 입증되었으며, GB10 환경에서는 완전한 코드 생성을 달성
  • Mac은 5.1배 빠른 토큰 생성 속도를 보였으나, 메모리 제약과 양자화 설정으로 인해 반복 시도가 필요했고, GB10은 느리지만 첫 시도에 성공
  • 결과적으로 로컬 모델도 실무 수준 코드 생성이 가능하며, 프라이버시 중심의 로컬 처리와 복잡 작업의 클라우드 전환을 병행하는 하이브리드 접근이 제안됨

Gemma 4를 Codex CLI에서 로컬 모델로 실행한 실험

  • Gemma 4를 클라우드 대신 로컬 Codex CLI 환경에서 실행해 실제 개발 워크플로에서의 도구 호출 성능과 안정성을 검증한 사례
    • 기존에는 GPT-5.4 클라우드 모델을 사용했으나, 비용·프라이버시·API 안정성 문제로 로컬 대안을 실험
    • Gemma 4는 이전 세대 대비 도구 호출 성공률이 6.6%에서 86.4%로 향상되어 실용 가능성 확보

테스트 환경 구성

  • 두 대의 머신에서 동일한 코드 생성 작업을 수행
    • MacBook Pro (M4 Pro, 24GB): llama.cpp로 Gemma 4 26B MoE Q4_K_M 모델 실행
    • Dell Pro Max GB10 (NVIDIA Blackwell, 128GB): Ollama v0.20.5로 Gemma 4 31B Dense 모델 실행
    • 두 환경 모두 Codex CLI의 config.toml에 wire_api = "responses" 설정
  • Mac에서는 Ollama의 스트리밍 버그Flash Attention 프리징으로 실행 불가
    • llama.cpp로 전환 후 --jinja, -ctk q8_0, -ctv q8_0, -np 1 등의 플래그로 메모리 최적화
    • web_search = "disabled" 설정과 직접 경로 지정으로 비전 모듈 다운로드 방지
  • GB10에서는 vLLM이 PyTorch ABI 불일치로 실패
    • Ollama v0.20.5에서 정상 작동, SSH 터널링으로 Mac에서 Codex CLI 연결

벤치마크 결과

  • 동일한 codex exec --full-auto 명령으로 CSV 파싱 함수 작성 및 테스트 코드 생성 수행
    • GPT-5.4 (클라우드): 65초 내 완전한 코드 생성, 5개 테스트 모두 통과
    • GB10 (31B Dense): 타입 힌트는 없지만 오류 처리 완전, 3회 도구 호출로 7분 내 완료
    • Mac (26B MoE): 불필요한 코드 잔존, 테스트 파일 작성 5회 실패, 10회 도구 호출 필요
  • Mac 결과는 24GB 메모리 한계와 Q4_K_M 양자화 설정의 영향으로 분석

속도 비교와 구조적 차이

  • Mac이 GB10보다 토큰 생성 속도 5.1배 빠름

    • 두 시스템 모두 273 GB/s 메모리 대역폭을 가지지만, MoE 구조의 활성 파라미터 수 차이가 원인
    • 31B Dense는 매 토큰마다 31.2B 파라미터(약 17.4GB) 읽음, 26B MoE는 3.8B(약 1.9GB)만 활성
    • 결과적으로 Mac은 52 tok/s, GB10은 10 tok/s 기록
    • 프롬프트 처리 속도는 Mac 531 tok/s, GB10 548 tok/s로 유사
    • MoE의 희소 활성화(sparse activation) 가 프롬프트 처리에도 긍정적 영향

실험에서 얻은 결론

  • 토큰 속도보다 첫 시도 성공률이 더 중요

    • Mac은 빠르지만 재시도와 오류 수정으로 전체 시간 차이는 30% 수준
    • GB10은 느리지만 첫 시도에 완성된 코드 생성
    • 클라우드 모델은 가장 빠르고 정확
  • 로컬 모델도 실용 가능 수준 도달

    • Gemma 3 대비 Gemma 4의 도구 호출 성공률 향상이 결정적
    • 로컬 환경에서도 테스트 통과 코드 생성 가능
  • 혼합(hybrid) 접근 제안

    • codex --profile local로 프라이버시 중심 작업 수행
    • 복잡한 작업은 클라우드 모델로 전환

실험 환경 및 설정 팁

  • Apple Silicon

    • Ollama는 Gemma 4와 호환 불가, llama.cpp + --jinja 사용
    • web_search = "disabled", -m 직접 경로 지정, -ctk q8_0 -ctv q8_0으로 KV 캐시 양자화
    • 컨텍스트 길이 최소 32,768 필요 (Codex CLI 시스템 프롬프트 27,000 토큰 이상)
  • NVIDIA GB10

    • Ollama v0.20.5에서 안정적, codex --oss -m gemma4:31b 사용
    • 원격일 경우 포트 11434를 SSH 터널링
  • 공통 설정

    • stream_idle_timeout_ms를 1,800,000 이상으로 설정 (Mac에서 한 도구 호출 1분 39초 소요)
    • llama.cpp 버전 고정 필요, 빌드 간 3.3배 속도 차이 보고됨

벤치마크 요약

  • 날짜: 2026년 4월 12일
  • Codex CLI v0.120.0
  • Mac: llama.cpp ggml 0.9.11 (build 8680), Gemma 4 26B-A4B-it Q4_K_M
  • GB10: Ollama v0.20.5, Gemma 4 31B-it Q4_K_M
  • 클라우드 기준: GPT-5.4 (high reasoning effort)
  • 모든 테스트는 동일한 프롬프트로 codex exec --full-auto 실행, 속도 측정은 llama-bench 사용

Medium 추천 글 목록

  • 본문 하단에는 Medium 플랫폼의 추천 글 섹션이 포함되어 있으며, 인공지능 및 개발 관련 최신 포스트들이 소개됨
  • 각 항목은 작성자, 매거진, 게시일, 조회 링크와 함께 표시되어 있음
  • I Tried GLM-5.1 on Claude Code (And Discovered Long-Horizon Agentic Coding)

    • GLM-5.1 모델을 Claude Code 환경에서 테스트하며, 장기적 코드 생성 능력(Agentic Coding)을 다룸
    • GLM-5.1의 조용한 릴리스에도 불구하고 성능 향상이 있었음
  • Claude Code 2026: The Daily Operating System Top Developers Actually Use

    • 상위 개발자들이 사용하는 5단계 모델, 10분 루틴, 슬래시 명령어, 컨텍스트 관리 요령, 워크플로우를 설명
    • Claude Code 2026을 일상 개발 운영체제로 활용하는 사례 중심
  • Run Claude Code with Local & Cloud Models in 5 Minutes (Ollama, LM Studio, llama.cpp, OpenRouter)

    • Claude Code를 로컬 및 클라우드 모델(Ollama, LM Studio, llama.cpp, OpenRouter)과 함께 5분 내 실행하는 방법 소개
    • 과거 복잡했던 설정 과정을 단순화한 최신 가이드 제공
  • I used Karpathy’s LLM Wiki to build a knowledge base that maintains itself with AI

    • Andrej Karpathy의 LLM Wiki를 활용해 AI가 스스로 유지·갱신하는 지식베이스 구축 사례 설명
    • 지식 근로자들이 겪는 정보 관리 문제 해결에 초점
  • Andrej Karpathy Stopped Using AI to Write Code. He’s Using It to Build a Second Brain Instead

    • Karpathy가 AI를 코드 작성 대신 ‘두 번째 두뇌(Second Brain)’ 구축에 활용하는 새로운 워크플로우 소개
    • 벡터 데이터베이스나 RAG 파이프라인 없이, 마크다운 파일과 LLM만으로 자가 유지형 연구 위키 구성
  • Building Claude Code with Harness Engineering

    • Claude Code를 기반으로 한 Harness Engineering 구조 설명
    • 멀티 에이전트, MCP, 스킬 시스템, 컨텍스트 파이프라인 등 핵심 구성요소를 다룸
    • 페이지 하단에는 Medium의 기본 링크(Help, Status, About, Careers, Privacy, Terms 등)가 포함되어 있으며, 이는 플랫폼 정보 제공용임
Read Entire Article