Gemma 4를 Codex CLI에서 로컬 모델로 실행한 실험

1 month ago 24

Gemma 4를 클라우드 대신 로컬 Codex CLI 환경에서 실행해 도구 호출 성능과 안정성을 검증한 사례로, GPT-5.4 대비 비용·프라이버시 이점을 확인
Mac(M4 Pro) 과 NVIDIA GB10 두 환경에서 각각 llama.cpp와 Ollama를 사용해 동일한 코드 생성 작업을 수행, 설정 차이에 따른 성능을 비교
도구 호출 성공률이 6.6%에서 86.4%로 향상되어 로컬 모델의 실용 가능성이 입증되었으며, GB10 환경에서는 완전한 코드 생성을 달성
Mac은 5.1배 빠른 토큰 생성 속도를 보였으나, 메모리 제약과 양자화 설정으로 인해 반복 시도가 필요했고, GB10은 느리지만 첫 시도에 성공
결과적으로 로컬 모델도 실무 수준 코드 생성이 가능하며, 프라이버시 중심의 로컬 처리와 복잡 작업의 클라우드 전환을 병행하는 하이브리드 접근이 제안됨

Gemma 4를 Codex CLI에서 로컬 모델로 실행한 실험

Gemma 4를 클라우드 대신 로컬 Codex CLI 환경에서 실행해 실제 개발 워크플로에서의 도구 호출 성능과 안정성을 검증한 사례
- 기존에는 GPT-5.4 클라우드 모델을 사용했으나, 비용·프라이버시·API 안정성 문제로 로컬 대안을 실험
- Gemma 4는 이전 세대 대비 도구 호출 성공률이 6.6%에서 86.4%로 향상되어 실용 가능성 확보

테스트 환경 구성

두 대의 머신에서 동일한 코드 생성 작업을 수행
- MacBook Pro (M4 Pro, 24GB): llama.cpp로 Gemma 4 26B MoE Q4_K_M 모델 실행
- Dell Pro Max GB10 (NVIDIA Blackwell, 128GB): Ollama v0.20.5로 Gemma 4 31B Dense 모델 실행
- 두 환경 모두 Codex CLI의 config.toml에 wire_api = "responses" 설정
Mac에서는 Ollama의 스트리밍 버그와 Flash Attention 프리징으로 실행 불가
- llama.cpp로 전환 후 --jinja, -ctk q8_0, -ctv q8_0, -np 1 등의 플래그로 메모리 최적화
- web_search = "disabled" 설정과 직접 경로 지정으로 비전 모듈 다운로드 방지
GB10에서는 vLLM이 PyTorch ABI 불일치로 실패
- Ollama v0.20.5에서 정상 작동, SSH 터널링으로 Mac에서 Codex CLI 연결

벤치마크 결과

동일한 codex exec --full-auto 명령으로 CSV 파싱 함수 작성 및 테스트 코드 생성 수행
- GPT-5.4 (클라우드): 65초 내 완전한 코드 생성, 5개 테스트 모두 통과
- GB10 (31B Dense): 타입 힌트는 없지만 오류 처리 완전, 3회 도구 호출로 7분 내 완료
- Mac (26B MoE): 불필요한 코드 잔존, 테스트 파일 작성 5회 실패, 10회 도구 호출 필요
Mac 결과는 24GB 메모리 한계와 Q4_K_M 양자화 설정의 영향으로 분석

속도 비교와 구조적 차이

Mac이 GB10보다 토큰 생성 속도 5.1배 빠름
- 두 시스템 모두 273 GB/s 메모리 대역폭을 가지지만, MoE 구조의 활성 파라미터 수 차이가 원인
- 31B Dense는 매 토큰마다 31.2B 파라미터(약 17.4GB) 읽음, 26B MoE는 3.8B(약 1.9GB)만 활성
- 결과적으로 Mac은 52 tok/s, GB10은 10 tok/s 기록
- 프롬프트 처리 속도는 Mac 531 tok/s, GB10 548 tok/s로 유사
- MoE의 희소 활성화(sparse activation) 가 프롬프트 처리에도 긍정적 영향

실험에서 얻은 결론

토큰 속도보다 첫 시도 성공률이 더 중요
- Mac은 빠르지만 재시도와 오류 수정으로 전체 시간 차이는 30% 수준
- GB10은 느리지만 첫 시도에 완성된 코드 생성
- 클라우드 모델은 가장 빠르고 정확
로컬 모델도 실용 가능 수준 도달
- Gemma 3 대비 Gemma 4의 도구 호출 성공률 향상이 결정적
- 로컬 환경에서도 테스트 통과 코드 생성 가능
혼합(hybrid) 접근 제안
- codex --profile local로 프라이버시 중심 작업 수행
- 복잡한 작업은 클라우드 모델로 전환

실험 환경 및 설정 팁

Apple Silicon
- Ollama는 Gemma 4와 호환 불가, llama.cpp + --jinja 사용
- web_search = "disabled", -m 직접 경로 지정, -ctk q8_0 -ctv q8_0으로 KV 캐시 양자화
- 컨텍스트 길이 최소 32,768 필요 (Codex CLI 시스템 프롬프트 27,000 토큰 이상)
NVIDIA GB10
- Ollama v0.20.5에서 안정적, codex --oss -m gemma4:31b 사용
- 원격일 경우 포트 11434를 SSH 터널링
공통 설정
- stream_idle_timeout_ms를 1,800,000 이상으로 설정 (Mac에서 한 도구 호출 1분 39초 소요)
- llama.cpp 버전 고정 필요, 빌드 간 3.3배 속도 차이 보고됨

벤치마크 요약

날짜: 2026년 4월 12일
Codex CLI v0.120.0
Mac: llama.cpp ggml 0.9.11 (build 8680), Gemma 4 26B-A4B-it Q4_K_M
GB10: Ollama v0.20.5, Gemma 4 31B-it Q4_K_M
클라우드 기준: GPT-5.4 (high reasoning effort)
모든 테스트는 동일한 프롬프트로 codex exec --full-auto 실행, 속도 측정은 llama-bench 사용

Medium 추천 글 목록

본문 하단에는 Medium 플랫폼의 추천 글 섹션이 포함되어 있으며, 인공지능 및 개발 관련 최신 포스트들이 소개됨
각 항목은 작성자, 매거진, 게시일, 조회 링크와 함께 표시되어 있음
I Tried GLM-5.1 on Claude Code (And Discovered Long-Horizon Agentic Coding)
- GLM-5.1 모델을 Claude Code 환경에서 테스트하며, 장기적 코드 생성 능력(Agentic Coding)을 다룸
- GLM-5.1의 조용한 릴리스에도 불구하고 성능 향상이 있었음
Claude Code 2026: The Daily Operating System Top Developers Actually Use
- 상위 개발자들이 사용하는 5단계 모델, 10분 루틴, 슬래시 명령어, 컨텍스트 관리 요령, 워크플로우를 설명
- Claude Code 2026을 일상 개발 운영체제로 활용하는 사례 중심
Run Claude Code with Local & Cloud Models in 5 Minutes (Ollama, LM Studio, llama.cpp, OpenRouter)
- Claude Code를 로컬 및 클라우드 모델(Ollama, LM Studio, llama.cpp, OpenRouter)과 함께 5분 내 실행하는 방법 소개
- 과거 복잡했던 설정 과정을 단순화한 최신 가이드 제공
I used Karpathy’s LLM Wiki to build a knowledge base that maintains itself with AI
- Andrej Karpathy의 LLM Wiki를 활용해 AI가 스스로 유지·갱신하는 지식베이스 구축 사례 설명
- 지식 근로자들이 겪는 정보 관리 문제 해결에 초점
Andrej Karpathy Stopped Using AI to Write Code. He’s Using It to Build a Second Brain Instead
- Karpathy가 AI를 코드 작성 대신 ‘두 번째 두뇌(Second Brain)’ 구축에 활용하는 새로운 워크플로우 소개
- 벡터 데이터베이스나 RAG 파이프라인 없이, 마크다운 파일과 LLM만으로 자가 유지형 연구 위키 구성
Building Claude Code with Harness Engineering
- Claude Code를 기반으로 한 Harness Engineering 구조 설명
- 멀티 에이전트, MCP, 스킬 시스템, 컨텍스트 파이프라인 등 핵심 구성요소를 다룸
- 페이지 하단에는 Medium의 기본 링크(Help, Status, About, Careers, Privacy, Terms 등)가 포함되어 있으며, 이는 플랫폼 정보 제공용임