Gemma 4를 Codex CLI에서 로컬 모델로 실행한 실험
2 hours ago
1
- Gemma 4를 클라우드 대신 로컬 Codex CLI 환경에서 실행해 도구 호출 성능과 안정성을 검증한 사례로, GPT-5.4 대비 비용·프라이버시 이점을 확인
- Mac(M4 Pro) 과 NVIDIA GB10 두 환경에서 각각 llama.cpp와 Ollama를 사용해 동일한 코드 생성 작업을 수행, 설정 차이에 따른 성능을 비교
- 도구 호출 성공률이 6.6%에서 86.4%로 향상되어 로컬 모델의 실용 가능성이 입증되었으며, GB10 환경에서는 완전한 코드 생성을 달성
- Mac은 5.1배 빠른 토큰 생성 속도를 보였으나, 메모리 제약과 양자화 설정으로 인해 반복 시도가 필요했고, GB10은 느리지만 첫 시도에 성공
- 결과적으로 로컬 모델도 실무 수준 코드 생성이 가능하며, 프라이버시 중심의 로컬 처리와 복잡 작업의 클라우드 전환을 병행하는 하이브리드 접근이 제안됨
Gemma 4를 Codex CLI에서 로컬 모델로 실행한 실험
- Gemma 4를 클라우드 대신 로컬 Codex CLI 환경에서 실행해 실제 개발 워크플로에서의 도구 호출 성능과 안정성을 검증한 사례
- 기존에는 GPT-5.4 클라우드 모델을 사용했으나, 비용·프라이버시·API 안정성 문제로 로컬 대안을 실험
- Gemma 4는 이전 세대 대비 도구 호출 성공률이 6.6%에서 86.4%로 향상되어 실용 가능성 확보
테스트 환경 구성
- 두 대의 머신에서 동일한 코드 생성 작업을 수행
- MacBook Pro (M4 Pro, 24GB): llama.cpp로 Gemma 4 26B MoE Q4_K_M 모델 실행
- Dell Pro Max GB10 (NVIDIA Blackwell, 128GB): Ollama v0.20.5로 Gemma 4 31B Dense 모델 실행
- 두 환경 모두 Codex CLI의 config.toml에 wire_api = "responses" 설정
- Mac에서는 Ollama의 스트리밍 버그와 Flash Attention 프리징으로 실행 불가
- llama.cpp로 전환 후 --jinja, -ctk q8_0, -ctv q8_0, -np 1 등의 플래그로 메모리 최적화
- web_search = "disabled" 설정과 직접 경로 지정으로 비전 모듈 다운로드 방지
- GB10에서는 vLLM이 PyTorch ABI 불일치로 실패
- Ollama v0.20.5에서 정상 작동, SSH 터널링으로 Mac에서 Codex CLI 연결
벤치마크 결과
- 동일한 codex exec --full-auto 명령으로 CSV 파싱 함수 작성 및 테스트 코드 생성 수행
- GPT-5.4 (클라우드): 65초 내 완전한 코드 생성, 5개 테스트 모두 통과
- GB10 (31B Dense): 타입 힌트는 없지만 오류 처리 완전, 3회 도구 호출로 7분 내 완료
- Mac (26B MoE): 불필요한 코드 잔존, 테스트 파일 작성 5회 실패, 10회 도구 호출 필요
- Mac 결과는 24GB 메모리 한계와 Q4_K_M 양자화 설정의 영향으로 분석
속도 비교와 구조적 차이
-
Mac이 GB10보다 토큰 생성 속도 5.1배 빠름
- 두 시스템 모두 273 GB/s 메모리 대역폭을 가지지만, MoE 구조의 활성 파라미터 수 차이가 원인
- 31B Dense는 매 토큰마다 31.2B 파라미터(약 17.4GB) 읽음, 26B MoE는 3.8B(약 1.9GB)만 활성
- 결과적으로 Mac은 52 tok/s, GB10은 10 tok/s 기록
- 프롬프트 처리 속도는 Mac 531 tok/s, GB10 548 tok/s로 유사
- MoE의 희소 활성화(sparse activation) 가 프롬프트 처리에도 긍정적 영향
실험에서 얻은 결론
-
토큰 속도보다 첫 시도 성공률이 더 중요
- Mac은 빠르지만 재시도와 오류 수정으로 전체 시간 차이는 30% 수준
- GB10은 느리지만 첫 시도에 완성된 코드 생성
- 클라우드 모델은 가장 빠르고 정확
-
로컬 모델도 실용 가능 수준 도달
- Gemma 3 대비 Gemma 4의 도구 호출 성공률 향상이 결정적
- 로컬 환경에서도 테스트 통과 코드 생성 가능
-
혼합(hybrid) 접근 제안
- codex --profile local로 프라이버시 중심 작업 수행
- 복잡한 작업은 클라우드 모델로 전환
실험 환경 및 설정 팁
-
Apple Silicon
- Ollama는 Gemma 4와 호환 불가, llama.cpp + --jinja 사용
- web_search = "disabled", -m 직접 경로 지정, -ctk q8_0 -ctv q8_0으로 KV 캐시 양자화
- 컨텍스트 길이 최소 32,768 필요 (Codex CLI 시스템 프롬프트 27,000 토큰 이상)
-
NVIDIA GB10
- Ollama v0.20.5에서 안정적, codex --oss -m gemma4:31b 사용
- 원격일 경우 포트 11434를 SSH 터널링
-
공통 설정
- stream_idle_timeout_ms를 1,800,000 이상으로 설정 (Mac에서 한 도구 호출 1분 39초 소요)
- llama.cpp 버전 고정 필요, 빌드 간 3.3배 속도 차이 보고됨
벤치마크 요약
- 날짜: 2026년 4월 12일
- Codex CLI v0.120.0
- Mac: llama.cpp ggml 0.9.11 (build 8680), Gemma 4 26B-A4B-it Q4_K_M
- GB10: Ollama v0.20.5, Gemma 4 31B-it Q4_K_M
- 클라우드 기준: GPT-5.4 (high reasoning effort)
- 모든 테스트는 동일한 프롬프트로 codex exec --full-auto 실행, 속도 측정은 llama-bench 사용
Medium 추천 글 목록
- 본문 하단에는 Medium 플랫폼의 추천 글 섹션이 포함되어 있으며, 인공지능 및 개발 관련 최신 포스트들이 소개됨
- 각 항목은 작성자, 매거진, 게시일, 조회 링크와 함께 표시되어 있음
-
I Tried GLM-5.1 on Claude Code (And Discovered Long-Horizon Agentic Coding)
- GLM-5.1 모델을 Claude Code 환경에서 테스트하며, 장기적 코드 생성 능력(Agentic Coding)을 다룸
- GLM-5.1의 조용한 릴리스에도 불구하고 성능 향상이 있었음
-
Claude Code 2026: The Daily Operating System Top Developers Actually Use
- 상위 개발자들이 사용하는 5단계 모델, 10분 루틴, 슬래시 명령어, 컨텍스트 관리 요령, 워크플로우를 설명
- Claude Code 2026을 일상 개발 운영체제로 활용하는 사례 중심
-
Run Claude Code with Local & Cloud Models in 5 Minutes (Ollama, LM Studio, llama.cpp, OpenRouter)
- Claude Code를 로컬 및 클라우드 모델(Ollama, LM Studio, llama.cpp, OpenRouter)과 함께 5분 내 실행하는 방법 소개
- 과거 복잡했던 설정 과정을 단순화한 최신 가이드 제공
-
I used Karpathy’s LLM Wiki to build a knowledge base that maintains itself with AI
- Andrej Karpathy의 LLM Wiki를 활용해 AI가 스스로 유지·갱신하는 지식베이스 구축 사례 설명
- 지식 근로자들이 겪는 정보 관리 문제 해결에 초점
-
Andrej Karpathy Stopped Using AI to Write Code. He’s Using It to Build a Second Brain Instead
- Karpathy가 AI를 코드 작성 대신 ‘두 번째 두뇌(Second Brain)’ 구축에 활용하는 새로운 워크플로우 소개
- 벡터 데이터베이스나 RAG 파이프라인 없이, 마크다운 파일과 LLM만으로 자가 유지형 연구 위키 구성
-
Building Claude Code with Harness Engineering
- Claude Code를 기반으로 한 Harness Engineering 구조 설명
- 멀티 에이전트, MCP, 스킬 시스템, 컨텍스트 파이프라인 등 핵심 구성요소를 다룸
- 페이지 하단에는 Medium의 기본 링크(Help, Status, About, Careers, Privacy, Terms 등)가 포함되어 있으며, 이는 플랫폼 정보 제공용임
-
Homepage
-
개발자
- Gemma 4를 Codex CLI에서 로컬 모델로 실행한 실험