로컬 LLM 생태계에는 Ollama가 필요하지 않다

1 month ago 25

Ollama는 로컬 LLM 실행을 단순화한 초기 도구였으나, 이후 출처 은폐와 클라우드 중심 전환으로 신뢰를 잃음
핵심 엔진인 llama.cpp의 공로를 축소하고, 자체 ggml 백엔드로 전환하면서 성능 저하와 버그 재도입이 발생
모델 명칭 오도, 비공개 GUI 앱 배포, 비효율적 Modelfile 구조 등으로 커뮤니티의 비판이 이어짐
모델 레지스트리 병목, 보안 취약점, 벤더 락인 구조가 로컬 우선 철학과 충돌
llama.cpp, LM Studio, Jan 등 오픈소스 대안들이 이미 더 높은 성능과 투명성을 제공하며 로컬 LLM 생태계의 중심으로 자리함

Ollama의 문제점과 로컬 LLM 생태계의 대안

Ollama의 기원과 초기 역할
- Ollama는 로컬 LLM 실행을 간소화한 첫 llama.cpp 래퍼로 주목받음
  - 사용자가 C++을 직접 빌드하거나 서버 설정을 하지 않아도 모델을 실행 가능
- 이후 출처를 숨기고, 사용자를 오도하며, 로컬 중심 철학에서 벗어나 벤처 자본 기반의 클라우드 중심 구조로 이동
- 창업자는 Jeffrey Morgan과 Michael Chiang으로, 이전에 Docker GUI인 Kitematic을 개발해 Docker Inc.에 인수된 경력 보유
- Y Combinator(W21) 출신으로 2023년 공개 출시, “Docker for LLMs”를 표방
llama.cpp에 대한 부적절한 크레딧
- Ollama의 추론 기능은 전적으로 Georgi Gerganov의 llama.cpp에 의존
- 1년 넘게 README, 웹사이트, 마케팅 자료 어디에도 llama.cpp 언급이 없었으며 MIT 라이선스 고지조차 누락
- 커뮤니티의 라이선스 준수 요청 이슈(#3185)는 400일 이상 응답 없음
- 이후 공동 창업자가 README 하단에 “llama.cpp project founded by Georgi Gerganov” 한 줄만 추가
- Ollama 측은 “우리가 많은 패치를 수행하고 있으며 점차 자체 엔진으로 전환할 것”이라며 의도적으로 크레딧을 축소

자체 백엔드 전환과 성능 저하

ggml 기반 커스텀 백엔드 도입
- 2025년 중반, Ollama는 llama.cpp 대신 ggml 기반 자체 구현체로 전환
- 안정성을 이유로 내세웠으나, 결과적으로 기존에 해결된 버그를 재도입
- 구조화 출력 오류, 비전 모델 실패, GGML assertion 충돌 등 다수 문제 발생
- GPT-OSS 20B 등 최신 모델이 작동하지 않거나 텐서 타입 미지원 문제 발생
- Gerganov는 Ollama가 ggml을 잘못 포크했다고 직접 지적
성능 비교 결과
- 커뮤니티 벤치마크에서 llama.cpp가 Ollama보다 1.8배 빠름 (161 vs 89 tokens/s)
- CPU에서도 30~50% 성능 차이 존재
- Qwen-3 Coder 32B 테스트에서는 llama.cpp가 70% 높은 처리량
- 원인은 Ollama의 데몬 구조, 비효율적 GPU 오프로딩, 구식 백엔드

모델 명칭 오도

DeepSeek-R1 사례
- Ollama는 DeepSeek-R1-Distill-Qwen-32B 등 축소 모델을 단순히 “DeepSeek-R1” 로 표기
- 실제 671B 파라미터 모델이 아님에도 동일 이름 사용
- 사용자들이 “DeepSeek-R1을 로컬에서 실행했다”고 오해하며 DeepSeek의 평판에 손상
- 관련 GitHub 이슈(#8557, #8698)는 모두 중복 처리 후 미해결 상태
- 현재도 ollama run deepseek-r1은 축소 모델을 실행

폐쇄형 앱 출시

GUI 앱의 비공개 배포
- 2025년 7월, macOS·Windows용 Ollama GUI 앱 공개
- 비공개 저장소에서 개발되어 라이선스 없이 배포, 소스 코드 비공개
- 오픈소스 이미지를 유지하던 프로젝트로서는 급격한 폐쇄 전환
- 커뮤니티는 AGPL-3.0 의존성 가능성과 라이선스 위반 우려 제기
- 웹사이트는 GitHub 링크 옆에 다운로드 버튼을 배치해 오픈소스인 듯한 인상 제공
- 수개월간 침묵 후 2025년 11월에야 메인 저장소로 병합
- XDA는 “오픈소스를 표방하는 프로젝트는 공개 여부를 명확히 해야 한다”고 비판

Modelfile의 비효율성

GGUF 포맷과의 중복
- GGUF 포맷은 모델 실행에 필요한 모든 정보를 단일 파일에 포함
- Ollama는 여기에 Modelfile이라는 별도 설정 파일을 추가, Dockerfile과 유사한 구조
- 이미 GGUF에 포함된 정보를 중복 정의하며 불필요한 복잡성 초래
- Ollama는 하드코딩된 템플릿 목록만 자동 인식, 새로운 템플릿은 무시됨
- 결과적으로 모델의 지시문 형식이 깨지고, 사용자가 수동 변환해야 함
비효율적 파라미터 수정
- 파라미터 변경 시 ollama show --modelfile로 추출 후 수정, ollama create로 재생성 필요
- 이 과정에서 30~60GB 모델 전체 복사 발생
- 커뮤니티는 이를 “비효율적이고 불필요한 복제”라 비판
- llama.cpp는 단순히 명령줄 인자로 파라미터 조정 가능
템플릿 호환성 문제
- Ollama는 Go 템플릿 문법을 사용, 모델 제작자가 사용하는 Jinja 템플릿과 불일치
- LM Studio와 llama.cpp는 Jinja를 직접 지원하지만, Ollama는 변환 필요
- 변환 오류로 인한 대화 형식 깨짐 문제 다수 보고

모델 레지스트리의 병목

모델 등록 지연
- 새로운 모델이 Hugging Face에 올라와도 Ollama는 직접 패키징 후 등록해야 사용 가능
- 지원하는 양자화 형식도 Q4_K_M, Q8_0 등 제한적
- 결과적으로 모델 출시 후 Ollama에서 사용까지 지연 발생
- 커뮤니티에서는 “새 모델 테스트는 llama.cpp나 vLLM을 사용하라”는 PSA 게시물 확산
양자화 제약
- Ollama는 Q5, Q6, IQ 계열 미지원
- 사용자가 요청해도 “다른 도구를 사용하라”는 답변
- ollama run hf.co/{repo}:{quant} 명령으로 Hugging Face 직접 호출 가능해졌지만, 여전히 내부 해시 저장소에 복사되고 공유 불가, 템플릿 문제도 지속

클라우드 전환과 보안 문제

클라우드 모델 도입
- 2025년 말, Ollama는 클라우드 호스팅 모델을 추가
- 로컬 중심 도구였음에도 일부 모델이 외부 서버로 프롬프트를 전송
- MiniMax 등 서드파티 모델 사용 시 데이터가 외부로 전달될 수 있음
- Ollama는 “로그 저장 안 함”이라 명시했으나 제3자 정책은 불명확
- Alibaba Cloud 기반 모델의 경우 데이터 보존 보장 없음
보안 취약점
- CVE-2025-51471: 악성 레지스트리 서버가 인증 토큰을 탈취할 수 있는 취약점
- 수정 PR은 존재했으나 수개월간 미반영
- 로컬 프라이버시를 핵심 가치로 내세운 도구로서는 심각한 구조적 문제

벤처 자본 중심의 구조

반복되는 패턴
- 오픈소스 프로젝트를 래핑해 사용자 기반 확보 → 투자 유치 → 수익화 전환
- Ollama의 단계별 행보
  - 오픈소스로 시작, llama.cpp 기반 구축
  - 출처 축소, 독립적 제품처럼 포장
  - 모델 레지스트리와 포맷으로 락인 유도
  - 폐쇄형 GUI 출시
  - 클라우드 서비스 도입으로 수익화
벤더 락인 구조
- Ollama는 모델을 해시된 파일명으로 저장해 다른 도구와 호환 어려움
- GGUF를 가져올 수는 있지만 내보내기는 불편하게 설계
- 사용자는 Ollama 생태계에 묶이게 되는 구조

대안 도구

llama.cpp
- OpenAI 호환 API 서버(‘llama-server’), 웹 UI, 세밀한 파라미터 제어, 높은 처리량 제공
- 2026년 2월, ggml.ai가 Hugging Face에 합류하여 지속 가능성 확보
- MIT 라이선스 기반, 450명 이상 기여자 참여
기타 대안
- llama-swap: 다중 모델 로딩·핫스왑 지원
- LiteLLM: 여러 백엔드 간 OpenAI 호환 프록시 제공
- LM Studio: GUI 기반, llama.cpp 사용, GGUF 완전 호환
- Jan, Msty: 로컬 우선 설계의 오픈소스 데스크톱 앱
- koboldcpp, Red Hat ramalama: 컨테이너 기반 모델 실행, 명확한 출처 표기

결론: 로컬 LLM 생태계의 방향

Georgi Gerganov의 llama.cpp는 로컬 AI 혁신의 기반
- 커뮤니티 협업으로 소비자 하드웨어에서도 강력한 모델 실행 가능
Ollama는 이 기반 위에서 성장했으나 출처 은폐, 품질 저하, 폐쇄화, 클라우드 전환으로 신뢰 상실
로컬 LLM 생태계가 필요한 것은 Ollama가 아니라 llama.cpp
- 진정한 개방성과 성능은 이미 커뮤니티 중심 도구들이 제공 중임