로컬 LLM 생태계에는 Ollama가 필요하지 않다

11 hours ago 1
  • Ollama는 로컬 LLM 실행을 단순화한 초기 도구였으나, 이후 출처 은폐와 클라우드 중심 전환으로 신뢰를 잃음
  • 핵심 엔진인 llama.cpp의 공로를 축소하고, 자체 ggml 백엔드로 전환하면서 성능 저하와 버그 재도입이 발생
  • 모델 명칭 오도, 비공개 GUI 앱 배포, 비효율적 Modelfile 구조 등으로 커뮤니티의 비판이 이어짐
  • 모델 레지스트리 병목, 보안 취약점, 벤더 락인 구조가 로컬 우선 철학과 충돌
  • llama.cpp, LM Studio, Jan 등 오픈소스 대안들이 이미 더 높은 성능과 투명성을 제공하며 로컬 LLM 생태계의 중심으로 자리함

Ollama의 문제점과 로컬 LLM 생태계의 대안

  • Ollama의 기원과 초기 역할

    • Ollama는 로컬 LLM 실행을 간소화한 첫 llama.cpp 래퍼로 주목받음
      • 사용자가 C++을 직접 빌드하거나 서버 설정을 하지 않아도 모델을 실행 가능
    • 이후 출처를 숨기고, 사용자를 오도하며, 로컬 중심 철학에서 벗어나 벤처 자본 기반의 클라우드 중심 구조로 이동
    • 창업자는 Jeffrey Morgan과 Michael Chiang으로, 이전에 Docker GUI인 Kitematic을 개발해 Docker Inc.에 인수된 경력 보유
    • Y Combinator(W21) 출신으로 2023년 공개 출시, “Docker for LLMs”를 표방
  • llama.cpp에 대한 부적절한 크레딧

    • Ollama의 추론 기능은 전적으로 Georgi Gerganov의 llama.cpp에 의존
    • 1년 넘게 README, 웹사이트, 마케팅 자료 어디에도 llama.cpp 언급이 없었으며 MIT 라이선스 고지조차 누락
    • 커뮤니티의 라이선스 준수 요청 이슈(#3185)는 400일 이상 응답 없음
    • 이후 공동 창업자가 README 하단에 “llama.cpp project founded by Georgi Gerganov” 한 줄만 추가
    • Ollama 측은 “우리가 많은 패치를 수행하고 있으며 점차 자체 엔진으로 전환할 것”이라며 의도적으로 크레딧을 축소

자체 백엔드 전환과 성능 저하

  • ggml 기반 커스텀 백엔드 도입

    • 2025년 중반, Ollama는 llama.cpp 대신 ggml 기반 자체 구현체로 전환
    • 안정성을 이유로 내세웠으나, 결과적으로 기존에 해결된 버그를 재도입
    • 구조화 출력 오류, 비전 모델 실패, GGML assertion 충돌 등 다수 문제 발생
    • GPT-OSS 20B 등 최신 모델이 작동하지 않거나 텐서 타입 미지원 문제 발생
    • Gerganov는 Ollama가 ggml을 잘못 포크했다고 직접 지적
  • 성능 비교 결과

    • 커뮤니티 벤치마크에서 llama.cpp가 Ollama보다 1.8배 빠름 (161 vs 89 tokens/s)
    • CPU에서도 30~50% 성능 차이 존재
    • Qwen-3 Coder 32B 테스트에서는 llama.cpp가 70% 높은 처리량
    • 원인은 Ollama의 데몬 구조, 비효율적 GPU 오프로딩, 구식 백엔드

모델 명칭 오도

  • DeepSeek-R1 사례

    • Ollama는 DeepSeek-R1-Distill-Qwen-32B 등 축소 모델을 단순히 “DeepSeek-R1” 로 표기
    • 실제 671B 파라미터 모델이 아님에도 동일 이름 사용
    • 사용자들이 “DeepSeek-R1을 로컬에서 실행했다”고 오해하며 DeepSeek의 평판에 손상
    • 관련 GitHub 이슈(#8557, #8698)는 모두 중복 처리 후 미해결 상태
    • 현재도 ollama run deepseek-r1은 축소 모델을 실행

폐쇄형 앱 출시

  • GUI 앱의 비공개 배포

    • 2025년 7월, macOS·Windows용 Ollama GUI 앱 공개
    • 비공개 저장소에서 개발되어 라이선스 없이 배포, 소스 코드 비공개
    • 오픈소스 이미지를 유지하던 프로젝트로서는 급격한 폐쇄 전환
    • 커뮤니티는 AGPL-3.0 의존성 가능성과 라이선스 위반 우려 제기
    • 웹사이트는 GitHub 링크 옆에 다운로드 버튼을 배치해 오픈소스인 듯한 인상 제공
    • 수개월간 침묵 후 2025년 11월에야 메인 저장소로 병합
    • XDA는 “오픈소스를 표방하는 프로젝트는 공개 여부를 명확히 해야 한다”고 비판

Modelfile의 비효율성

  • GGUF 포맷과의 중복

    • GGUF 포맷은 모델 실행에 필요한 모든 정보를 단일 파일에 포함
    • Ollama는 여기에 Modelfile이라는 별도 설정 파일을 추가, Dockerfile과 유사한 구조
    • 이미 GGUF에 포함된 정보를 중복 정의하며 불필요한 복잡성 초래
    • Ollama는 하드코딩된 템플릿 목록만 자동 인식, 새로운 템플릿은 무시됨
    • 결과적으로 모델의 지시문 형식이 깨지고, 사용자가 수동 변환해야 함
  • 비효율적 파라미터 수정

    • 파라미터 변경 시 ollama show --modelfile로 추출 후 수정, ollama create로 재생성 필요
    • 이 과정에서 30~60GB 모델 전체 복사 발생
    • 커뮤니티는 이를 “비효율적이고 불필요한 복제”라 비판
    • llama.cpp는 단순히 명령줄 인자로 파라미터 조정 가능
  • 템플릿 호환성 문제

    • Ollama는 Go 템플릿 문법을 사용, 모델 제작자가 사용하는 Jinja 템플릿과 불일치
    • LM Studio와 llama.cpp는 Jinja를 직접 지원하지만, Ollama는 변환 필요
    • 변환 오류로 인한 대화 형식 깨짐 문제 다수 보고

모델 레지스트리의 병목

  • 모델 등록 지연

    • 새로운 모델이 Hugging Face에 올라와도 Ollama는 직접 패키징 후 등록해야 사용 가능
    • 지원하는 양자화 형식도 Q4_K_M, Q8_0 등 제한적
    • 결과적으로 모델 출시 후 Ollama에서 사용까지 지연 발생
    • 커뮤니티에서는 “새 모델 테스트는 llama.cpp나 vLLM을 사용하라”는 PSA 게시물 확산
  • 양자화 제약

    • Ollama는 Q5, Q6, IQ 계열 미지원
    • 사용자가 요청해도 “다른 도구를 사용하라”는 답변
    • ollama run hf.co/{repo}:{quant} 명령으로 Hugging Face 직접 호출 가능해졌지만, 여전히 내부 해시 저장소에 복사되고 공유 불가, 템플릿 문제도 지속

클라우드 전환과 보안 문제

  • 클라우드 모델 도입

    • 2025년 말, Ollama는 클라우드 호스팅 모델을 추가
    • 로컬 중심 도구였음에도 일부 모델이 외부 서버로 프롬프트를 전송
    • MiniMax 등 서드파티 모델 사용 시 데이터가 외부로 전달될 수 있음
    • Ollama는 “로그 저장 안 함”이라 명시했으나 제3자 정책은 불명확
    • Alibaba Cloud 기반 모델의 경우 데이터 보존 보장 없음
  • 보안 취약점

    • CVE-2025-51471: 악성 레지스트리 서버가 인증 토큰을 탈취할 수 있는 취약점
    • 수정 PR은 존재했으나 수개월간 미반영
    • 로컬 프라이버시를 핵심 가치로 내세운 도구로서는 심각한 구조적 문제

벤처 자본 중심의 구조

  • 반복되는 패턴

    • 오픈소스 프로젝트를 래핑해 사용자 기반 확보 → 투자 유치 → 수익화 전환
    • Ollama의 단계별 행보
      • 오픈소스로 시작, llama.cpp 기반 구축
      • 출처 축소, 독립적 제품처럼 포장
      • 모델 레지스트리와 포맷으로 락인 유도
      • 폐쇄형 GUI 출시
      • 클라우드 서비스 도입으로 수익화
  • 벤더 락인 구조

    • Ollama는 모델을 해시된 파일명으로 저장해 다른 도구와 호환 어려움
    • GGUF를 가져올 수는 있지만 내보내기는 불편하게 설계
    • 사용자는 Ollama 생태계에 묶이게 되는 구조

대안 도구

  • llama.cpp

    • OpenAI 호환 API 서버(‘llama-server’), 웹 UI, 세밀한 파라미터 제어, 높은 처리량 제공
    • 2026년 2월, ggml.ai가 Hugging Face에 합류하여 지속 가능성 확보
    • MIT 라이선스 기반, 450명 이상 기여자 참여
  • 기타 대안

    • llama-swap: 다중 모델 로딩·핫스왑 지원
    • LiteLLM: 여러 백엔드 간 OpenAI 호환 프록시 제공
    • LM Studio: GUI 기반, llama.cpp 사용, GGUF 완전 호환
    • Jan, Msty: 로컬 우선 설계의 오픈소스 데스크톱 앱
    • koboldcpp, Red Hat ramalama: 컨테이너 기반 모델 실행, 명확한 출처 표기

결론: 로컬 LLM 생태계의 방향

  • Georgi Gerganov의 llama.cpp는 로컬 AI 혁신의 기반
    • 커뮤니티 협업으로 소비자 하드웨어에서도 강력한 모델 실행 가능
  • Ollama는 이 기반 위에서 성장했으나 출처 은폐, 품질 저하, 폐쇄화, 클라우드 전환으로 신뢰 상실
  • 로컬 LLM 생태계가 필요한 것은 Ollama가 아니라 llama.cpp
    • 진정한 개방성과 성능은 이미 커뮤니티 중심 도구들이 제공 중임
Read Entire Article