Pro Max 5x 요금제, 중간 사용에도 1.5시간 만에 할당량 소진 문제

15 hours ago 1
  • Pro Max 5x(1M 컨텍스트) 요금제에서 중간 수준의 Q&A와 개발 작업만으로 1.5시간 만에 토큰 한도 초과가 발생
  • 원인으로 cache_read 토큰이 전체 비율(1.0x) 로 계산되는 오류가 지목되며, 캐싱 효과가 사라져 급격한 소모가 발생
  • 백그라운드 세션의 자동 호출, 자동 압축(auto-compact), 대형 컨텍스트 입력이 복합적으로 소모 속도를 높임
  • 커뮤니티는 캐시 TTL 단축(1시간→5분)캐시 무효화(cache busting) 현상을 핵심 원인으로 분석
  • Anthropic은 기본 컨텍스트 축소(400k), UX 개선, 비활성 호출 최적화를 진행 중이며 사용자 피드백을 수집 중임

Pro Max 5x 요금제의 급격한 할당량 소진 문제

  • Pro Max 5x(claude-opus-4-6, 1M 컨텍스트) 요금제에서 중간 수준의 Q&A 및 경량 개발만으로도 1.5시간 만에 할당량이 소진되는 현상이 보고됨
    • 이전 5시간의 고강도 개발에서는 정상적인 소모였으나, 재설정 이후 급격한 소모가 발생
    • 환경은 Claude Code CLI on WSL2, 단일 세션(자동 압축 2회)에서 발생
  • cache_read 토큰이 전체 비율(1.0x)로 계산되는 오류가 주요 원인으로 지목됨
    • 정상이라면 cache_read는 1/10 비율로 계산되어야 하며, 그렇지 않으면 캐싱 효과가 사라짐
    • 세션 로그(~/.claude/projects/.../*.jsonl)의 usage 객체를 통해 토큰 사용량이 분석됨
  • 백그라운드 세션의 자동 호출, 자동 압축(auto-compact)의 고비용 처리, 1M 컨텍스트 윈도우의 대형 입력이 복합적으로 작용해 소모 속도를 가속화함
  • 커뮤니티 분석 결과, 일부 사용자는 캐시 TTL 단축(1시간→5분)캐시 무효화(cache busting) 현상을 핵심 원인으로 지목
  • Anthropic 팀은 기본 컨텍스트 축소(400k), UX 개선, 비활성 호출 최적화를 진행 중이며, 사용자 피드백을 통한 추가 데이터 수집을 요청함

측정된 토큰 소비량

  • 윈도우 1 (15:00–20:00, 5시간, 고강도 개발)

    • API 호출 2,715회, Cache read 1,044M, Cache create 16.8M, 출력 1.15M 토큰
    • 유효 입력(1/10 비율 적용 시) 121.8M 토큰
    • Express 서버 + iOS 앱 구현, graphify 파이프라인, SPEC 기반 멀티에이전트 조정 수행
  • 윈도우 2 (20:00–21:30, 1.5시간, 중간 수준 사용)

    • 메인 세션(vibehq): API 222회, Cache read 23.2M, Cache create 1.4M, 출력 91k
    • 백그라운드 세션(token-analysis, career-ops 포함): 총 691회 호출, Cache read 103.9M, 출력 387k
    • 총 13.1M 유효 토큰(1/10 비율 적용 시) → 정상이라면 할당량 초과 없음
    • 실제로는 105.7M 토큰(1.0x 계산 시) → 시간당 70.5M 수준으로, 할당량 소진과 일치

주요 문제 요약

  • 1. Cache read 토큰의 요금 한도 계산 오류

    • 기대: cache_read는 1/10 비율로 계산
    • 실제: 전체 비율로 계산되어 캐싱 효과 무효화
    • 1M 컨텍스트 환경에서 호출당 100~960k 토큰이 전송되어, 200회 이상 호출 시 수분 내 소진
  • 2. 백그라운드 세션의 공유 할당량 소모

    • 비활성 세션(token-analysis, career-ops 등)도 자동 압축·후처리 호출로 공유 할당량을 지속 소모
  • 3. 자동 압축(auto-compact)의 고비용 호출

    • 압축 전 전체 컨텍스트(~966k 토큰)를 cache_creation으로 전송해 가장 비싼 호출이 자동 발생
  • 4. 1M 컨텍스트 윈도우의 부작용

    • 대형 컨텍스트는 호출당 토큰 수를 급증시켜 할당량 소모 속도를 가속화

재현 절차

  1. Pro Max 5x 요금제에서 Opus 모델로 Claude Code 실행
  2. ~/.claude/rules/에 약 30개 규칙 파일(19k 토큰 오버헤드) 포함
  3. 파일 읽기·빌드·테스트 등 툴 중심 작업 수행
  4. /context 명령으로 컨텍스트 증가 확인
  5. 200~300회 호출 후 할당량 급감 확인
  6. 다른 터미널에서 2~3개 세션 유지
  7. 재설정 후에도 짧은 시간 내 할당량 소진 확인

기대 동작과 실제 동작 비교

  • 기대:

    • cache_read는 1/10 비율로 계산
    • 비활성 세션은 최소한의 소모
    • 자동 압축은 과도한 소모를 유발하지 않음
    • 중간 수준 사용 시 2~3시간 지속 가능
  • 실제:

    • 1.5시간 내 소진
    • 백그라운드 세션이 78% 소모
    • 총 105.7M 토큰 전송으로 cache_read가 전체 비율로 계산된 것으로 추정

개선 제안

  1. cache_read 계산 방식 명확화 — 문서에 실제 요금 한도 계산 비율 명시
  2. 유효 토큰 기준 제한 — cache_read를 1/10 비율로 계산하도록 수정
  3. 세션 유휴 감지 — 비활성 세션의 자동 호출 방지 또는 경고 표시
  4. 실시간 토큰 소비 가시화 — cache_read, cache_create, 입력·출력별 사용량 표시
  5. 컨텍스트 기반 비용 예측 — 작업 전 예상 토큰 비용 표시

커뮤니티 분석 및 논의

  • cnighswonger

    • claude-code-cache-fix 인터셉터로 24시간 동안 1,500회 호출 데이터를 수집
    • 세 가지 가설(cache_read 0.0x, 0.1x, 1.0x)을 검증한 결과, 0.0x 모델만이 5시간 창에서 일관된 결과(CV 34.4%) 를 보임
    • 결론: cache_read는 실질적으로 할당량에 거의 영향을 주지 않음, 캐시가 정상 작동 중
    • 단, 단일 계정 데이터로 추가 검증 필요
  • henu-wang

    • 캐시 TTL이 1시간에서 5분으로 단축된 회귀(regression) 이후, 세션 일시 중단 시마다 cache_create가 발생해 12.5배 높은 비용을 유발
    • 컨텍스트가 길어질수록 비용이 비선형적으로 증가
    • 임시 해결책으로 짧은 세션 유지, /compact 명령 적극 사용, CLAUDE.md에 핵심 컨텍스트 사전 로드를 제안
  • bcherny (Anthropic 팀)

    • 1M 컨텍스트 윈도우 사용 시 프롬프트 캐시 미스가 고비용임을 인정
    • UX 개선(장기 세션 재개 시 /clear 유도)과 기본 컨텍스트를 400k로 축소하는 방안을 실험 중
    • 다중 에이전트·플러그인 사용 시 비활성 작업이 토큰을 과소비하는 사례를 확인, 자동 정리 및 스케줄링 개선을 진행 중
  • wadabum

    • 신규 세션에서 캐시가 전혀 적중하지 않는 버그(#47098, #47107)를 지적
    • git status 기반 시스템 프롬프트와 CLAUDE.md 블록이 매 세션마다 달라져 캐시 무효화(cache busting) 발생
    • cnighswonger는 인터셉터가 일부 정렬 안정화를 수행하지만, git-status 문제는 별도 수정이 필요하다고 응답

커뮤니티 제안 요약

  • RockyMM: 세션이 한도에 도달하면 자동 요약 후 재개를 유도하고, TTL을 10분으로 단축
  • mikebutash: Pro 요금제에서 5시간당 2회 프롬프트만 가능하다고 보고, v2.1.81 버전으로 롤백 및 cache-fix 설치로 3~4배 개선 확인
  • wutlu: 작업별로 세션을 초기화해 문제 완화
  • dprkh: 디버그 모드 스킬(Skill.md) 공유로 원인 규명 지원

결론

  • Pro Max 5x 요금제의 급격한 할당량 소진 문제는 캐시 동작, TTL 회귀, 컨텍스트 팽창, 백그라운드 호출의 복합적 영향으로 확인됨
  • 커뮤니티는 cache_read 계산 오류보다는 캐시 무효화와 TTL 단축이 핵심 원인이라는 분석을 제시
  • Anthropic 팀은 컨텍스트 기본값 축소, 캐시 UX 개선, 비활성 호출 최적화를 진행 중이며, 사용자 피드백(/feedback)을 통한 추가 데이터 수집을 요청함
Read Entire Article