Pro Max 5x 요금제, 중간 사용에도 1.5시간 만에 할당량 소진 문제

1 month ago 25

Pro Max 5x(1M 컨텍스트) 요금제에서 중간 수준의 Q&A와 개발 작업만으로 1.5시간 만에 토큰 한도 초과가 발생
원인으로 cache_read 토큰이 전체 비율(1.0x) 로 계산되는 오류가 지목되며, 캐싱 효과가 사라져 급격한 소모가 발생
백그라운드 세션의 자동 호출, 자동 압축(auto-compact), 대형 컨텍스트 입력이 복합적으로 소모 속도를 높임
커뮤니티는 캐시 TTL 단축(1시간→5분) 및 캐시 무효화(cache busting) 현상을 핵심 원인으로 분석
Anthropic은 기본 컨텍스트 축소(400k), UX 개선, 비활성 호출 최적화를 진행 중이며 사용자 피드백을 수집 중임

Pro Max 5x 요금제의 급격한 할당량 소진 문제

Pro Max 5x(claude-opus-4-6, 1M 컨텍스트) 요금제에서 중간 수준의 Q&A 및 경량 개발만으로도 1.5시간 만에 할당량이 소진되는 현상이 보고됨
- 이전 5시간의 고강도 개발에서는 정상적인 소모였으나, 재설정 이후 급격한 소모가 발생
- 환경은 Claude Code CLI on WSL2, 단일 세션(자동 압축 2회)에서 발생
cache_read 토큰이 전체 비율(1.0x)로 계산되는 오류가 주요 원인으로 지목됨
- 정상이라면 cache_read는 1/10 비율로 계산되어야 하며, 그렇지 않으면 캐싱 효과가 사라짐
- 세션 로그(~/.claude/projects/.../*.jsonl)의 usage 객체를 통해 토큰 사용량이 분석됨
백그라운드 세션의 자동 호출, 자동 압축(auto-compact)의 고비용 처리, 1M 컨텍스트 윈도우의 대형 입력이 복합적으로 작용해 소모 속도를 가속화함
커뮤니티 분석 결과, 일부 사용자는 캐시 TTL 단축(1시간→5분) 및 캐시 무효화(cache busting) 현상을 핵심 원인으로 지목
Anthropic 팀은 기본 컨텍스트 축소(400k), UX 개선, 비활성 호출 최적화를 진행 중이며, 사용자 피드백을 통한 추가 데이터 수집을 요청함

측정된 토큰 소비량

윈도우 1 (15:00–20:00, 5시간, 고강도 개발)
- API 호출 2,715회, Cache read 1,044M, Cache create 16.8M, 출력 1.15M 토큰
- 유효 입력(1/10 비율 적용 시) 121.8M 토큰
- Express 서버 + iOS 앱 구현, graphify 파이프라인, SPEC 기반 멀티에이전트 조정 수행
윈도우 2 (20:00–21:30, 1.5시간, 중간 수준 사용)
- 메인 세션(vibehq): API 222회, Cache read 23.2M, Cache create 1.4M, 출력 91k
- 백그라운드 세션(token-analysis, career-ops 포함): 총 691회 호출, Cache read 103.9M, 출력 387k
- 총 13.1M 유효 토큰(1/10 비율 적용 시) → 정상이라면 할당량 초과 없음
- 실제로는 105.7M 토큰(1.0x 계산 시) → 시간당 70.5M 수준으로, 할당량 소진과 일치

주요 문제 요약

1. Cache read 토큰의 요금 한도 계산 오류
- 기대: cache_read는 1/10 비율로 계산
- 실제: 전체 비율로 계산되어 캐싱 효과 무효화
- 1M 컨텍스트 환경에서 호출당 100~960k 토큰이 전송되어, 200회 이상 호출 시 수분 내 소진
2. 백그라운드 세션의 공유 할당량 소모
- 비활성 세션(token-analysis, career-ops 등)도 자동 압축·후처리 호출로 공유 할당량을 지속 소모
3. 자동 압축(auto-compact)의 고비용 호출
- 압축 전 전체 컨텍스트(~966k 토큰)를 cache_creation으로 전송해 가장 비싼 호출이 자동 발생
4. 1M 컨텍스트 윈도우의 부작용
- 대형 컨텍스트는 호출당 토큰 수를 급증시켜 할당량 소모 속도를 가속화

재현 절차

Pro Max 5x 요금제에서 Opus 모델로 Claude Code 실행
~/.claude/rules/에 약 30개 규칙 파일(19k 토큰 오버헤드) 포함
파일 읽기·빌드·테스트 등 툴 중심 작업 수행
/context 명령으로 컨텍스트 증가 확인
200~300회 호출 후 할당량 급감 확인
다른 터미널에서 2~3개 세션 유지
재설정 후에도 짧은 시간 내 할당량 소진 확인

기대 동작과 실제 동작 비교

기대:
- cache_read는 1/10 비율로 계산
- 비활성 세션은 최소한의 소모
- 자동 압축은 과도한 소모를 유발하지 않음
- 중간 수준 사용 시 2~3시간 지속 가능
실제:
- 1.5시간 내 소진
- 백그라운드 세션이 78% 소모
- 총 105.7M 토큰 전송으로 cache_read가 전체 비율로 계산된 것으로 추정

개선 제안

cache_read 계산 방식 명확화 — 문서에 실제 요금 한도 계산 비율 명시
유효 토큰 기준 제한 — cache_read를 1/10 비율로 계산하도록 수정
세션 유휴 감지 — 비활성 세션의 자동 호출 방지 또는 경고 표시
실시간 토큰 소비 가시화 — cache_read, cache_create, 입력·출력별 사용량 표시
컨텍스트 기반 비용 예측 — 작업 전 예상 토큰 비용 표시

커뮤니티 분석 및 논의

cnighswonger
- claude-code-cache-fix 인터셉터로 24시간 동안 1,500회 호출 데이터를 수집
- 세 가지 가설(cache_read 0.0x, 0.1x, 1.0x)을 검증한 결과, 0.0x 모델만이 5시간 창에서 일관된 결과(CV 34.4%) 를 보임
- 결론: cache_read는 실질적으로 할당량에 거의 영향을 주지 않음, 캐시가 정상 작동 중
- 단, 단일 계정 데이터로 추가 검증 필요
henu-wang
- 캐시 TTL이 1시간에서 5분으로 단축된 회귀(regression) 이후, 세션 일시 중단 시마다 cache_create가 발생해 12.5배 높은 비용을 유발
- 컨텍스트가 길어질수록 비용이 비선형적으로 증가
- 임시 해결책으로 짧은 세션 유지, /compact 명령 적극 사용, CLAUDE.md에 핵심 컨텍스트 사전 로드를 제안
bcherny (Anthropic 팀)
- 1M 컨텍스트 윈도우 사용 시 프롬프트 캐시 미스가 고비용임을 인정
- UX 개선(장기 세션 재개 시 /clear 유도)과 기본 컨텍스트를 400k로 축소하는 방안을 실험 중
- 다중 에이전트·플러그인 사용 시 비활성 작업이 토큰을 과소비하는 사례를 확인, 자동 정리 및 스케줄링 개선을 진행 중
wadabum
- 신규 세션에서 캐시가 전혀 적중하지 않는 버그(#47098, #47107)를 지적
- git status 기반 시스템 프롬프트와 CLAUDE.md 블록이 매 세션마다 달라져 캐시 무효화(cache busting) 발생
- cnighswonger는 인터셉터가 일부 정렬 안정화를 수행하지만, git-status 문제는 별도 수정이 필요하다고 응답

커뮤니티 제안 요약

RockyMM: 세션이 한도에 도달하면 자동 요약 후 재개를 유도하고, TTL을 10분으로 단축
mikebutash: Pro 요금제에서 5시간당 2회 프롬프트만 가능하다고 보고, v2.1.81 버전으로 롤백 및 cache-fix 설치로 3~4배 개선 확인
wutlu: 작업별로 세션을 초기화해 문제 완화
dprkh: 디버그 모드 스킬(Skill.md) 공유로 원인 규명 지원

결론

Pro Max 5x 요금제의 급격한 할당량 소진 문제는 캐시 동작, TTL 회귀, 컨텍스트 팽창, 백그라운드 호출의 복합적 영향으로 확인됨
커뮤니티는 cache_read 계산 오류보다는 캐시 무효화와 TTL 단축이 핵심 원인이라는 분석을 제시
Anthropic 팀은 컨텍스트 기본값 축소, 캐시 UX 개선, 비활성 호출 최적화를 진행 중이며, 사용자 피드백(/feedback)을 통한 추가 데이터 수집을 요청함

Read Entire Article