Claude Code 성능 저하 추적용 일일 벤치마크

1 week ago 7

  • Claude Code Opus 4.5의 SWE 작업 성능을 매일 측정해 통계적으로 유의한 성능 저하를 탐지하는 추적 시스템
  • SWE-Bench-Pro의 선별된 하위 집합을 사용해 매일 50개 테스트 인스턴스를 평가하며, 결과는 CLI 환경에서 직접 실행된 실제 모델 성능을 반영
  • 최근 30일간의 평균 통과율 54% , 기준선 58% 대비 통계적으로 유의한 4.1% 하락이 감지됨
  • 일간 및 주간 결과는 95% 신뢰구간유의성 임계값(±14.0%, ±5.6%) 을 기준으로 분석되어, 단기 변동과 장기 추세를 구분
  • 독립적인 제3자 기관이 운영하며, 모델 또는 실행 환경의 변화로 인한 성능 저하를 조기 탐지하는 도구로 중요함

개요

  • 이 트래커의 목적은 Claude Code Opus 4.5의 SWE 작업 성능에서 통계적으로 유의한 저하를 감지하는 것
    • 매일 SWE-Bench-Pro의 오염 저항성 하위 집합을 사용해 평가 수행
    • Claude Code CLI에서 직접 실행하며, 별도의 커스텀 하니스 없이 실제 사용자 환경을 반영
  • 독립적인 제3자 기관으로, 프런티어 모델 제공자와의 제휴 없음
  • 2025년 9월 Anthropic의 성능 저하 관련 포스트모템 이후, 향후 유사 사례를 조기에 탐지하기 위한 리소스로 운영

성능 요약

  • 기준선 통과율: 58%
  • 최근 30일 통과율: 54% (655회 평가 기준)
  • 최근 7일 통과율: 53% (250회 평가 기준)
  • 최근 1일 통과율: 50% (50회 평가 기준)
  • 30일간 성능 저하p < 0.05 수준에서 통계적으로 유의함
    • 30일 변화폭: -4.1%
    • 유의성 임계값: ±3.4%
  • 1일(-8.0%) 및 7일(-4.8%) 변화는 통계적으로 유의하지 않음

일간 및 주간 추세

  • 일간 추세(Daily Trend)
    • 최근 30일간의 일별 통과율을 시각화
    • 기준선 58% , 유의성 임계 구간 ±14.0%
    • 95% 신뢰구간 표시 가능, 표본 수가 적을수록 구간이 넓어짐
  • 주간 추세(Weekly Trend)
    • 7일 이동 평균을 통해 일간 변동성을 완화한 추세 제공
    • 기준선 58% , 유의성 임계 구간 ±5.6%
    • 동일하게 95% 신뢰구간 표시 가능

변화 개요(Change Overview)

  • 1일 변화(어제 대비) : -8.0%, 통계적으로 유의하지 않음
    • 50회 평가 기준, ±14.0% 변화 필요(p < 0.05)
  • 7일 변화(지난주 대비) : -4.8%, 통계적으로 유의하지 않음
    • 250회 평가 기준, ±5.6% 변화 필요(p < 0.05)
  • 30일 변화(지난달 대비) : -4.1%, 통계적으로 유의함
    • 655회 평가 기준, ±3.4% 변화 필요(p < 0.05)

방법론(Methodology)

  • 각 테스트를 베르누이 확률 변수로 모델링하고, 95% 신뢰구간을 계산
  • 일간, 주간, 월간 통과율의 통계적 차이를 분석해 유의한 성능 저하 여부를 보고
  • 매일 50개 테스트 인스턴스로 평가 수행, 단기 변동성 존재
  • 주간 및 월간 집계 결과는 보다 안정적인 추정값 제공
  • 모델 변경 또는 실행 하니스 변경으로 인한 성능 저하 모두 탐지 가능

알림 기능

  • 성능 저하가 통계적으로 감지될 경우 이메일 알림 발송
  • 사용자는 이메일 주소를 등록해 구독 가능
  • 구독 확인 후 알림 수신 가능, 오류 발생 시 재시도 안내

Read Entire Article