-
Claude Code Opus 4.5의 SWE 작업 성능을 매일 측정해 통계적으로 유의한 성능 저하를 탐지하는 추적 시스템
-
SWE-Bench-Pro의 선별된 하위 집합을 사용해 매일 50개 테스트 인스턴스를 평가하며, 결과는 CLI 환경에서 직접 실행된 실제 모델 성능을 반영
- 최근 30일간의 평균 통과율 54% , 기준선 58% 대비 통계적으로 유의한 4.1% 하락이 감지됨
- 일간 및 주간 결과는 95% 신뢰구간과 유의성 임계값(±14.0%, ±5.6%) 을 기준으로 분석되어, 단기 변동과 장기 추세를 구분
- 독립적인 제3자 기관이 운영하며, 모델 또는 실행 환경의 변화로 인한 성능 저하를 조기 탐지하는 도구로 중요함
개요
- 이 트래커의 목적은 Claude Code Opus 4.5의 SWE 작업 성능에서 통계적으로 유의한 저하를 감지하는 것
- 매일 SWE-Bench-Pro의 오염 저항성 하위 집합을 사용해 평가 수행
-
Claude Code CLI에서 직접 실행하며, 별도의 커스텀 하니스 없이 실제 사용자 환경을 반영
- 독립적인 제3자 기관으로, 프런티어 모델 제공자와의 제휴 없음
- 2025년 9월 Anthropic의 성능 저하 관련 포스트모템 이후, 향후 유사 사례를 조기에 탐지하기 위한 리소스로 운영
성능 요약
-
기준선 통과율: 58%
-
최근 30일 통과율: 54% (655회 평가 기준)
-
최근 7일 통과율: 53% (250회 평가 기준)
-
최근 1일 통과율: 50% (50회 평가 기준)
-
30일간 성능 저하는 p < 0.05 수준에서 통계적으로 유의함
- 30일 변화폭: -4.1%
- 유의성 임계값: ±3.4%
- 1일(-8.0%) 및 7일(-4.8%) 변화는 통계적으로 유의하지 않음
일간 및 주간 추세
-
일간 추세(Daily Trend)
- 최근 30일간의 일별 통과율을 시각화
-
기준선 58% , 유의성 임계 구간 ±14.0%
-
95% 신뢰구간 표시 가능, 표본 수가 적을수록 구간이 넓어짐
-
주간 추세(Weekly Trend)
- 7일 이동 평균을 통해 일간 변동성을 완화한 추세 제공
-
기준선 58% , 유의성 임계 구간 ±5.6%
- 동일하게 95% 신뢰구간 표시 가능
변화 개요(Change Overview)
-
1일 변화(어제 대비) : -8.0%, 통계적으로 유의하지 않음
- 50회 평가 기준, ±14.0% 변화 필요(p < 0.05)
-
7일 변화(지난주 대비) : -4.8%, 통계적으로 유의하지 않음
- 250회 평가 기준, ±5.6% 변화 필요(p < 0.05)
-
30일 변화(지난달 대비) : -4.1%, 통계적으로 유의함
- 655회 평가 기준, ±3.4% 변화 필요(p < 0.05)
방법론(Methodology)
- 각 테스트를 베르누이 확률 변수로 모델링하고, 95% 신뢰구간을 계산
- 일간, 주간, 월간 통과율의 통계적 차이를 분석해 유의한 성능 저하 여부를 보고
-
매일 50개 테스트 인스턴스로 평가 수행, 단기 변동성 존재
-
주간 및 월간 집계 결과는 보다 안정적인 추정값 제공
-
모델 변경 또는 실행 하니스 변경으로 인한 성능 저하 모두 탐지 가능
알림 기능
-
성능 저하가 통계적으로 감지될 경우 이메일 알림 발송
- 사용자는 이메일 주소를 등록해 구독 가능
- 구독 확인 후 알림 수신 가능, 오류 발생 시 재시도 안내