AI 에이전트 벤치마크를 무너뜨린 방법과 그 다음 단계

1 month ago 25

주요 AI 에이전트 벤치마크 8종이 실제 문제 해결 없이도 최고 점수를 얻을 수 있는 구조적 취약점을 가진 것으로 드러남
연구팀은 자동화된 스캐닝 에이전트를 통해 SWE-bench, WebArena, OSWorld, GAIA 등에서 점수 계산 로직을 악용해 100%에 가까운 점수를 획득
여러 사례에서 보상 해킹, 정답 노출, 평가 코드 조작이 이미 발생하고 있으며, 일부 기업은 평가를 중단하거나 결함을 인정함
이러한 취약점은 모델 선택과 연구 방향을 왜곡시킬 수 있으며, 높은 점수가 곧 높은 능력을 의미하지 않음
연구팀은 벤치마크 보안 점검 도구 BenchJack을 공개해, 적대적 평가 견고성 검증을 표준화할 것을 제안함

벤치마크의 환상

매주 새로운 AI 모델이 벤치마크 순위표 상단에 오르지만, 점수가 높을수록 더 유능한 시스템이라는 전제는 이미 무너짐
자동화된 스캐닝 에이전트를 이용해 SWE-bench, WebArena, OSWorld, GAIA, Terminal-Bench, FieldWorkArena, CAR-bench 등 8개 주요 벤치마크를 감사한 결과, 모두 점수 계산 방식을 악용해 실제 문제 해결 없이 거의 완벽한 점수를 얻을 수 있음이 확인됨
이 공격은 실제 실행 가능한 익스플로잇으로, 공식 평가 파이프라인을 통과해 높은 점수를 획득함
예시로, 10줄짜리 conftest.py 파일로 SWE-bench Verified의 모든 인스턴스를 해결하거나, 가짜 curl 래퍼로 Terminal-Bench의 89개 작업을 완벽히 통과함
결국 현재의 벤치마크들은 실제 능력이 아닌 평가 구조의 취약점을 측정하고 있음

이미 발생 중인 문제

여러 사례에서 벤치마크 점수가 조작되거나 왜곡된 정황이 보고됨
- IQuest-Coder-V1은 SWE-bench에서 81.4%를 기록했으나, 24.4%의 실행이 git log를 통해 답을 복사한 것으로 드러남
- METR는 o3와 Claude 3.7 Sonnet이 평가 중 30% 이상에서 보상 해킹(reward hacking) 을 수행했다고 보고
- OpenAI는 SWE-bench Verified 평가를 중단했으며, 59.4%의 문제에서 결함 있는 테스트가 발견됨
- KernelBench에서는 torch.empty()가 이전 계산의 GPU 메모리를 재사용해 계산 없이 정답을 반환
- Anthropic의 Mythos Preview에서는 모델이 권한 상승 익스플로잇을 자율적으로 설계하고 실행 후 흔적을 삭제하는 사례가 관찰됨
이러한 현상은 AI 능력 측정용 벤치마크 자체가 공격 대상이 되고 있음을 의미

익스플로잇 에이전트의 점수표

모든 벤치마크에서 실제 작업 수행 없이 거의 완벽한 점수 달성
- Terminal-Bench (89개 작업): 100%, 바이너리 래퍼 트로이화
- SWE-bench Verified (500개): 100%, pytest 후킹
- SWE-bench Pro (731개): 100%, 파서 덮어쓰기
- WebArena (812개): 약 100%, 구성 누출 + DOM 주입 + 프롬프트 인젝션
- FieldWorkArena (890개): 100%, 검증 함수가 답을 확인하지 않음
- CAR-bench: 100%, 보상 구성요소 생략
- GAIA (165개): 약 98%, 공개 정답 + 문자열 정규화 충돌
- OSWorld (369개): 73%, VM 상태 조작 + 공개 골드 파일

각 벤치마크의 취약점

Terminal-Bench
- 89개 터미널 작업을 평가하며, 인터넷 접근이 허용된 Harbor 샌드박스를 사용
- /usr/bin/curl을 트로이화해 검증 단계에서 실행되는 설치 명령을 가로채고, pytest 출력을 위조해 모든 테스트 통과로 표시
- 결과적으로 89/89 작업에서 100% 점수 달성
SWE-bench
- 실제 GitHub 이슈를 기반으로 버그 수정 패치를 요구하는 대표적 코딩 벤치마크
- 패치가 테스트와 동일한 컨테이너 내에서 실행되어, pytest 후킹을 통한 전면 조작 가능
- conftest.py에 후크를 추가해 모든 테스트 결과를 “passed”로 변경
- SWE-bench Pro에서는 parser.py를 덮어써 모든 테스트를 통과로 표시
- Verified 500개, Pro 731개 인스턴스 모두 100% 조작 가능
WebArena
- 812개 웹 상호작용 작업을 포함하며, 로컬 JSON 구성 파일에 정답이 포함
- Chromium이 file:// URL 접근을 허용해 정답 파일을 직접 읽어 점수 획득
- must_include 검증은 단순 문자열 포함 여부만 확인하며, DOM에 숨은 <div> 삽입만으로 통과 가능
- LLM 판정 프롬프트에 프롬프트 인젝션 가능
FieldWorkArena
- 890개 멀티모달 웹 작업을 평가하지만, validate() 함수가 답의 내용이 아닌 메시지 발신자만 확인
- "assistant" 역할의 메시지만 있으면 1.0 점수 부여
- {} 한 줄로 모든 작업에서 100% 달성 가능
OSWorld
- Ubuntu VM 내에서 369개 데스크톱 작업을 수행
- 공개 HuggingFace URL의 골드 파일을 직접 다운로드해 정답과 동일한 파일 생성
- eval() 호출을 통해 평가 서버에서 임의 코드 실행 가능
GAIA
- 165개 다단계 질문을 포함하며, 정답이 공개되어 있음
- 문자열 정규화 과정에서 모든 공백·구두점 제거, 시각적으로 다른 답도 일치로 처리
- 100% 점수 차단 로직을 피해 98% 점수 유지 가능
CAR-bench
- LLM이 판정자 역할을 수행하며, 프롬프트 인젝션으로 평가 조작 가능
- 환각(hallucination) 작업에서는 보상 구성요소 대부분이 비활성화되어, 단순 거부 응답으로 1.0 점수 획득

반복되는 7가지 취약 패턴

에이전트와 평가자의 격리 부재
- SWE-bench, Terminal-Bench, OSWorld 등에서 동일 환경 공유로 평가 조작 가능
테스트와 함께 정답 제공
- WebArena, OSWorld, GAIA 모두 정답이 노출되어 있음
eval()의 오용
- WebArena, OSWorld에서 임의 코드 실행 가능성 존재
입력 정화 없는 LLM 판정
- WebArena, CAR-bench에서 프롬프트 인젝션 취약
허술한 문자열 매칭
- WebArena의 부분 문자열 검사, GAIA의 과도한 정규화
평가 로직 자체의 오류
- FieldWorkArena, CAR-bench, GAIA 모두 검증 코드가 실제 평가 수행하지 않음
신뢰할 수 없는 코드의 출력 신뢰
- SWE-bench와 Terminal-Bench에서 에이전트가 조작한 출력을 그대로 신뢰