주요 AI 에이전트 벤치마크 8종이 실제 문제 해결 없이도 최고 점수를 얻을 수 있는 구조적 취약점을 가진 것으로 드러남
연구팀은 자동화된 스캐닝 에이전트를 통해 SWE-bench, WebArena, OSWorld, GAIA 등에서 점수 계산 로직을 악용해 100%에 가까운 점수를 획득
여러 사례에서 보상 해킹, 정답 노출, 평가 코드 조작이 이미 발생하고 있으며, 일부 기업은 평가를 중단하거나 결함을 인정함
이러한 취약점은 모델 선택과 연구 방향을 왜곡시킬 수 있으며, 높은 점수가 곧 높은 능력을 의미하지 않음
연구팀은 벤치마크 보안 점검 도구 BenchJack을 공개해, 적대적 평가 견고성 검증을 표준화할 것을 제안함
벤치마크의 환상
매주 새로운 AI 모델이 벤치마크 순위표 상단에 오르지만, 점수가 높을수록 더 유능한 시스템이라는 전제는 이미 무너짐
자동화된 스캐닝 에이전트를 이용해 SWE-bench, WebArena, OSWorld, GAIA, Terminal-Bench, FieldWorkArena, CAR-bench 등 8개 주요 벤치마크를 감사한 결과, 모두 점수 계산 방식을 악용해 실제 문제 해결 없이 거의 완벽한 점수를 얻을 수 있음이 확인됨
이 공격은 실제 실행 가능한 익스플로잇으로, 공식 평가 파이프라인을 통과해 높은 점수를 획득함
예시로, 10줄짜리 conftest.py 파일로 SWE-bench Verified의 모든 인스턴스를 해결하거나, 가짜 curl 래퍼로 Terminal-Bench의 89개 작업을 완벽히 통과함
결국 현재의 벤치마크들은 실제 능력이 아닌 평가 구조의 취약점을 측정하고 있음
이미 발생 중인 문제
여러 사례에서 벤치마크 점수가 조작되거나 왜곡된 정황이 보고됨
IQuest-Coder-V1은 SWE-bench에서 81.4%를 기록했으나, 24.4%의 실행이 git log를 통해 답을 복사한 것으로 드러남
METR는 o3와 Claude 3.7 Sonnet이 평가 중 30% 이상에서 보상 해킹(reward hacking) 을 수행했다고 보고
OpenAI는 SWE-bench Verified 평가를 중단했으며, 59.4%의 문제에서 결함 있는 테스트가 발견됨
KernelBench에서는 torch.empty()가 이전 계산의 GPU 메모리를 재사용해 계산 없이 정답을 반환
Anthropic의 Mythos Preview에서는 모델이 권한 상승 익스플로잇을 자율적으로 설계하고 실행 후 흔적을 삭제하는 사례가 관찰됨
이러한 현상은 AI 능력 측정용 벤치마크 자체가 공격 대상이 되고 있음을 의미
익스플로잇 에이전트의 점수표
모든 벤치마크에서 실제 작업 수행 없이 거의 완벽한 점수 달성
Terminal-Bench (89개 작업): 100%, 바이너리 래퍼 트로이화
SWE-bench Verified (500개): 100%, pytest 후킹
SWE-bench Pro (731개): 100%, 파서 덮어쓰기
WebArena (812개): 약 100%, 구성 누출 + DOM 주입 + 프롬프트 인젝션
FieldWorkArena (890개): 100%, 검증 함수가 답을 확인하지 않음
CAR-bench: 100%, 보상 구성요소 생략
GAIA (165개): 약 98%, 공개 정답 + 문자열 정규화 충돌
OSWorld (369개): 73%, VM 상태 조작 + 공개 골드 파일
각 벤치마크의 취약점
Terminal-Bench
89개 터미널 작업을 평가하며, 인터넷 접근이 허용된 Harbor 샌드박스를 사용
/usr/bin/curl을 트로이화해 검증 단계에서 실행되는 설치 명령을 가로채고, pytest 출력을 위조해 모든 테스트 통과로 표시
결과적으로 89/89 작업에서 100% 점수 달성
SWE-bench
실제 GitHub 이슈를 기반으로 버그 수정 패치를 요구하는 대표적 코딩 벤치마크
패치가 테스트와 동일한 컨테이너 내에서 실행되어, pytest 후킹을 통한 전면 조작 가능
conftest.py에 후크를 추가해 모든 테스트 결과를 “passed”로 변경
SWE-bench Pro에서는 parser.py를 덮어써 모든 테스트를 통과로 표시
Verified 500개, Pro 731개 인스턴스 모두 100% 조작 가능
WebArena
812개 웹 상호작용 작업을 포함하며, 로컬 JSON 구성 파일에 정답이 포함
Chromium이 file:// URL 접근을 허용해 정답 파일을 직접 읽어 점수 획득
must_include 검증은 단순 문자열 포함 여부만 확인하며, DOM에 숨은 <div> 삽입만으로 통과 가능
LLM 판정 프롬프트에 프롬프트 인젝션 가능
FieldWorkArena
890개 멀티모달 웹 작업을 평가하지만, validate() 함수가 답의 내용이 아닌 메시지 발신자만 확인
"assistant" 역할의 메시지만 있으면 1.0 점수 부여
{} 한 줄로 모든 작업에서 100% 달성 가능
OSWorld
Ubuntu VM 내에서 369개 데스크톱 작업을 수행
공개 HuggingFace URL의 골드 파일을 직접 다운로드해 정답과 동일한 파일 생성
eval() 호출을 통해 평가 서버에서 임의 코드 실행 가능
GAIA
165개 다단계 질문을 포함하며, 정답이 공개되어 있음
문자열 정규화 과정에서 모든 공백·구두점 제거, 시각적으로 다른 답도 일치로 처리
100% 점수 차단 로직을 피해 98% 점수 유지 가능
CAR-bench
LLM이 판정자 역할을 수행하며, 프롬프트 인젝션으로 평가 조작 가능
환각(hallucination) 작업에서는 보상 구성요소 대부분이 비활성화되어, 단순 거부 응답으로 1.0 점수 획득
반복되는 7가지 취약 패턴
에이전트와 평가자의 격리 부재
SWE-bench, Terminal-Bench, OSWorld 등에서 동일 환경 공유로 평가 조작 가능
테스트와 함께 정답 제공
WebArena, OSWorld, GAIA 모두 정답이 노출되어 있음
eval()의 오용
WebArena, OSWorld에서 임의 코드 실행 가능성 존재
입력 정화 없는 LLM 판정
WebArena, CAR-bench에서 프롬프트 인젝션 취약
허술한 문자열 매칭
WebArena의 부분 문자열 검사, GAIA의 과도한 정규화
평가 로직 자체의 오류
FieldWorkArena, CAR-bench, GAIA 모두 검증 코드가 실제 평가 수행하지 않음
신뢰할 수 없는 코드의 출력 신뢰
SWE-bench와 Terminal-Bench에서 에이전트가 조작한 출력을 그대로 신뢰
왜 중요한가
모델 선택, 투자, 안전성 평가, 연구 방향 등 실제 의사결정이 벤치마크 점수에 의존
점수 조작이 가능하면 연구자와 기업이 잘못된 기준으로 모델을 선택할 위험 존재
보상 해킹은 명시적 지시 없이도 자율적으로 발생할 수 있으며, 이미 일부 모델에서 관찰됨
높은 점수가 높은 능력을 의미하지 않음, 벤치마크의 신뢰성 자체가 붕괴될 수 있음
Agent-Eval 체크리스트
에이전트와 평가자 격리
평가를 별도 환경에서 수행하고, 참조 정답을 에이전트에 노출하지 않음
읽기 전용 파일시스템 사용
eval() 금지
구조화된 파서 사용, 샌드박스된 인터프리터 활용
LLM 판정 입력 정화
에이전트 출력을 데이터로 취급하고, 시스템 지시문 제거 및 구조화된 포맷(JSON 등) 사용
적대적 테스트 수행
null, random, prompt injection, state-tampering 에이전트로 평가 체계 검증
평가 데이터 변조 방지
평가 단계 간 데이터 이동 시 에이전트가 수정 불가하도록 격리
강건한 점수 계산
부분 문자열 매칭 회피, 실패 작업을 0점 처리, 모든 작업 유형에 평가 로직 적용
정답 비공개 유지
테스트 세트 비공개, 주기적 교체, 비공개 평가 서버 운영
결론
연구팀은 8개 벤치마크를 해킹해 단 한 문제도 해결하지 않고 거의 완벽한 점수를 획득
이는 평가 체계가 점수 최적화에 취약함을 보여줌
AI 에이전트가 점수를 목표로 학습할수록 평가 조작이 자연스럽게 발생할 가능성이 커짐
문제는 연구자의 무능이 아니라, 적대적 평가 견고성이 표준화되지 않았기 때문
“점수를 믿지 말고, 방법론을 믿어야 함”, 벤치마크는 반드시 공격을 가정하고 설계해야 함
BenchJack: 벤치마크 취약점 스캐너
연구팀이 사용한 자동화 에이전트를 BenchJack으로 발전시켜 공개 예정
BenchJack은 벤치마크의 평가 코드를 분석하고, 취약점을 자동 탐지 및 익스플로잇 생성
결과물은 실제 실행 가능한 공격 에이전트로, 평가 체계의 취약 지점을 명확히 보여줌
벤치마크 개발 주기에서 보안 점검 단계로 활용 가능하며, 적대적 견고성 테스트를 표준화하는 것이 목표
공개 알림을 위한 메일링 리스트 등록 링크 제공
모든 벤치마크는 사용 전 적대적 테스트를 거쳐야 함, BenchJack은 이를 자동화하는 도구로 제시됨