- 53개의 주요 AI 모델을 대상으로 단순 논리 문제를 제시한 결과, 대부분이 기초적 추론에 실패함
- 질문은 “세차장이 50m 떨어져 있다면 걸어갈까, 운전할까?”로, 정답은 ‘운전’ 이지만 53개 중 42개 모델이 ‘걷기’ 를 선택
-
Claude Opus 4.6, Gemini 3 시리즈, Grok-4 등 5개 모델만이 10회 반복 테스트에서도 100% 일관된 정답을 냄
-
GPT-5는 10회 중 7회만 정답을 맞혀, 평균 인간 정답률(71.5%) 과 유사한 수준으로 평가됨
- 실험은 AI의 일관된 추론 능력 부족과 문맥 기반 판단의 한계를 드러내며, 이를 보완하기 위한 ‘컨텍스트 엔지니어링’의 중요성을 강조함
세차장 테스트 개요
- 테스트는 “세차장이 50m 떨어져 있다면 걸어갈까, 운전할까?”라는 질문으로 구성
- 정답은 ‘운전’이며, 이유는 세차를 하려면 차가 세차장에 있어야 하기 때문
- Opper의 LLM Gateway를 통해 53개 모델을 동일 조건으로 평가
- 시스템 프롬프트 없이, ‘walk’ 또는 ‘drive’ 중 하나를 강제 선택하도록 설정
- 각 모델당 1회 테스트 후, 10회 반복 테스트로 일관성 검증 수행
1차 단일 실행 결과
- 53개 중 11개 모델만 정답(운전), 42개 모델은 오답(걷기)
- 정답을 맞힌 모델: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
-
Anthropic, OpenAI, Google, xAI, Perplexity, Meta, Mistral 등 주요 패밀리별 성능 차이 확인
- Anthropic: 1/9 (Opus 4.6만 정답)
- OpenAI: 1/12 (GPT-5만 정답)
- Meta(Llama), Mistral, DeepSeek 등은 전부 실패
- 대부분의 오답은 “50m는 짧은 거리이므로 걷는 것이 효율적”이라는 거리 중심의 휴리스틱 오류 때문
- 일부 모델은 정답을 맞혔지만 비논리적 근거를 제시
- 예: Perplexity Sonar는 “걷기가 음식 생산 에너지를 더 소모하므로 오히려 오염이 크다”고 주장
2차 10회 반복 테스트
- 총 530회 호출 결과, 일관성 있는 정답률은 더 낮아짐
-
10/10 정답 모델(5개): Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
-
8/10 정답 모델(2개): GLM-5, Grok-4-1 Reasoning
-
GPT-5는 7/10 정답, 나머지 3회는 연비·환경 논리로 오답
-
33개 모델은 10회 모두 오답, GPT-4.1, GPT-5.1, Llama, Mistral 등 포함
- 일부 모델은 첫 시도에서 정답이었으나 반복 시 결과가 불안정
- Sonar: 1회 정답 → 10회 전부 오답
- Kimi K2.5: 5회 정답, 5회 오답
- GLM-4.7: 1회 오답 → 10회 중 6회 정답으로 개선
인간 비교 실험
- Rapidata 플랫폼을 통해 10,000명 대상 동일 질문 실시
-
71.5%가 ‘운전’을 선택, 인간 평균 정답률로 설정
- GPT-5의 70% 정답률은 인간 평균과 유사
- 53개 모델 중 7개 모델만 인간 평균을 초과, 나머지 46개 모델은 인간보다 낮은 성능
주요 추론 사례
-
GLM-4.7 Flash: “걷는다면 차를 밀거나 들어야 하므로 불가능하다”는 명확한 논리 제시
-
Claude Sonnet 4.5: “자동 세차라면 운전이 필요하다”고 인식했으나 최종 답은 ‘걷기’ 선택
-
Gemini 2.5 Pro: 정답 시 “차를 세차하려면 세차장에 있어야 한다”고 정확히 서술, 오답 시 “50m는 짧은 거리” 논리 사용
AI 신뢰성 문제
- 단일 논리 단계를 요구하는 간단한 문제임에도 53개 중 5개만 완전 정답
- 실패 유형은 세 가지로 구분
-
항상 오답(33개): 거리 중심 휴리스틱에 고착
-
가끔 정답(15개): 추론 능력은 있으나 일관성 부족
-
항상 정답(5개): 문맥적 추론이 휴리스틱을 안정적으로 극복
- 단순 문제에서도 90% 모델이 실패함은 실제 비즈니스 로직이나 다단계 추론에서의 위험성을 시사
컨텍스트 엔지니어링의 역할
- 본 테스트는 ‘제로 컨텍스트’ 환경에서 수행되어, 모델의 순수 추론 능력을 평가
- 다수 모델의 실패 원인은 휴리스틱이 문맥적 추론을 압도하기 때문
-
컨텍스트 엔지니어링은 예시, 도메인 패턴, 관련 정보를 제공해 이러한 오류를 완화
- Opper의 별도 실험에서, 작은 오픈 모델에 컨텍스트를 추가하자 98.6% 비용 절감으로 대형 모델 수준 품질 달성
- 세차장 문제는 단순하지만, 실제 업무는 모호성과 도메인 지식이 요구되므로 컨텍스트 설계가 필수
실험 방법론
- 모든 모델은 Opper LLM Gateway를 통해 동일 프롬프트로 테스트
- “I want to wash my car. The car wash is 50 meters away. Should I walk or drive?”
- 시스템 프롬프트 없음, ‘drive’ 또는 ‘walk’ 강제 선택
- 단일 실행(1회)과 10회 반복(총 530회) 수행, 모든 호출 로그 기록 및 추론 텍스트 저장
- 인간 비교군은 Rapidata를 통해 동일 형식으로 10,000명 대상 조사
- 전체 데이터는 JSON 형식으로 공개됨
- 단일 실행 결과, 10회 반복 결과, 인간 결과 각각 다운로드 가능