AI 모델 53종 대상 ‘세차장 테스트’: “세차장이 50m 떨어져 있다면 걸어갈까, 운전할까?”

1 month ago 20

53개의 주요 AI 모델을 대상으로 단순 논리 문제를 제시한 결과, 대부분이 기초적 추론에 실패함
질문은 “세차장이 50m 떨어져 있다면 걸어갈까, 운전할까?”로, 정답은 ‘운전’ 이지만 53개 중 42개 모델이 ‘걷기’ 를 선택
Claude Opus 4.6, Gemini 3 시리즈, Grok-4 등 5개 모델만이 10회 반복 테스트에서도 100% 일관된 정답을 냄
GPT-5는 10회 중 7회만 정답을 맞혀, 평균 인간 정답률(71.5%) 과 유사한 수준으로 평가됨
실험은 AI의 일관된 추론 능력 부족과 문맥 기반 판단의 한계를 드러내며, 이를 보완하기 위한 ‘컨텍스트 엔지니어링’의 중요성을 강조함

세차장 테스트 개요

테스트는 “세차장이 50m 떨어져 있다면 걸어갈까, 운전할까?”라는 질문으로 구성
- 정답은 ‘운전’이며, 이유는 세차를 하려면 차가 세차장에 있어야 하기 때문
Opper의 LLM Gateway를 통해 53개 모델을 동일 조건으로 평가
- 시스템 프롬프트 없이, ‘walk’ 또는 ‘drive’ 중 하나를 강제 선택하도록 설정
- 각 모델당 1회 테스트 후, 10회 반복 테스트로 일관성 검증 수행

53개 중 11개 모델만 정답(운전), 42개 모델은 오답(걷기)
정답을 맞힌 모델: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
Anthropic, OpenAI, Google, xAI, Perplexity, Meta, Mistral 등 주요 패밀리별 성능 차이 확인
- Anthropic: 1/9 (Opus 4.6만 정답)
- OpenAI: 1/12 (GPT-5만 정답)
- Meta(Llama), Mistral, DeepSeek 등은 전부 실패
대부분의 오답은 “50m는 짧은 거리이므로 걷는 것이 효율적”이라는 거리 중심의 휴리스틱 오류 때문
일부 모델은 정답을 맞혔지만 비논리적 근거를 제시
- 예: Perplexity Sonar는 “걷기가 음식 생산 에너지를 더 소모하므로 오히려 오염이 크다”고 주장

총 530회 호출 결과, 일관성 있는 정답률은 더 낮아짐
10/10 정답 모델(5개): Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
8/10 정답 모델(2개): GLM-5, Grok-4-1 Reasoning
GPT-5는 7/10 정답, 나머지 3회는 연비·환경 논리로 오답
33개 모델은 10회 모두 오답, GPT-4.1, GPT-5.1, Llama, Mistral 등 포함
일부 모델은 첫 시도에서 정답이었으나 반복 시 결과가 불안정
- Sonar: 1회 정답 → 10회 전부 오답
- Kimi K2.5: 5회 정답, 5회 오답
- GLM-4.7: 1회 오답 → 10회 중 6회 정답으로 개선

GLM-4.7 Flash: “걷는다면 차를 밀거나 들어야 하므로 불가능하다”는 명확한 논리 제시
Claude Sonnet 4.5: “자동 세차라면 운전이 필요하다”고 인식했으나 최종 답은 ‘걷기’ 선택
Gemini 2.5 Pro: 정답 시 “차를 세차하려면 세차장에 있어야 한다”고 정확히 서술, 오답 시 “50m는 짧은 거리” 논리 사용

단일 논리 단계를 요구하는 간단한 문제임에도 53개 중 5개만 완전 정답
실패 유형은 세 가지로 구분
- 항상 오답(33개): 거리 중심 휴리스틱에 고착
- 가끔 정답(15개): 추론 능력은 있으나 일관성 부족
- 항상 정답(5개): 문맥적 추론이 휴리스틱을 안정적으로 극복
단순 문제에서도 90% 모델이 실패함은 실제 비즈니스 로직이나 다단계 추론에서의 위험성을 시사

본 테스트는 ‘제로 컨텍스트’ 환경에서 수행되어, 모델의 순수 추론 능력을 평가
다수 모델의 실패 원인은 휴리스틱이 문맥적 추론을 압도하기 때문
컨텍스트 엔지니어링은 예시, 도메인 패턴, 관련 정보를 제공해 이러한 오류를 완화
- Opper의 별도 실험에서, 작은 오픈 모델에 컨텍스트를 추가하자 98.6% 비용 절감으로 대형 모델 수준 품질 달성
세차장 문제는 단순하지만, 실제 업무는 모호성과 도메인 지식이 요구되므로 컨텍스트 설계가 필수

모든 모델은 Opper LLM Gateway를 통해 동일 프롬프트로 테스트
- “I want to wash my car. The car wash is 50 meters away. Should I walk or drive?”
- 시스템 프롬프트 없음, ‘drive’ 또는 ‘walk’ 강제 선택
- 단일 실행(1회)과 10회 반복(총 530회) 수행, 모든 호출 로그 기록 및 추론 텍스트 저장
인간 비교군은 Rapidata를 통해 동일 형식으로 10,000명 대상 조사
전체 데이터는 JSON 형식으로 공개됨
- 단일 실행 결과, 10회 반복 결과, 인간 결과 각각 다운로드 가능