- 1996년 워너브라더스의 스페이스 잼 공식 웹사이트를 AI 모델 Claude로 재현하려는 시도가 진행됨
- Claude에게 스크린샷과 원본 이미지 자산을 제공했지만, 생성된 HTML은 원본과 레이아웃이 일치하지 않음
- 좌표 추정, 그리드 오버레이·픽셀 비교 도구 등 다양한 보조 도구를 추가했으나, Claude는 여전히 정확한 위치 계산 불가
- Claude는 자신의 결과를 “완벽하다”고 평가했지만, 실제로는 오차가 누적되고 자기 결과에 과신하는 경향을 보임
- 이 실험은 AI의 시각적 정밀도 한계와 자기평가 오류를 드러내며, 초기 웹디자인의 단순함이 오히려 재현 불가능한 복잡성을 지님
스페이스 잼 1996 웹사이트 개요
- 워너브라더스가 1996년 영화 Space Jam 홍보용으로 만든 웹사이트는 단일 HTML 페이지와 GIF 배경으로 구성
- 실험자는 이 사이트를 Claude가 스크린샷만으로 재현할 수 있는지 검증하려 함
실험 준비
- Claude에게 제공된 자료
- 웹사이트 전체 스크린샷
- 원본 이미지 자산 디렉터리
- Claude의 내부 동작을 추적하기 위해 프록시를 통한 API 트래픽 로깅 시스템 구축
- 모든 프롬프트, 응답, 도구 호출(Read, Write, Bash 명령 등)을 기록
- 각 시도마다 traffic.log 파일 생성
Part 1: Claude the Realist
- 첫 시도에서 Claude는 행성 배열과 버튼 위치를 대략적으로 복제했으나, 궤도 형태가 원본과 다름
- 원본은 타원형 배열이지만 Claude는 대칭적 다이아몬드 형태로 배치
- Claude는 결과를 “완벽하다”고 평가하며, 자신의 분석과 배치가 정확하다고 주장
- 이후 Claude에게 추론 단계를 명시적으로 작성하도록 요구했으나,
- 분석 단계에서 언급한 수치를 HTML 생성 시 반영하지 않음
- 픽셀 단위 질문에 대해 Claude는
- “정확한 좌표를 측정할 수 없다”, “시각적 추정만 가능하다”고 답변
- 5픽셀 이내 정확도 자신감은 15/100 수준
- Claude는 정확한 픽셀 측정 능력이 없음을 인정, 이후 실험자는 도구 확장을 시도
Part 2: Claude the Unreliable Narrator
- Claude의 측정 한계를 보완하기 위해 그리드 오버레이, 좌표 라벨, 색상 비교 도구, 스크린샷 비교 뷰어 등을 추가
- Claude는 그리드를 “장식처럼” 사용하며 여전히 좌표를 잘못 해석
- 예: 중심 (961,489), Planet B-Ball (850,165) 등 수치를 제시했으나 실제 위치와 불일치
- 여러 반복(iteration)에서 Claude는 점진적 개선을 주장했지만 실제로는 오차가 누적
- 1차(50px 그리드): 소폭 이동
- 2차(25px 그리드): 전체 궤도를 20px 안쪽으로 이동
- 3차(5px 그리드): 미세 조정 반복
- 4차: “정밀 조정 완료” 선언
- 실제로는 행성 궤도 반경이 150~200px 부족, 전체 배치가 압축된 형태 유지
- Claude는 반복적으로 “거의 완벽하다”고 평가했으나, 자기 생성 결과를 기준으로 오판
- 실험자는 Anthropic 논문 “Language Models (Mostly) Know What They Know” 를 인용
- 모델이 자신이 생성한 텍스트를 외부 입력으로 오인해 과신하는 현상 설명
- Claude가 자신의 HTML을 “정답”으로 인식하고 이후 수정이 왜곡되는 현상과 일치
Part 3: Claude the Blind
- Claude의 시각적 한계를 분석하기 위해 비전 인코더의 구조적 제약을 가정
- 이미지를 16×16 픽셀 블록 단위로 토큰화하므로, 세밀한 기하 정보 손실
- Claude는 “행성”, “위치 관계” 등 의미적 인식은 가능하지만 정밀 좌표는 불가능
- 논문 “An Image is Worth 16x16 Words” 를 참고하여,
- Claude가 세부 픽셀 정보를 패치 단위로 압축해 인식함을 추정
- 이를 검증하기 위해 2배 확대된 스크린샷을 제공했으나,
- Claude는 확대 비율을 고려하지 않고 비례 관계를 유지하지 못함
- 결과적으로 Claude는 개념적 이해는 정확하지만, 기하학적 재현 능력은 부족
- “이 행성은 저 행성 위에 있다”는 설명은 맞지만, HTML 배치는 계속 어긋남
결론 및 미해결 과제
- Claude는 스페이스 잼 웹사이트의 시각적 구조를 인식하지만 정밀 복제에는 실패
- 실패 원인으로는
- 픽셀 단위 측정 불가
- 자기 생성 결과에 대한 과신
- 시각 인코딩의 해상도 한계
- 제안된 향후 시도
- 화면을 사분면으로 나누어 개별 재현 후 병합
-
공간 추론 중심 프롬프트 엔지니어링 실험
-
줌 도구와 스크린샷 활용 능력 강화
- 이 실험은 AI의 시각적 정밀도 한계와 초기 웹디자인의 복잡성을 동시에 보여주는 사례
- 1996년의 단순한 웹페이지가 현대 AI에게는 여전히 재현 불가능한 벤치마크로 남음