1996년 스페이스 잼 웹사이트를 Claude로 재현하려다 실패한 기록

3 days ago 5

스페이스 잼 1996 웹사이트 개요

워너브라더스가 1996년 영화 Space Jam 홍보용으로 만든 웹사이트는 단일 HTML 페이지와 GIF 배경으로 구성
- 단순한 색상, 테이블 기반 구조, 200KB 미만의 용량
- 현재까지 spacejam.com/1996 주소로 유지 중
실험자는 이 사이트를 Claude가 스크린샷만으로 재현할 수 있는지 검증하려 함

Claude에게 제공된 자료
- 웹사이트 전체 스크린샷
- 원본 이미지 자산 디렉터리
Claude의 내부 동작을 추적하기 위해 프록시를 통한 API 트래픽 로깅 시스템 구축
- 모든 프롬프트, 응답, 도구 호출(Read, Write, Bash 명령 등)을 기록
- 각 시도마다 traffic.log 파일 생성

첫 시도에서 Claude는 행성 배열과 버튼 위치를 대략적으로 복제했으나, 궤도 형태가 원본과 다름
- 원본은 타원형 배열이지만 Claude는 대칭적 다이아몬드 형태로 배치
Claude는 결과를 “완벽하다”고 평가하며, 자신의 분석과 배치가 정확하다고 주장
이후 Claude에게 추론 단계를 명시적으로 작성하도록 요구했으나,
- 분석 단계에서 언급한 수치를 HTML 생성 시 반영하지 않음
픽셀 단위 질문에 대해 Claude는
- “정확한 좌표를 측정할 수 없다”, “시각적 추정만 가능하다”고 답변
- 5픽셀 이내 정확도 자신감은 15/100 수준
Claude는 정확한 픽셀 측정 능력이 없음을 인정, 이후 실험자는 도구 확장을 시도

Claude의 측정 한계를 보완하기 위해 그리드 오버레이, 좌표 라벨, 색상 비교 도구, 스크린샷 비교 뷰어 등을 추가
Claude는 그리드를 “장식처럼” 사용하며 여전히 좌표를 잘못 해석
- 예: 중심 (961,489), Planet B-Ball (850,165) 등 수치를 제시했으나 실제 위치와 불일치
여러 반복(iteration)에서 Claude는 점진적 개선을 주장했지만 실제로는 오차가 누적
- 1차(50px 그리드): 소폭 이동
- 2차(25px 그리드): 전체 궤도를 20px 안쪽으로 이동
- 3차(5px 그리드): 미세 조정 반복
- 4차: “정밀 조정 완료” 선언
실제로는 행성 궤도 반경이 150~200px 부족, 전체 배치가 압축된 형태 유지
Claude는 반복적으로 “거의 완벽하다”고 평가했으나, 자기 생성 결과를 기준으로 오판
실험자는 Anthropic 논문 “Language Models (Mostly) Know What They Know” 를 인용
- 모델이 자신이 생성한 텍스트를 외부 입력으로 오인해 과신하는 현상 설명
- Claude가 자신의 HTML을 “정답”으로 인식하고 이후 수정이 왜곡되는 현상과 일치

Claude의 시각적 한계를 분석하기 위해 비전 인코더의 구조적 제약을 가정
- 이미지를 16×16 픽셀 블록 단위로 토큰화하므로, 세밀한 기하 정보 손실
- Claude는 “행성”, “위치 관계” 등 의미적 인식은 가능하지만 정밀 좌표는 불가능
논문 “An Image is Worth 16x16 Words” 를 참고하여,
- Claude가 세부 픽셀 정보를 패치 단위로 압축해 인식함을 추정
이를 검증하기 위해 2배 확대된 스크린샷을 제공했으나,
- Claude는 확대 비율을 고려하지 않고 비례 관계를 유지하지 못함
결과적으로 Claude는 개념적 이해는 정확하지만, 기하학적 재현 능력은 부족
- “이 행성은 저 행성 위에 있다”는 설명은 맞지만, HTML 배치는 계속 어긋남

Claude는 스페이스 잼 웹사이트의 시각적 구조를 인식하지만 정밀 복제에는 실패
실패 원인으로는
- 픽셀 단위 측정 불가
- 자기 생성 결과에 대한 과신
- 시각 인코딩의 해상도 한계
제안된 향후 시도
1. 화면을 사분면으로 나누어 개별 재현 후 병합
2. 공간 추론 중심 프롬프트 엔지니어링 실험
3. 줌 도구와 스크린샷 활용 능력 강화
이 실험은 AI의 시각적 정밀도 한계와 초기 웹디자인의 복잡성을 동시에 보여주는 사례
1996년의 단순한 웹페이지가 현대 AI에게는 여전히 재현 불가능한 벤치마크로 남음