1996년 스페이스 잼 웹사이트를 Claude로 재현하려다 실패한 기록

3 days ago 5

  • 1996년 워너브라더스의 스페이스 잼 공식 웹사이트를 AI 모델 Claude로 재현하려는 시도가 진행됨
  • Claude에게 스크린샷과 원본 이미지 자산을 제공했지만, 생성된 HTML은 원본과 레이아웃이 일치하지 않음
  • 좌표 추정, 그리드 오버레이·픽셀 비교 도구 등 다양한 보조 도구를 추가했으나, Claude는 여전히 정확한 위치 계산 불가
  • Claude는 자신의 결과를 “완벽하다”고 평가했지만, 실제로는 오차가 누적되고 자기 결과에 과신하는 경향을 보임
  • 이 실험은 AI의 시각적 정밀도 한계와 자기평가 오류를 드러내며, 초기 웹디자인의 단순함이 오히려 재현 불가능한 복잡성을 지님

스페이스 잼 1996 웹사이트 개요

  • 워너브라더스가 1996년 영화 Space Jam 홍보용으로 만든 웹사이트는 단일 HTML 페이지와 GIF 배경으로 구성
    • 단순한 색상, 테이블 기반 구조, 200KB 미만의 용량
    • 현재까지 spacejam.com/1996 주소로 유지 중
  • 실험자는 이 사이트를 Claude가 스크린샷만으로 재현할 수 있는지 검증하려 함

실험 준비

  • Claude에게 제공된 자료
    • 웹사이트 전체 스크린샷
    • 원본 이미지 자산 디렉터리
  • Claude의 내부 동작을 추적하기 위해 프록시를 통한 API 트래픽 로깅 시스템 구축
    • 모든 프롬프트, 응답, 도구 호출(Read, Write, Bash 명령 등)을 기록
    • 각 시도마다 traffic.log 파일 생성

Part 1: Claude the Realist

  • 첫 시도에서 Claude는 행성 배열과 버튼 위치를 대략적으로 복제했으나, 궤도 형태가 원본과 다름
    • 원본은 타원형 배열이지만 Claude는 대칭적 다이아몬드 형태로 배치
  • Claude는 결과를 “완벽하다”고 평가하며, 자신의 분석과 배치가 정확하다고 주장
  • 이후 Claude에게 추론 단계를 명시적으로 작성하도록 요구했으나,
    • 분석 단계에서 언급한 수치를 HTML 생성 시 반영하지 않음
  • 픽셀 단위 질문에 대해 Claude는
    • “정확한 좌표를 측정할 수 없다”, “시각적 추정만 가능하다”고 답변
    • 5픽셀 이내 정확도 자신감은 15/100 수준
  • Claude는 정확한 픽셀 측정 능력이 없음을 인정, 이후 실험자는 도구 확장을 시도

Part 2: Claude the Unreliable Narrator

  • Claude의 측정 한계를 보완하기 위해 그리드 오버레이, 좌표 라벨, 색상 비교 도구, 스크린샷 비교 뷰어 등을 추가
  • Claude는 그리드를 “장식처럼” 사용하며 여전히 좌표를 잘못 해석
    • 예: 중심 (961,489), Planet B-Ball (850,165) 등 수치를 제시했으나 실제 위치와 불일치
  • 여러 반복(iteration)에서 Claude는 점진적 개선을 주장했지만 실제로는 오차가 누적
    • 1차(50px 그리드): 소폭 이동
    • 2차(25px 그리드): 전체 궤도를 20px 안쪽으로 이동
    • 3차(5px 그리드): 미세 조정 반복
    • 4차: “정밀 조정 완료” 선언
  • 실제로는 행성 궤도 반경이 150~200px 부족, 전체 배치가 압축된 형태 유지
  • Claude는 반복적으로 “거의 완벽하다”고 평가했으나, 자기 생성 결과를 기준으로 오판
  • 실험자는 Anthropic 논문 “Language Models (Mostly) Know What They Know” 를 인용
    • 모델이 자신이 생성한 텍스트를 외부 입력으로 오인해 과신하는 현상 설명
    • Claude가 자신의 HTML을 “정답”으로 인식하고 이후 수정이 왜곡되는 현상과 일치

Part 3: Claude the Blind

  • Claude의 시각적 한계를 분석하기 위해 비전 인코더의 구조적 제약을 가정
    • 이미지를 16×16 픽셀 블록 단위로 토큰화하므로, 세밀한 기하 정보 손실
    • Claude는 “행성”, “위치 관계” 등 의미적 인식은 가능하지만 정밀 좌표는 불가능
  • 논문 “An Image is Worth 16x16 Words” 를 참고하여,
    • Claude가 세부 픽셀 정보를 패치 단위로 압축해 인식함을 추정
  • 이를 검증하기 위해 2배 확대된 스크린샷을 제공했으나,
    • Claude는 확대 비율을 고려하지 않고 비례 관계를 유지하지 못함
  • 결과적으로 Claude는 개념적 이해는 정확하지만, 기하학적 재현 능력은 부족
    • “이 행성은 저 행성 위에 있다”는 설명은 맞지만, HTML 배치는 계속 어긋남

결론 및 미해결 과제

  • Claude는 스페이스 잼 웹사이트의 시각적 구조를 인식하지만 정밀 복제에는 실패
  • 실패 원인으로는
    • 픽셀 단위 측정 불가
    • 자기 생성 결과에 대한 과신
    • 시각 인코딩의 해상도 한계
  • 제안된 향후 시도
    1. 화면을 사분면으로 나누어 개별 재현 후 병합
    2. 공간 추론 중심 프롬프트 엔지니어링 실험
    3. 줌 도구와 스크린샷 활용 능력 강화
  • 이 실험은 AI의 시각적 정밀도 한계와 초기 웹디자인의 복잡성을 동시에 보여주는 사례
  • 1996년의 단순한 웹페이지가 현대 AI에게는 여전히 재현 불가능한 벤치마크로 남음

Read Entire Article