앤서니 보데인의 잃어버린 Li.st 게시물 복원

1 month ago 13

  • 앤서니 보데인의 사라진 Li.st 게시물을 공개 웹 크롤링 데이터에서 복원한 프로젝트
  • Common CrawlInternet Archive를 활용해 li.st 도메인의 잔존 HTML을 탐색하고 복원
  • Python 스크립트 commoncrawl_search.py를 사용해 공개 S3 버킷에서 HTML 문서를 자동 수집
  • 다수의 게시물 텍스트는 복원되었으나 이미지 파일은 대부분 손실, 일부 항목만 HTML 형태로 보존
  • 복원 결과를 GitHub 저장소에 공개해, 향후 커뮤니티가 추가 복원 및 보존에 참여할 수 있도록 함

프로젝트 개요

  • 보데인의 잃어버린 Li.st 게시물을 복원하기 위해 공개 크롤링 데이터를 활용한 시도
    • 기존에 GReg TeChnoLogY 사이트에서 일부 목록이 공개된 것을 보고 복원 가능성을 탐색
    • 보안 및 크롤링 분야 경력을 바탕으로 공개 접근 가능한 데이터 아카이브만 사용
  • Common Crawl의 문서 인덱스를 검색해 https://li.st/Bourdain* 경로의 데이터를 수집
    • Python 3.14.2 환경에서 requirements.txt 의존성을 설치 후 실행
    • 명령어 예시: python commoncrawl_search.py "https://li.st/Bourdain*"; --all --download

복원 과정과 도구

  • commoncrawl_search.py는 특정 데이터셋에 인덱스 요청을 보내고, 일치 항목을 공개 S3 버킷에서 다운로드
    • HTML 문서 크기가 작아 복원이 용이함
  • 복원된 결과물은 GitHub 저장소(https://github.com/thecsw/bourdain)에 정리
    • 각 HTML 파일은 원문 레이아웃을 유지하되, 내용 수정 없이 재구성
    • AI 생성물은 아니며, 코드 일부만 자동화 도구로 작성

복원된 주요 게시물

  • things-i-no-longer-have-time-or-patience-for: ‘Cocaine’, ‘True Detective’, ‘Beer nerds’ 등 목록
  • nice-views: 몬태나, 푸에르토리코, 나크소스, LA, 이스탄불 등 여행지 풍경
  • if-i-were-trapped-on-a-desert-island-with-only-three-tv-series: ‘The Wire’, ‘Tinker, Tailor, Soldier, Spy’ 등
  • objects-of-desire: 빈티지 선글라스, 트레파닝 도구, BJJ 도복, Kramer 칼 등 개인적 수집품
  • four-spy-novels-by-real-spies-and-one-not-by-a-spy: 서머싯 몸, 그레이엄 그린 등 작가의 첩보소설 추천
  • hotel-slut-that-s-me: 전 세계 호텔 목록과 개인적 애정 표현
  • some-new-york-sandwiches, great-dead-bars-of-new-york, guilty-pleasures 등 뉴욕 관련 리스트 다수
  • 대부분의 게시물은 텍스트 복원 성공, 그러나 이미지 파일은 전부 손실

복원 불가 항목

  • David Bowie Related (2016년 1월 14일) 게시물만 Common Crawl에서 발견되지 않음

프로젝트 의의와 향후 계획

  • 복원 작업을 디지털 고고학적 시도로 표현하며, 과거 웹 콘텐츠의 보존 가능성을 입증
  • 이미지 복원은 어려우나, 텍스트 아카이브 구축은 성공적
  • 공개 Git 저장소를 통해 누구나 추가 복원에 참여 가능
  • 향후 공공 아카이브 구축 및 장기 보존 방안 모색 필요성 제시

Read Entire Article