Spotify 전체 백업본 공개

1 month ago 14

  • Anna’s Archive가 Spotify의 메타데이터와 음악 파일 전체를 백업해 약 300TB 규모의 토렌트 아카이브로 공개
  • 2억5600만 곡의 메타데이터8600만 개의 음악 파일을 포함, 청취량의 99.6% 를 포괄
  • OGG Vorbis 160kbit/s 원본 품질로 인기곡을, OGG Opus 75kbit/s로 비인기곡을 저장해 효율적 보존 달성
  • 데이터는 SQLite 데이터베이스 형태로 제공되며, 플레이리스트·오디오 피처·앨범 아트 등 세부 구조까지 포함
  • 인류의 음악 유산을 자연재해·전쟁·예산 삭감 등으로부터 영구 보존하기 위한 세계 최초의 완전 공개형 음악 보존 아카이브

프로젝트 개요

  • Anna’s Archive는 Spotify의 전체 음악 메타데이터와 파일을 대규모로 스크레이핑하여 백업
    • 총 용량 약 300TB, 인기 순으로 그룹화된 토렌트 형태로 배포
    • 2억5600만 트랙, 1억8600만 개의 고유 ISRC 코드 포함
  • 이 아카이브는 누구나 미러링 가능한 완전 공개형 음악 보존 저장소로, 8600만 개의 음악 파일을 포함
    • 이는 Spotify 전체 청취의 약 99.6% 를 대표
  • Anna’s Archive는 기존에 텍스트 중심(책·논문 등) 보존에 집중했으나, 이번에는 음악이라는 비문자 매체로 확장
  • Spotify의 구조적 스크레이핑 방법을 발견한 후, 음악 보존 중심의 아카이브 구축을 추진

기존 음악 보존의 한계

  • 기존 음악 보존 시도에는 세 가지 주요 문제 존재
    1. 인기 아티스트 중심 편향으로 인해 비주류 음악이 소외
    2. 무손실 음질 집착으로 인한 비효율적 저장 용량
    3. 모든 음악을 대표하는 토렌트 목록 부재
  • 이번 Spotify 백업은 이러한 문제를 보완해 보존 중심의 음악 아카이브를 구축

데이터 구성 및 통계

  • Spotify의 약 2억5600만 트랙 중 99.9%의 메타데이터 확보
  • 인기 지표(popularity) 를 기준으로 우선순위 지정
    • popularity>0 트랙은 OGG Vorbis 160kbit/s 원본 품질로 저장
    • popularity=0 트랙은 OGG Opus 75kbit/s로 재인코딩
  • 2025년 7월 이전 발매된 곡 대부분 포함
  • 상위 3곡(Lady Gaga·Billie Eilish·Bad Bunny)의 총 스트리밍 수가 하위 2천만~1억 곡 합계보다 많음
  • 전체 곡 중 70% 이상이 청취 수 1000회 미만의 비인기곡

토렌트 배포 구조

  • 데이터는 메타데이터와 음악 파일 두 부분으로 구성
    • 메타데이터: SQLite DB로 제공, 약 200GB(압축)
    • 오디오 분석 데이터: 4TB(압축)
  • 음악 파일은 Anna’s Archive Containers (AAC) 포맷으로 배포
    • Spotify의 잘못된 OGG 패킷 제거 후, 제목·ISRC·앨범 아트·리플레이게인 정보 등 메타데이터 삽입
    • 일부 파일에서 REPLAYGAIN_ALBUM_PEAK 태그 오류 존재

데이터 탐색 및 분석

  • 인기 분포: 대부분의 청취는 popularity 50~80 구간의 곡에서 발생
  • 트랙 길이: 2분·3분·4분 단위에서 피크 발생
  • 명시적(Explicit) 콘텐츠ISRC 중복 곡 통계 포함
  • 아티스트 장르 분포: 세부 장르별 및 그룹화된 장르별 시각화 제공
  • 앨범 발매 연도 분석: 최근 자동 생성·AI 생성 음악 급증
  • 오디오 피처 분석: BPM 평균 약 120, loudness와 energy의 상관관계 확인

메타데이터 세부 구조

  • 주요 SQLite 파일 구성
    • spotify_clean.sqlite3: 아티스트·앨범·트랙의 거의 완전한 API 복제
    • spotify_clean_audio_features.sqlite3: 트랙별 BPM, key, energy, valence 등 오디오 피처 저장
    • spotify_clean_playlists.sqlite3: 660만 개 플레이리스트, 17억 개 트랙 항목 포함
    • spotify_clean_track_files.sqlite3: 트랙과 실제 파일 간 매핑, 파일 상태·SHA256 해시·라이선서 정보 포함
  • 추가 JSONL 파일로 오디오북·팟캐스트·쇼·에피소드 데이터 포함
  • spotify_2025_07_coverart.tar.torrent에는 앨범 아트 이미지 파일 저장

참여 및 보존 요청

  • Anna’s Archive는 기부 및 토렌트 시딩 참여를 요청
    • 소규모 시딩만으로도 전체 보존에 기여 가능
  • 목표는 자연재해·전쟁·예산 삭감 등으로부터 인류의 음악 유산을 영구 보존하는 것

추가 기능 및 실험

  • 전체 Spotify 트랙을 대상으로 한 ‘True Shuffle’ 기능 구현 가능
    • SQLite 쿼리를 통해 진정한 무작위 재생 목록 생성
  • 향후 관심이 충분할 경우, 개별 파일 다운로드 기능 추가 가능성 언급

요약

  • Anna’s Archive는 Spotify의 거의 전체 데이터를 백업해 세계 최대 공개 음악 메타데이터베이스를 구축
  • 완전 공개형 보존 아카이브로서 누구나 미러링 가능
  • 데이터 구조의 투명성, 기술적 정밀성, 장기 보존성을 모두 갖춘 프로젝트
  • 음악 산업의 상업적 플랫폼 의존성을 넘어, 문화적 기록의 영구 보존 기반을 마련

Read Entire Article