AI 스크레이퍼 때문에 좋은 서비스를 유지할 수 없는 이유

3 weeks ago 11

  • 최근 AI 기업들의 무단 데이터 수집으로 MetaBrainz의 서버가 과부하를 겪고 있음
  • 이들은 robots.txt 규칙을 무시하고 MusicBrainz 데이터를 페이지 단위로 크롤링하며, 이는 수백 년이 걸릴 비효율적 방식임
  • 같은 행위가 ListenBrainz API에도 확산되어, 서비스 보호를 위해 인증 토큰 요구 및 일부 API 폐쇄 조치가 시행됨
  • LB Radio는 로그인 사용자만 이용 가능하며, API 호출 시에도 Authorization 헤더가 필요함
  • 이러한 조치는 정상 사용자 접근성을 유지하기 위한 필수 대응으로 설명됨

AI 스크레이퍼로 인한 서버 과부하 문제

  • MetaBrainz 팀은 최근 몇 달간 AI 모델 학습용 데이터 수집을 위한 무단 크롤링에 대응 중임
    • 일부 AI 기업이 robots.txt 등 기본적 인터넷 예절을 무시하고 데이터를 긁어감
    • MusicBrainz 데이터를 한 페이지씩 요청하는 방식으로 접근, 전체 다운로드보다 비효율적이며 서버 부하 초래
  • 이러한 접근은 수백 년이 걸릴 수준의 비효율성을 가지며, 결과적으로 정상 사용자 접근 방해로 이어짐

ListenBrainz API 보호 조치

  • AI 스크레이퍼가 ListenBrainz의 여러 API 엔드포인트를 대상으로 데이터 수집을 시도함
  • 이에 따라 다음과 같은 변경이 이루어짐:
    • /metadata/lookup API(GET 및 POST)는 Authorization 토큰이 있어야 작동
    • ListenBrainz Labs API의 mbid-mapping, mbid-mapping-release, mbid-mapping-explain 엔드포인트는 삭제됨
      • 해당 API는 원래 디버깅용으로 제공되었으며, 향후 새 매퍼용 엔드포인트로 대체 예정
    • LB Radio는 로그인 사용자만 이용 가능하며, API 호출 시 Authorization 헤더 필요

서비스 안정성 확보를 위한 긴급 대응

  • MetaBrainz는 이번 조치가 서비스 과부하 방지와 정상 운영 유지를 위한 불가피한 결정이라 밝힘
  • 사용자에게 예고 없는 변경으로 불편을 끼친 점을 사과하며, 연말 프로젝트 완료 후 에러 메시지 개선 예정

커뮤니티 반응

  • 댓글에서는 AI 스크레이퍼의 비효율적 접근 방식자동화된 웹 스파이더 구조에 대한 논의가 이어짐
    • 일부 사용자는 “AI 작업자들의 무능”을 지적
    • 다른 사용자는 “자동화된 크롤러가 단순히 링크를 따라가며 데이터를 수집하기 때문”이라 설명

전체적 의미

  • MetaBrainz의 조치는 AI 데이터 수집으로 인한 오픈 데이터 프로젝트의 피해를 보여주는 사례
  • 공공 API의 지속 가능성을 위해 인증 강화와 접근 제한이 불가피해지고 있음

Read Entire Article