AI 스크레이퍼 때문에 좋은 서비스를 유지할 수 없는 이유

3 weeks ago 11

최근 AI 기업들의 무단 데이터 수집으로 MetaBrainz의 서버가 과부하를 겪고 있음
이들은 robots.txt 규칙을 무시하고 MusicBrainz 데이터를 페이지 단위로 크롤링하며, 이는 수백 년이 걸릴 비효율적 방식임
같은 행위가 ListenBrainz API에도 확산되어, 서비스 보호를 위해 인증 토큰 요구 및 일부 API 폐쇄 조치가 시행됨
LB Radio는 로그인 사용자만 이용 가능하며, API 호출 시에도 Authorization 헤더가 필요함
이러한 조치는 정상 사용자 접근성을 유지하기 위한 필수 대응으로 설명됨

AI 스크레이퍼로 인한 서버 과부하 문제

MetaBrainz 팀은 최근 몇 달간 AI 모델 학습용 데이터 수집을 위한 무단 크롤링에 대응 중임
- 일부 AI 기업이 robots.txt 등 기본적 인터넷 예절을 무시하고 데이터를 긁어감
- MusicBrainz 데이터를 한 페이지씩 요청하는 방식으로 접근, 전체 다운로드보다 비효율적이며 서버 부하 초래
이러한 접근은 수백 년이 걸릴 수준의 비효율성을 가지며, 결과적으로 정상 사용자 접근 방해로 이어짐

ListenBrainz API 보호 조치

AI 스크레이퍼가 ListenBrainz의 여러 API 엔드포인트를 대상으로 데이터 수집을 시도함
이에 따라 다음과 같은 변경이 이루어짐:
- /metadata/lookup API(GET 및 POST)는 Authorization 토큰이 있어야 작동
- ListenBrainz Labs API의 mbid-mapping, mbid-mapping-release, mbid-mapping-explain 엔드포인트는 삭제됨
  - 해당 API는 원래 디버깅용으로 제공되었으며, 향후 새 매퍼용 엔드포인트로 대체 예정
- LB Radio는 로그인 사용자만 이용 가능하며, API 호출 시 Authorization 헤더 필요

서비스 안정성 확보를 위한 긴급 대응

MetaBrainz는 이번 조치가 서비스 과부하 방지와 정상 운영 유지를 위한 불가피한 결정이라 밝힘
사용자에게 예고 없는 변경으로 불편을 끼친 점을 사과하며, 연말 프로젝트 완료 후 에러 메시지 개선 예정

커뮤니티 반응

댓글에서는 AI 스크레이퍼의 비효율적 접근 방식과 자동화된 웹 스파이더 구조에 대한 논의가 이어짐
- 일부 사용자는 “AI 작업자들의 무능”을 지적
- 다른 사용자는 “자동화된 크롤러가 단순히 링크를 따라가며 데이터를 수집하기 때문”이라 설명

전체적 의미

MetaBrainz의 조치는 AI 데이터 수집으로 인한 오픈 데이터 프로젝트의 피해를 보여주는 사례
공공 API의 지속 가능성을 위해 인증 강화와 접근 제한이 불가피해지고 있음

Read Entire Article