LWN이 지금까지 겪은 가장 심각한 스크레이퍼 공격을 받고 있음

3 weeks ago 9

  • LWN.net이 수만 개의 주소에서 발생한 대규모 스크레이핑 기반 DDoS 공격을 받고 있으며, 사이트 응답 속도가 저하되고 있음
  • Jonathan Corbet은 AI 관련 스크레이퍼로부터 사이트를 방어해야 하는 상황을 언급하며, 독자 접근에 장벽을 두고 싶지 않지만 필요할 수 있다고 밝힘
  • 커뮤니티에서는 Bright Data 등 상업적 데이터 수집업체가 공격의 배후일 가능성이 언급되었으며, 여러 사용자가 비슷한 트래픽 급증을 보고함
  • 일부는 RSS 구독, 정적 사이트 생성, LLM 타피트(tarpit) 등으로 대응 중이며, Azure·Google·AliCloud 등 대형 클라우드 IP에서 공격이 발생했다는 사례도 공유됨
  • 이번 사태는 AI 데이터 수집이 웹 생태계의 안정성과 창작자의 지속 가능성에 미치는 피해를 드러내는 사례로 주목됨

LWN.net에 대한 대규모 스크레이퍼 공격

  • Jonathan Corbet은 LWN.net이 지금까지 겪은 가장 심각한 스크레이퍼 공격을 받고 있다고 밝힘

    • 공격은 수만 개의 IP 주소를 동원한 DDoS 형태로, 사이트 응답성이 저하되고 있음
    • 그는 “AI 관련 스크레이퍼로부터 LWN을 방어하는 일은 하고 싶지 않은 일”이라며, 독자 접근에 장벽을 두는 조치를 원치 않지만 필요할 수 있다고 언급
  • Corbet은 공격 주체를 특정할 수 없다고 했으며, Bright Data 또는 유사한 경쟁사가 관련됐을 가능성을 언급

    • CPU 부하가 심각할 때가 있으며, 서버 확장은 가능하지만 “공들여 쓴 기사를 그런 사람들에게 먹이기 위해 비용을 내야 하는 것은 짜증난다”고 표현

커뮤니티의 반응과 제안

  • Tristan Colgate-McFarlane은 검색 엔진이 도용된 콘텐츠를 우선 노출함으로써 원 저작자의 트래픽과 광고 수익을 빼앗고 있다고 지적
  • 여러 사용자가 AI 스크레이퍼 트래픽 급증을 경험했다고 보고
    • Light Owl은 자신의 사이트 트래픽이 평소보다 20배 증가했다고 언급
    • Ben Tasker는 LLM 타피트(tarpit) 로봇 함정으로 일부 요청을 차단하고 있다고 설명
  • 일부는 Azure, Google, AliCloud 등 대형 클라우드 IP에서 공격이 발생했다고 보고
    • Dec, mx alex tax1a, David Gerard 등이 각자 MSFT·Google·Ali IP 대역 차단 사례를 공유

대응 방안 논의

  • Riku Voipio는 구독자 전용 서버(subscriber.lwn.net) 사용을 제안했으나, Corbet은 신규 구독자 유입이 어려워질 수 있다고 답변
  • Jani Nikula는 등록 사용자 전용 접근을 제안했으나, Corbet은 이미 봇이 계정을 생성하는 문제가 있어 실효성이 낮다고 언급
  • trademark는 콘텐츠 샤딩(sharding) 으로 캐시 효율을 높이자고 제안했으나, Corbet은 캐시가 문제가 아니라고 답변

다른 사이트 운영자들의 경험 공유

  • 여러 운영자들이 비슷한 공격 패턴을 보고
    • Dec는 PHP 취약점 스캔과 wp-admin 로그인 시도가 MSFT IP에서 발생했다고 언급
    • David Gerard는 RationalWiki에서 자바스크립트 기반 쿠키 검증으로 대응 중이며, Googlebot까지 차단되는 부작용이 있다고 설명
    • Catherine(whitequark)은 404 응답 처리만으로 서버 부하를 완화하고 있다고 언급

커뮤니티 내 인식

  • 일부는 “웹이 진정으로 망가지고 있다”고 표현하며, AI 스크레이핑이 웹 생태계의 붕괴를 가속화하고 있다고 비판
  • Ayush Agarwal은 커널 커뮤니티 내에서도 LLM 사용이 소규모 사이트에 피해를 주는 현실을 인식해야 한다고 지적
  • Martin Roukala는 “너무 관련성이 높아서 생긴 문제”라며 자조적으로 언급했으나, Jani Nikula는 “스크레이퍼는 그런 것에 신경 쓰지 않는다”고 답함

Read Entire Article