AI 학습 데이터 수집 방지를 위한 'Fuzzy Canary' 도구 분석 서버 사이드와 클라이언트 사이드 주입 방식의 구분 서버 사이드 구현 (권장): 특징: HTML 생성 시점에 'Canary(함정 링크)'를 포함하므로, 자바스크립트를 실행하지 않는 스크래퍼에게도 효과적으로 작동함. React 기반 프레임워크(Next.js, Remix): 루트 레이아웃에 <Canary /> 컴포넌트를 추가하여 적용함. Remix 등 일부 프레임워크는 로더(Loader)를 통해 사용자 에이전트(User Agent) 정보를 전달해야 함. 비 React 프레임워크: getCanaryHtml() 유틸리티를 사용하여 <body> 태그 시작 부분에 HTML을 직접 삽입함. 클라이언트 사이드 구현: 특징: 정적 사이트(Static Site)나 클라이언트 주입을 선호하는 경우 사용됨. 적용: 메인 엔트리 파일에 자동 초기화 모듈(@fuzzycanary/core/auto)을 임포트하면 페이지 로드 시 자동으로 주입됨. 정상적인 검색 봇 식별과 정적 사이트의 한계 봇 필터링 메커니즘: Fuzzy Canary는 Google, Bing, DuckDuckGo 등 알려진 검색 엔진 봇을 식별하여 해당 요청에는 함정 링크 주입을 생략, SEO 피해를 방지함. 서버 렌더링의 이점: 서버가 요청된 사용자 에이전트를 확인하여 검색 엔진에는 '깨끗한 HTML'을, AI 스크래퍼에는 'Canary 포함 HTML'을 선별적으로 제공 가능함. 정적 사이트의 구조적 문제: 빌드 시점에 HTML이 생성되는 정적 사이트는 사용자 에이전트 확인이 불가능함. 모든 HTML에 함정 링크가 포함될 경우, Google 등 검색 엔진이 해당 링크를 인식하게 되어 SEO에 악영향을 미칠 수 있음. 대응 전략: 정적 사이트 생성기를 사용하는 경우 클라이언트 사이드 초기화 방식을 사용하여 런타임에 navigator.userAgent를 확인하고 주입 여부를 결정해야 함(단, 자바스크립트를 실행하는 봇에만 유효하다는 한계 존재).
서론: AI 스크래핑 대응을 위한 기술적 접근
본론 1: 설치 및 환경별 구현 방식
본론 2: 검색 엔진 최적화(SEO) 고려 사항
결론: 적용 시 고려사항 및 전략적 선택

1 month ago
12










English (US) ·