Cloudflare vs Perplexity 논쟁. 하지만 웹 사용자 모두가 알아야 하는.
웹의 역사는 곧 규칙의 역사다. 처음 인터넷이 등장했을 때부터 지금까지, 웹 생태계는 크고 작은 갈등 속에서 질서를 찾아왔다. 그런데 최근, AI 시대를 맞이해 웹 크롤링 규칙을 둘러싼 또 하나의 중요한 전쟁이 시작됐다. 바로 웹 인프라 거인 Cloudflare(클라우드플레어)와 AI 검색엔진 신생기업 Perplexity(퍼플렉시티)의 ‘스텔스 크롤링(Stealth Crawling)’ 논란이다. 🚨 폭탄 선언: Cloudflare, 퍼플렉시티를 "웹 표준 위반자"로 규정하다 2025년 8월 4일, Cloudflare는 공식 블로그를 통해 충격적인 주장을 내놓았다. AI 기반 검색 엔진 퍼플렉시티가 웹사이트들의 크롤링 금지 지시를 교묘히 우회하여 콘텐츠를 무단으로 가져가고 있다는 내용이었다. 🔍 퍼플렉시티의 스텔스 크롤링 전략 Cloudflare가 제시한 퍼플렉시티의 크롤링 우회 방식은 다음과 같다. 정면 접근: 공식 에이전트(PerplexityBot)를 이용해 콘텐츠 접근 시도 차단 시 탐지: 웹사이트가 차단하면 즉시 감지하고 전술 변경 브라우저 위장: Chrome 브라우저를 가장해 User-Agent를 바꿔 재접근 IP 변경 회피: IP 주소와 ASN(자율 시스템 번호)를 바꿔가며 지속적으로 우회 Cloudflare는 특히 비공개 신규 도메인을 만들어 robots.txt와 방화벽으로 크롤링을 명백히 막았음에도 불구하고, 퍼플렉시티가 해당 도메인의 콘텐츠를 요약해 제공했다는 사실을 공개했다. Cloudflare는 이러한 행위를 "웹 해킹과 다를 바 없는 위법 행위"라고 강도 높게 비판했다. 🤖 퍼플렉시티의 반격: "우리는 단순한 크롤러가 아닌 사용자 대리 에이전트" 퍼플렉시티는 즉각적인 반박 성명을 내놓았다. 그들의 입장은 명확했다: "우리는 웹을 자동으로 수집하는 전통적 크롤러가 아니라, 사용자의 실시간 요청을 처리하는 AI 어시스턴트이다." 📌 퍼플렉시티의 핵심 논리 사용자 대리 접근: 사용자가 웹 브라우저를 직접 사용하는 것과 기술적, 윤리적으로 동일한 접근이라는 주장 비저장성: 웹 콘텐츠를 미리 저장하거나 모델 학습에 사용하지 않고, 오직 실시간 질의 응답에만 사용한다는 점 강조 Cloudflare의 분석 오류: 헤드리스 브라우저 서비스인 BrowserBase의 트래픽을 퍼플렉시티의 것으로 오인했다며, Cloudflare의 분석 신뢰성을 공격 "이중 웹" 우려: 웹 접근 권한이 Cloudflare 같은 특정 인프라 기업에 의해 독점될 경우, 신생 서비스가 혁신을 할 수 없는 이중 웹 구조가 형성될 수 있다는 경고 ⚔️ 커뮤니티 내 치열한 의견 대립 기술 커뮤니티는 이번 사건을 두고 둘로 나뉘었다.
- Haebom


9