본 논문은 대규모 언어 모델(LLM)에 의해 자동 생성된 웹 콘텐츠, 즉 "LLM-dominant" 콘텐츠의 탐지를 위한 신뢰할 수 있고 확장 가능한 파이프라인을 제안합니다. 기존의 LLM 탐지기는 깔끔하고 산문 형태의 텍스트에 대해서만 성능이 우수하지만, 웹 콘텐츠는 복잡한 마크업과 다양한 장르를 가지고 있기 때문에 한계가 있습니다. 따라서 본 논문에서는 각 페이지에서 추출된 텍스트를 단순히 분류하는 대신, 여러 산문 형태의 페이지에 대한 LLM 텍스트 탐지기의 출력을 기반으로 각 사이트를 분류하는 파이프라인을 제시합니다. 120개 사이트로 구성된 2개의 독립적인 기준 데이터셋을 사용하여 탐지기를 학습 및 평가한 결과, 100%의 정확도를 달성했습니다. 검색 엔진 결과 및 Common Crawl 아카이브에서 1만 개 사이트를 대상으로 실제 환경에서 테스트한 결과, 상당수의 LLM-dominant 사이트를 탐지했으며, 이러한 사이트들이 검색 결과에서 높은 순위를 차지하고 그 수가 증가하고 있다는 점을 발견하여 최종 사용자와 웹 생태계 전반에 미치는 영향에 대한 우려를 제기합니다.