본 논문은 대규모 언어 모델(LLM)이 생성한 콘텐츠가 웹에서 증가함에 따라, 해당 콘텐츠의 신뢰성과 윤리적 문제를 제기하고, 이를 탐지하기 위한 파이프라인을 제안한다. 기존 LLM 탐지기의 낮은 정확성을 극복하기 위해, 여러 페이지의 텍스트를 분석하여 웹사이트 전체를 분류하는 방식을 채택했다. 120개의 웹사이트를 대상으로 100%의 정확도를 달성했으며, 검색 결과 및 Common Crawl 아카이브의 2만 개 웹사이트에서 LLM 기반 사이트의 상당한 비율을 탐지했다.