[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Preprint: Did I Just Browse A Website Written by LLMs?

Created by
  • Haebom

저자

Sichang "Steven" He, Ramesh Govindan, Harsha V. Madhyastha

개요

본 논문은 대규모 언어 모델(LLM)에 의해 자동 생성된 웹 콘텐츠, 즉 "LLM-dominant" 콘텐츠의 탐지를 위한 신뢰할 수 있고 확장 가능한 파이프라인을 제안합니다. 기존의 LLM 탐지기는 깔끔하고 산문 형태의 텍스트에 대해서만 성능이 우수하지만, 웹 콘텐츠는 복잡한 마크업과 다양한 장르를 가지고 있기 때문에 한계가 있습니다. 따라서 본 논문에서는 각 페이지에서 추출된 텍스트를 단순히 분류하는 대신, 여러 산문 형태의 페이지에 대한 LLM 텍스트 탐지기의 출력을 기반으로 각 사이트를 분류하는 파이프라인을 제시합니다. 120개 사이트로 구성된 2개의 독립적인 기준 데이터셋을 사용하여 탐지기를 학습 및 평가한 결과, 100%의 정확도를 달성했습니다. 검색 엔진 결과 및 Common Crawl 아카이브에서 1만 개 사이트를 대상으로 실제 환경에서 테스트한 결과, 상당수의 LLM-dominant 사이트를 탐지했으며, 이러한 사이트들이 검색 결과에서 높은 순위를 차지하고 그 수가 증가하고 있다는 점을 발견하여 최종 사용자와 웹 생태계 전반에 미치는 영향에 대한 우려를 제기합니다.

시사점, 한계점

시사점:
LLM-dominant 콘텐츠의 탐지를 위한 효과적이고 확장 가능한 파이프라인을 제시합니다.
웹 상에서 LLM-dominant 콘텐츠의 확산과 검색 순위 상승을 확인하고, 그에 따른 부정적 영향을 경고합니다.
LLM-dominant 콘텐츠 탐지 기술의 중요성을 강조합니다.
한계점:
현재 제시된 파이프라인의 성능 평가는 제한된 데이터셋(120개 사이트)에 기반합니다. 더욱 광범위하고 다양한 데이터셋을 사용한 추가적인 검증이 필요합니다.
LLM-dominant 콘텐츠의 정의 및 분류 기준에 대한 명확한 지침이 부족할 수 있습니다.
LLM의 지속적인 발전과 새로운 생성 방식의 등장으로 인해 탐지기의 성능 저하 가능성이 있습니다.
👍