본 논문은 대규모 언어 모델(LLM)의 악용 가능성, 특히 유해 콘텐츠 생성 및 유포에 대한 우려를 다룹니다. 최근 연구들은 LLM의 취약성과 악용 가능성이 높다는 것을 보여주며, 인간이 고품질의 기계 생성 텍스트와 인간이 작성한 텍스트를 구분하기 어려워졌다는 점을 지적합니다. 따라서 기계 생성 콘텐츠를 정확하게 탐지하는 자동화된 방법 개발이 중요하며, 이는 온라인 정보 공간에서 해당 콘텐츠를 식별하고 신뢰성에 대한 추가 정보를 제공할 수 있습니다. 본 연구는 LLM을 탐지 작업에 맞춰 강력하게 미세 조정하는 프로세스를 제안하여, 난독화에 대한 내성이 강하고 분포 외 데이터에 대한 일반화 성능이 높은 탐지기를 만드는 것을 목표로 합니다.