본 논문은 생성형 AI와 대규모 언어 모델(LLM)의 발전으로 인해 생성된 텍스트(MGT)의 악의적인 사용 가능성에 대한 우려를 제기하며, 특히 현실적인 시나리오에 대한 일반화를 평가하는 강력한 벤치마크 부족으로 인해 MGT 탐지를 어렵게 만드는 문제를 다룹니다. 따라서 기존 MGT 검출기(Mage, Radar, LLM-DetectAIve 등)의 견고성을 언어적으로 고안된 적대적 공격에 대해 테스트하는 파이프라인을 제시합니다. 직접적 선호도 최적화(DPO)를 사용하여 언어 모델을 미세 조정하여 MGT 스타일을 인간이 작성한 텍스트(HWT)로 이동시킴으로써 검출기의 스타일 정보 의존성을 악용하여 새로운 생성물의 탐지를 어렵게 만듭니다. 또한, 이러한 정렬에 의해 유도된 언어적 변화와 MGT 텍스트를 탐지하는 데 검출기에서 사용되는 특징을 분석합니다. 연구 결과, 검출기는 상대적으로 적은 예시만으로도 쉽게 속을 수 있으며, 이로 인해 탐지 성능이 크게 저하되는 것을 보여줍니다. 이는 탐지 방법을 개선하고 보이지 않는 도메인 내 텍스트에 대해 견고하게 만드는 것이 중요함을 강조합니다.