본 논문은 대규모 언어 모델(LLM)이 생성한 텍스트의 탐지 어려움에 대한 문제를 다룹니다. LLM이 생성한 텍스트는 인간이 작성한 텍스트와 유사하여 악의적인 목적으로 사용될 가능성이 높습니다. 본 연구는 인간 피드백 강화 학습(RLHF)을 통해 텍스트를 추가로 편집하는 것이 생성된 텍스트의 품질과 LLM 생성 텍스트 탐지기의 성능에 미치는 영향을 조사합니다. RLHF는 텍스트 품질을 향상시키지만, 탐지 가능성이 높고, 길이가 길며, 반복적인 출력을 생성하는 경향이 있음을 밝혔습니다. 또한, 훈련 기반 탐지기는 짧은 텍스트와 코드가 포함된 텍스트에 취약하며, 제로샷 탐지기는 더욱 강력함을 보였습니다.