본 논문은 기존 독성 감지 방법들이 진화하는 교란 패턴에 취약하다는 문제점을 제기하며, 지속적인 학습을 통한 교란 패턴 탈옥 문제를 독성 감지 분야에 새롭게 도입합니다. 9가지 교란 패턴(기존 7가지 + 새롭게 개발한 2가지)으로 구성된 새로운 데이터셋을 구축하고, 제로샷 및 미세 조정된 교차 패턴 감지를 통해 기존 방법들의 취약성을 검증합니다. 이를 해결하기 위해 도메인 증분 학습 패러다임과 벤치마크를 제시하여 동적으로 등장하는 교란된 독성 텍스트 유형에 대한 검출기의 강건성을 확보하고자 합니다. 코드와 데이터셋은 GitHub에 공개될 예정입니다.