본 논문은 대규모 언어 모델(LLM)의 미세 조정 API를 통한 악의적인 사용 방지를 위한 필터링 메커니즘을 우회하는 새로운 공격 기법인 "NOICE"를 제안합니다. 기존 공격들이 모델의 초기 응답 거부를 제거하는 데 의존하는 점을 지적하고, 이를 간단한 방어 기법으로 차단할 수 있음을 보여줍니다. NOICE는 LLM의 공식적인 거부 메커니즘을 악용하여 안전상의 이유로 무해한 요청을 거부한 후에도 해당 요청을 이행하도록 함으로써 유해한 응답을 유도합니다. 이를 통해 여러 오픈소스 모델과 GPT-4o를 포함한 클로즈드소스 모델을 공격하여 성공률 57% (GPT-4o 기준)를 달성했으며, OpenAI로부터 버그 바운티를 받았습니다. 단순한 방어 기법으로 보호되는 오픈소스 모델에 대해서는 기존 최고 성능 공격 대비 평균 3.25배의 성공률 향상을 보였습니다. 이는 반복적인 거부 메커니즘의 취약성을 보여주고, 클로즈드소스 모델이 무해한 데이터로부터 직면하는 위협에 대한 이해를 넓힙니다.