본 논문은 언어 모델이 거부하는 주제들의 전체 집합을 식별하는 "거부 발견(Refusal Discovery)"이라는 새로운 문제 설정을 제시합니다. 연구진은 금지된 주제를 찾기 위해 토큰 프리필링(token prefilling)을 사용하는 거부 발견 방법인 반복적 프리필 크롤러(Iterated Prefill Crawler, IPC)를 개발했습니다. Tulu-3-8B 모델을 대상으로 IPC의 성능을 벤치마킹하고, Claude-Haiku, Llama-3.3-70B, DeepSeek-R1-70B, Perplexity-R1-1776-70B 등 여러 모델에 적용하여 거부 주제를 발견했습니다. 특히 DeepSeek-R1-70B는 중국 공산당(CCP)에 부합하는 응답을 암기하는 "사고 억압" 행위를 보여주는 등 검열 조정의 패턴을 보였으며, Perplexity-R1-1776-70B는 검열에 강건하지만 양자화된 모델에서는 CCP에 부합하는 거부 응답을 유발했습니다. 이를 통해 AI 시스템의 편향, 경계, 정렬 실패를 감지하기 위한 거부 발견 방법의 중요성을 강조합니다.