본 논문은 언어 모델이 거부하는 주제의 전체 집합을 식별하는 "거부 발견(refusal discovery)"이라는 새로운 문제 설정을 제시합니다. 토큰 사전 채우기를 사용하여 금지된 주제를 찾는 거부 발견 방법인 LLM-크롤러를 개발하고, 공개 안전 조정 데이터를 가진 오픈소스 모델인 Tulu-3-8B에서 LLM-크롤러를 벤치마킹합니다. 1000개의 프롬프트 예산 내에서 36개 주제 중 31개를 검색하는 데 성공하고, Claude-Haiku의 사전 채우기 옵션을 사용하여 최첨단 모델로 크롤링을 확장합니다. 마지막으로 Llama-3.3-70B와 추론을 위해 미세 조정된 두 가지 변형 모델인 DeepSeek-R1-70B 및 Perplexity-R1-1776-70B 등 세 가지 널리 사용되는 오픈 가중치 모델을 크롤링합니다. DeepSeek-R1-70B는 검열 조정과 일치하는 패턴(CCP 정렬 응답 암기로 나타나는 "사고 억압" 행동)을 보여줍니다. Perplexity-R1-1776-70B는 검열에 강하지만, LLM-크롤러는 양자화된 모델에서 CCP 정렬 거부 답변을 유도합니다. 이러한 결과는 AI 시스템의 편향, 경계 및 정렬 실패를 감지하기 위한 거부 발견 방법의 중요성을 강조합니다.