본 논문은 대규모 언어 모델(LLM)의 안전한 정렬 과정에서 발생하는 과도한 거부(over-refusal) 문제를 해결하기 위한 연구이다. LLM의 유해한 출력을 방지하기 위한 안전 조치 강화는 무해한 프롬프트까지 거부하는 과도한 거부 현상을 야기할 수 있다. 이 문제에 대한 체계적인 측정은 어려움이 있었기에, 본 연구는 과도한 거부 데이터셋을 자동으로 생성하는 새로운 방법을 제안한다. 이를 통해 10가지 일반적인 거부 범주에 걸쳐 8만 개의 과도한 거부 프롬프트를 포함하는 대규모 과도한 거부 벤치마크인 OR-Bench를 소개한다. OR-Bench는 최첨단 LLM에도 어려운 약 1,000개의 어려운 프롬프트와 무분별한 응답을 방지하기 위한 600개의 유해한 프롬프트도 포함한다. 8개 모델 계열의 32개 인기 LLM을 대상으로 과도한 거부 현상을 측정하는 포괄적인 연구 결과를 제시하며, 데이터셋과 코드베이스를 공개한다.