본 논문은 대규모 언어 모델(LLM)의 안전한 정렬 과정에서 발생하는 과도한 거부(over-refusal) 문제를 해결하기 위해, 대규모 과도한 거부 데이터셋인 OR-Bench를 제안합니다. OR-Bench는 10가지 일반적인 거부 범주에 걸쳐 8,000개의 과도한 거부 프롬프트, 최첨단 LLM에게도 어려운 약 1,000개의 어려운 프롬프트, 그리고 무분별한 응답을 방지하기 위한 600개의 유해한 프롬프트로 구성됩니다. 이를 활용하여 8개 모델 계열의 32개 인기 LLM에 대한 과도한 거부 현상을 종합적으로 측정하고, 데이터셋과 코드베이스를 공개합니다.