대규모 언어 모델(LLM)의 안전 정렬 접근 방식은 종종 무해한 질문에 대한 과도한 거부로 이어져 민감한 시나리오에서 유용성을 크게 감소시킵니다. 이러한 문제를 해결하기 위해 본 논문에서는 44가지 안전 관련 범주에 걸쳐 구조화된 응답과 함께 16,000개의 독성으로 보이는 질문을 포함하는 포괄적인 리소스인 FalseReject를 소개합니다. 모델이 안전한 맥락과 안전하지 않은 맥락을 정확하게 구분하는 데 도움이 되도록 명시적인 추론으로 응답을 구성하는 동시에 다양하고 복잡한 프롬프트를 생성하기 위해 그래프 기반 적대적 다중 에이전트 상호 작용 프레임워크를 제안합니다. FalseReject는 표준 지시 사항으로 조정된 모델과 추론 지향 모델 모두에 맞춤화된 훈련 데이터 세트와 인간이 주석을 단 벤치마크 테스트 세트를 포함합니다. 29개의 최첨단(SOTA) LLM에 대한 광범위한 벤치마킹은 지속적인 과도한 거부 문제를 보여줍니다. 실험 결과에 따르면 FalseReject를 사용한 감독 미세 조정은 전반적인 안전성이나 일반적인 언어 기능을 손상시키지 않고 불필요한 거부를 크게 줄입니다.