본 논문은 대규모 언어 모델(LLM)의 과도한 거부(overrefusal) 현상을 해결하기 위한 연구를 제시한다. 과도한 거부는 모델이 안전성을 과도하게 고려하여 정상적인 질문까지 위험하다고 판단하는 현상으로, 본 논문에서는 모델의 안전성 결정 경계(safety decision boundaries)를 분석하여 이 문제를 해결하고자 한다. 연구진은 안전성 경계 근처의 미묘한 차이를 구분하지 못하는 모델의 어려움을 발견하고, 이를 바탕으로 RASS라는 자동화된 프롬프트 생성 및 선택 프레임워크를 제안한다. RASS는 표현 공간(representation space)에서 조향 벡터(steering vectors)를 활용하여 안전성 경계에 맞춰진 프롬프트를 효율적으로 식별하고 선별하여 과도한 거부를 완화한다. 또한 다국어 환경에도 적용 가능하며, 다양한 LLM의 안전성 결정 경계를 분석하고 MORBench 평가 세트를 구축하여 모델의 안전성과 유용성을 다국어로 평가할 수 있도록 지원한다. 코드와 데이터셋은 공개되어 있다.