대규모 언어 모델(LLM)의 안전성은 광범위한 배포를 가능하게 하는 가장 시급한 과제 중 하나이다. 일반적인 유해성에 초점을 맞춘 기존 연구와 달리, 기업은 LLM 기반 에이전트가 의도된 사용 사례에 안전한지 여부에 대한 근본적인 우려를 가지고 있다. 이 문제를 해결하기 위해, 특정 목적에 맞게 사용자 쿼리를 적절하게 수락하거나 거부하는 LLM의 능력인 '운영 안전성'을 정의하고, 일반 및 특정 에이전트 사용 사례에서 운영 안전성을 측정하기 위한 평가 스위트 및 벤치마크인 'OffTopicEval'을 제안한다. 20개의 오픈 가중치 LLM으로 구성된 6개의 모델 제품군에 대한 평가 결과, 모든 모델이 높은 수준의 운영적 안전성을 유지하지 못하는 것으로 나타났다. 이 문제를 해결하기 위해 쿼리 기반 (Q-ground) 및 시스템 프롬프트 기반 (P-ground) 프롬프트 기반 조향 방법을 제안하여 OOD 거부를 크게 개선했다.