본 논문은 대규모 언어 모델(LLM)이 새로운 상황에 안전 관련 중요 사실을 얼마나 잘 일반화하는지 평가하기 위한 새로운 벤치마크인 SAGE-Eval을 제시합니다. SAGE-Eval은 신뢰할 수 있는 기관에서 수집한 104개의 안전 관련 사실을 바탕으로 7개의 일반적인 영역(예: 야외 활동, 의학)에 걸쳐 10,428개의 시험 시나리오를 생성합니다. 실험 결과, 최고 성능 모델인 Claude-3.7-sonnet조차도 안전 관련 사실의 58%만 통과했으며, 모델 성능과 학습 컴퓨팅 자원 간의 상관관계가 약하다는 것을 발견했습니다. 이는 단순히 모델 크기를 키우는 것만으로는 안전성 문제를 해결할 수 없음을 시사합니다. 따라서 개발자는 배포 전 평가에 SAGE-Eval을 사용하여 모델의 안전성을 평가해야 한다고 제안합니다. SAGE-Eval 데이터셋과 코드는 공개적으로 제공됩니다.