SAGE (Safety AI Generic Evaluation)는 의료, 금융 등 다양한 분야에 적용되는 대규모 언어 모델(LLM)의 안전성 평가를 위한 자동화된 모듈형 프레임워크입니다. 기존 벤치마크의 한계를 극복하고, 실제 사용 환경에서의 대화 역학과 특정 응용 분야에서 발생하는 해악을 포착하기 위해 설계되었습니다. SAGE는 Big Five 모델을 기반으로 한 다양한 성격의 프롬프트 기반 적대적 에이전트를 활용하여, 대상 응용 프로그램 및 해악 정책에 적응하는 시스템 인지적 다중 턴 대화를 가능하게 합니다. 7개의 최첨단 LLM을 세 가지 응용 프로그램과 해악 정책에 대해 평가한 결과, 대화 길이가 길어질수록 해악이 증가하고, 모델 동작이 사용자 성격과 시나리오에 따라 크게 다르며, 일부 모델은 유용성을 감소시키는 높은 거부율로 해악을 최소화하는 경향을 보였습니다. 또한, 아동 관련 성적 정책을 강화하자 다양한 응용 프로그램에서 측정된 결함이 크게 증가했습니다.