PRISM Eval은 Paris AI Action Summit을 위해 LLM 강건성 순위표를 발표하고, 그에 대한 기술 보고서를 제출했습니다. 이 보고서는 동적 적대적 최적화를 통해 자동화된 적대적 테스트를 수행하는 AI 시스템인 PRISM Eval Behavior Elicitation Tool (BET)을 소개합니다. BET은 최첨단 LLM 41개 중 37개에 대해 100%의 공격 성공률(ASR)을 달성했습니다. 단순 성공/실패 평가를 넘어, 유해 행동을 유도하는 데 필요한 평균 시도 횟수를 추정하는 세분화된 강건성 지표를 제안하여, 모델 간 공격 난이도가 300배 이상 차이가 남을 보였습니다. 또한 특정 위험 범주에 가장 효과적인 탈옥 기법을 식별하기 위한 기본 수준의 취약성 분석을 도입했습니다. AI Safety Network의 신뢰할 수 있는 제3자와의 협업 평가를 통해 커뮤니티 전반에 걸친 분산된 강건성 평가를 위한 실용적인 경로를 제시합니다.