Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LLM Robustness Leaderboard v1 --Technical report

Created by
  • Haebom

저자

Pierre Peigne - Lefebvre, Quentin Feuillade-Montixi, Tom David, Nicolas Miailhe

개요

PRISM Eval은 Paris AI Action Summit을 위해 LLM 강건성 순위표를 발표하고, 그에 대한 기술 보고서를 제출했습니다. 이 보고서는 동적 적대적 최적화를 통해 자동화된 적대적 테스트를 수행하는 AI 시스템인 PRISM Eval Behavior Elicitation Tool (BET)을 소개합니다. BET은 최첨단 LLM 41개 중 37개에 대해 100%의 공격 성공률(ASR)을 달성했습니다. 단순 성공/실패 평가를 넘어, 유해 행동을 유도하는 데 필요한 평균 시도 횟수를 추정하는 세분화된 강건성 지표를 제안하여, 모델 간 공격 난이도가 300배 이상 차이가 남을 보였습니다. 또한 특정 위험 범주에 가장 효과적인 탈옥 기법을 식별하기 위한 기본 수준의 취약성 분석을 도입했습니다. AI Safety Network의 신뢰할 수 있는 제3자와의 협업 평가를 통해 커뮤니티 전반에 걸친 분산된 강건성 평가를 위한 실용적인 경로를 제시합니다.

시사점, 한계점

시사점:
동적 적대적 최적화 기반의 자동화된 적대적 테스트 시스템(BET)을 통해 LLM의 취약성을 효과적으로 평가할 수 있음을 보여줌.
LLM의 강건성 수준이 모델마다 크게 다름을 정량적으로 측정하고, 세분화된 강건성 지표를 제시함.
특정 위험 범주에 효과적인 탈옥 기법을 분석하여, LLM 개발 및 안전 향상에 대한 구체적인 방향을 제시함.
분산된 강건성 평가를 위한 협업 모델을 제시하여, 커뮤니티 기반의 LLM 안전성 확보에 기여함.
한계점:
현재 41개의 LLM만 평가되었으며, 더 많은 모델에 대한 평가가 필요함.
BET의 공격 성공률이 100%에 달하지 못한 4개의 LLM에 대한 추가 분석이 필요함.
제시된 세분화된 강건성 지표의 일반화 가능성 및 한계에 대한 추가 연구가 필요함.
특정 탈옥 기법의 효과성은 LLM의 구체적인 구조 및 설계에 따라 달라질 수 있으므로, 더욱 포괄적인 분석이 필요함.
👍