Sign In

SAGE: A Generic Framework for LLM Safety Evaluation

Created by
  • Haebom
Category
Empty

저자

Madhur Jindal, Hari Shrawgi, Parag Agrawal, Sandipan Dandapat

개요

SAGE (Safety AI Generic Evaluation)는 의료, 금융 등 다양한 분야에 적용되는 대규모 언어 모델(LLM)의 안전성 평가를 위한 자동화된 모듈형 프레임워크입니다. 기존 벤치마크의 한계를 극복하고, 실제 사용 환경에서의 대화 역학과 특정 응용 분야에서 발생하는 해악을 포착하기 위해 설계되었습니다. SAGE는 Big Five 모델을 기반으로 한 다양한 성격의 프롬프트 기반 적대적 에이전트를 활용하여, 대상 응용 프로그램 및 해악 정책에 적응하는 시스템 인지적 다중 턴 대화를 가능하게 합니다. 7개의 최첨단 LLM을 세 가지 응용 프로그램과 해악 정책에 대해 평가한 결과, 대화 길이가 길어질수록 해악이 증가하고, 모델 동작이 사용자 성격과 시나리오에 따라 크게 다르며, 일부 모델은 유용성을 감소시키는 높은 거부율로 해악을 최소화하는 경향을 보였습니다. 또한, 아동 관련 성적 정책을 강화하자 다양한 응용 프로그램에서 측정된 결함이 크게 증가했습니다.

시사점, 한계점

시사점:
SAGE는 LLM의 안전성 평가를 위한 맞춤형 및 동적 프레임워크를 제공합니다.
다중 턴 대화 및 사용자 성격, 시나리오 변화를 반영하여 실제 사용 환경을 시뮬레이션합니다.
응용 프로그램별 및 정책별 안전성 평가를 통해 특정 해악을 식별하고 대응할 수 있습니다.
안전성 평가에서 대화 길이 및 정책 민감성을 고려해야 함을 보여줍니다.
한계점:
평가에 사용된 응용 프로그램 및 해악 정책의 수가 제한적일 수 있습니다.
Big Five 모델 기반의 사용자 성격이 실제 사용자의 다양성을 완벽하게 대표하지 못할 수 있습니다.
평가 결과가 특정 모델, 응용 프로그램, 및 정책에 의존적일 수 있습니다.
자동화된 프레임워크의 한계로 인해, 발생하는 모든 잠재적 위험을 완전히 포착하지 못할 수 있습니다.
👍