Sign In

Agentic Moderation: Multi-Agent Design for Safer Vision-Language Models

Created by
  • Haebom
Category
Empty

저자

Juan Ren, Mark Dras, Usman Naseem

개요

Agentic Moderation은 자율적인 에이전트를 활용하여 LVLM(Large Vision-Language Models)의 안전성을 향상시키는 모델 불가지론적 프레임워크입니다. Shield, Responder, Evaluator, Reflector를 포함한 동적 협력 에이전트를 통합하여, jailbreak 공격에 대한 맥락 인식적이고 해석 가능한 완화를 제공합니다. 실험 결과는 공격 성공률 감소, Non-Following Rate 안정 유지, Refusal Rate 향상을 보였습니다. Agentic 아키텍처의 유연성과 추론 능력을 활용하여 모듈식, 확장 가능하고 세분화된 안전성 강화를 제공하며, 자동화된 안전 관리를 위한 에이전트 시스템의 잠재력을 강조합니다.

시사점, 한계점

시사점:
LVLM의 jailbreak 공격에 대한 방어 능력 향상 (공격 성공률 7-19% 감소).
안정적인 Non-Following Rate 유지.
Refusal Rate 4-20% 향상으로 모델의 안전성 강화.
동적 협력 에이전트 기반의 맥락 인식적이고 해석 가능한 안전성 확보.
모듈식, 확장 가능하고 세분화된 안전성 강화를 위한 에이전트 시스템의 활용 가능성 제시.
한계점:
논문에 구체적인 한계점에 대한 언급 없음. (하지만, 연구의 결과가 특정 데이터셋과 LVLM에 국한될 수 있다는 점을 고려해볼 수 있음.)
👍