Agentic Moderation은 자율적인 에이전트를 활용하여 LVLM(Large Vision-Language Models)의 안전성을 향상시키는 모델 불가지론적 프레임워크입니다. Shield, Responder, Evaluator, Reflector를 포함한 동적 협력 에이전트를 통합하여, jailbreak 공격에 대한 맥락 인식적이고 해석 가능한 완화를 제공합니다. 실험 결과는 공격 성공률 감소, Non-Following Rate 안정 유지, Refusal Rate 향상을 보였습니다. Agentic 아키텍처의 유연성과 추론 능력을 활용하여 모듈식, 확장 가능하고 세분화된 안전성 강화를 제공하며, 자동화된 안전 관리를 위한 에이전트 시스템의 잠재력을 강조합니다.