Aetheria: A multimodal interpretable content safety framework based on multi-agent debate and collaboration
Created by
Haebom
Category
Empty
저자
Yuxiang He, Jian Zhao, Yuchen Yuan, Tianle Zhang, Wei Cai, Haojie Cheng, Ziyan Shi, Ming Zhu, Haichuan Tang, Chi Zhang, Xuelong Li
개요
디지털 콘텐츠의 기하급수적인 증가는 콘텐츠 안전성에 심각한 문제를 제기한다. 기존의 단일 모델 또는 고정된 파이프라인 기반의 콘텐츠 검토 시스템은 암묵적인 위험을 식별하고 해석 가능한 판단 프로세스를 제공하는 데 한계가 있다. 이러한 문제를 해결하기 위해, 본 논문은 다중 에이전트 토론 및 협업 기반의 멀티모달 해석 가능 콘텐츠 안전성 프레임워크인 Aetheria를 제안한다. Aetheria는 RAG 기반 지식 검색을 기반으로 하는 역동적인 상호 설득 토론 메커니즘을 통해 5개의 핵심 에이전트의 협력적 아키텍처를 활용하여 멀티모달 콘텐츠에 대한 심층 분석과 판정을 수행한다. 제안된 벤치마크 (AIR-Bench)에 대한 광범위한 실험을 통해 Aetheria는 상세하고 추적 가능한 감사 보고서를 생성할 뿐만 아니라 전반적인 콘텐츠 안전성 정확도, 특히 암묵적 위험 식별에서 기존의 기준 모델보다 상당한 이점을 보였다. 이 프레임워크는 투명하고 해석 가능한 패러다임을 확립하여 신뢰할 수 있는 AI 콘텐츠 검토 분야를 크게 발전시켰다.