Sign In

GOAT-Bench: Safety Insights to Large Multimodal Models through Meme-Based Social Abuse

Created by
  • Haebom
Category
Empty

저자

Hongzhan Lin, Ziyang Luo, Bo Wang, Ruichao Yang, Jing Ma

개요

본 논문은 소셜 미디어의 급증으로 인해 온라인에서 밈을 이용한 학대가 증가하고 있음을 지적하며, 밈의 미묘하고 암시적인 의미 때문에 부정적 영향을 평가하는 것이 어렵다는 점을 강조합니다. 이에 따라 다양한 모드를 처리하는 대규모 다중 모드 모델(LMM)의 능력에 주목하여, GPT-4o 등 여러 LMM이 밈에 나타나는 미묘한 사회적 학대를 감지하고 반응하는 능력을 종합적으로 조사합니다. 6,000개 이상의 다양한 밈으로 구성된 포괄적인 밈 벤치마크인 GOAT-Bench를 소개하고, 이를 사용하여 LMM의 증오심, 여성혐오, 공격성, 비꼬는 말투, 유해 콘텐츠 평가 능력을 평가합니다. 실험 결과, 현재 모델들은 안전에 대한 인식이 부족하고 암시적인 학대의 다양한 형태에 무감각하다는 것을 보여주며, 이러한 부족함이 안전한 인공지능 구현에 중요한 장애물이 된다고 주장합니다. GOAT-Bench 및 관련 자료는 공개적으로 접근 가능합니다.

시사점, 한계점

시사점:
소셜 미디어에서 밈을 이용한 학대의 심각성을 다시 한번 강조하고, 이에 대한 연구의 필요성을 제기합니다.
LMM의 밈 이해 능력 평가를 위한 포괄적인 벤치마크(GOAT-Bench)를 제공합니다.
현재 LMM의 안전에 대한 인식 부족 및 암시적 학대에 대한 무감각성을 밝혀냅니다.
안전한 AI 개발을 위한 중요한 과제를 제시합니다.
연구 자료를 공개적으로 제공하여 후속 연구를 촉진합니다.
한계점:
GOAT-Bench의 규모는 크지만, 다양한 문화적 배경과 언어를 충분히 반영하지 못할 수 있습니다.
현재 LMM의 성능 한계를 보여주지만, 이를 개선하기 위한 구체적인 방안은 제시하지 않습니다.
암시적 학대의 정의 및 판단 기준에 대한 주관성이 존재할 수 있습니다.
평가에 사용된 LMM의 종류와 버전이 제한적일 수 있습니다.
👍