Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities

Created by
  • Haebom

저자

Sahil Verma, Keegan Hines, Jeff Bilmes, Charlotte Siska, Luke Zettlemoyer, Hila Gonen, Chandan Singh

개요

본 논문은 대규모 언어 모델(LLM)의 유해한 오용 가능성에 대한 우려를 해결하기 위해, 다국어 및 다양한 모달리티(언어, 이미지, 오디오)에 걸쳐 유해한 프롬프트를 감지하는 새로운 접근 방식인 OMNIGUARD를 제안합니다. OMNIGUARD는 LLM/MLLM의 내부 표현 중 언어 또는 모달리티 간에 일치하는 부분을 식별하고, 이를 사용하여 유해한 프롬프트를 감지하는 언어 또는 모달리티에 독립적인 분류기를 구축합니다. 다국어 환경에서 기존 최고 성능(SOTA) 방법보다 11.57% 향상된 정확도를, 이미지 기반 프롬프트에서는 20.44% 향상된 정확도를 달성하며, 오디오 기반 프롬프트에 대한 새로운 SOTA를 제시합니다. 또한 생성 과정에서 계산된 임베딩을 재사용하여 매우 효율적입니다(가장 빠른 기존 방법보다 약 120배 빠름). 코드와 데이터는 GitHub에서 공개됩니다.

시사점, 한계점

시사점:
다국어 및 다모달리티 환경에서 유해한 프롬프트 감지 성능을 크게 향상시켰습니다.
기존 방법보다 훨씬 효율적인 유해 프롬프트 감지 시스템을 제시했습니다.
다양한 모달리티(텍스트, 이미지, 오디오)에 대한 유해 프롬프트 감지 성능을 평가하고 개선했습니다.
공개된 코드와 데이터를 통해 연구의 재현성과 확장성을 높였습니다.
한계점:
본 논문에서 제시된 방법의 일반화 성능에 대한 추가적인 평가가 필요합니다.
새로운 유형의 유해한 프롬프트나 공격에 대한 OMNIGUARD의 취약성에 대한 분석이 부족합니다.
실제 환경에서의 OMNIGUARD의 성능 및 안정성에 대한 검증이 필요합니다.
👍