Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation

Created by
  • Haebom
Category
Empty

저자

Jaehong Yoon, Shoubin Yu, Vaidehi Patil, Huaxiu Yao, Mohit Bansal

개요

본 논문은 안전하지 않은 콘텐츠 생성 위험성을 증가시키는 고품질 이미지 및 비디오 생성에 있어 최근 발전된 확산 모델의 문제점을 해결하기 위해, 모델 가중치를 변경하지 않는 새로운 훈련 없는 접근 방식인 SAFREE를 제안한다. SAFREE는 텍스트 임베딩 공간에서 유해 개념에 해당하는 부분 공간을 감지하고 프롬프트 임베딩을 이 부분 공간에서 멀리 유도하여 유해 콘텐츠를 걸러내면서 의도된 의미를 보존한다. 유해성 필터링과 안전한 개념 보존 간의 균형을 맞추기 위해 자체 검증 필터링 메커니즘과 적응형 재주의 메커니즘을 통합하여 픽셀 수준에서 유해 개념과 관련된 특징의 영향을 선택적으로 감소시킨다. 다양한 T2I 백본과 T2V 작업에 적용 가능하며, 훈련 없는 기준 모델과 비교하여 안전하지 않은 콘텐츠 억제에서 최첨단 성능을 달성하고, 고품질 이미지를 유지하면서 목표 개념을 효과적으로 필터링한다.

시사점, 한계점

시사점:
모델 가중치 변경 없이 훈련 없이 유해 콘텐츠 생성을 방지하는 새로운 접근 방식 제시.
텍스트 임베딩 공간 및 픽셀 수준에서 유해 개념을 효과적으로 필터링하는 메커니즘 개발.
다양한 T2I 및 T2V 모델과 작업에 적용 가능한 유연성과 일반화 성능을 보여줌.
훈련 기반 방법과 비교하여 경쟁력 있는 성능을 달성.
고품질 이미지 생성을 유지하면서 안전성을 확보.
한계점:
제안된 방법의 효과는 특정 유해 개념 집합에 대한 훈련 데이터의 품질에 의존할 수 있음.
새로운 유형의 유해 콘텐츠가 등장할 경우, 모델의 적응 및 업데이트가 필요할 수 있음.
극단적인 경우, 안전성과 이미지 품질 사이의 절충이 필요할 수 있음.
실제 서비스 환경에서의 성능 및 안정성에 대한 추가적인 검증이 필요함.
👍