Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TraSCE: Trajectory Steering for Concept Erasure

Created by
  • Haebom
Category
Empty

저자

Anubhav Jain, Yuya Kobayashi, Takashi Shibuya, Yuhta Takida, Nasir Memon, Julian Togelius, Yuki Mitsufuji

개요

본 논문은 텍스트-이미지 확산 모델이 생성하는 유해 콘텐츠(NSFW 이미지 등)를 제거하기 위한 새로운 접근 방식인 TraSCE를 제안합니다. 기존의 네거티브 프롬프팅 기법의 한계를 지적하고, 특정한 네거티브 프롬프팅 공식과 국소 손실 기반 가이드를 결합하여 확산 과정을 유해 콘텐츠 생성에서 벗어나도록 유도합니다. TraSCE는 추가적인 학습이나 가중치 수정, 훈련 데이터 없이도 새로운 유해 개념을 제거할 수 있다는 장점이 있습니다. 다양한 벤치마크와 적대적 테스트(red team)를 통해 기존 방법보다 우수한 성능을 보임을 실험적으로 증명합니다.

시사점, 한계점

시사점:
네거티브 프롬프팅의 한계를 극복하는 새로운 접근 방식 제시
추가 학습이나 데이터 없이 유해 콘텐츠 제거 가능
다양한 유해 콘텐츠 및 예술적 스타일, 개체 제거에 효과적
적대적 공격에도 강한 성능 유지
한계점:
제안된 방법의 일반화 성능에 대한 추가 연구 필요
특정 유형의 유해 콘텐츠에 대한 효과성 검증 필요
실제 서비스 적용 시 발생 가능한 문제점 및 해결 방안에 대한 추가 연구 필요
👍