Sign In

Reimagining Safety Alignment with An Image

Created by
  • Haebom
Category
Empty

저자

Yifan Xia, Guorui Chen, Wenqian Yu, Zhijiang Li, Philip Torr, Jindong Gu

개요

대규모 언어 모델(LLM)은 다양한 분야에서 뛰어나지만, 탈옥 공격에 취약하여 유해 콘텐츠를 생성하거나, 안전 메커니즘으로 인해 무해한 쿼리를 과도하게 거부하는 문제에 직면해 있습니다. 이러한 문제는 서로 다른 가치관을 수용하고 주어진 안전 선호도에 정확하게 맞춰야 하는 필요성으로 더욱 복잡해집니다. 특히, 멀티모달 LLM(MLLM)에서 이러한 문제는 더욱 두드러지며, 횡단 모달 작업에서 과도한 거부가 증가하고 확장된 공격 표면으로 인해 새로운 보안 위험이 발생합니다. 본 논문에서는 최적화 기반 시각적 프롬프트 프레임워크인 Magic Image를 제안하여 안전성을 향상시키고 과도한 거부를 줄입니다. Magic Image는 유해/무해 샘플을 사용하여 이미지 프롬프트를 최적화함으로써 단일 모델이 매개변수 업데이트 없이도 다양한 가치관에 적응하고 주어진 안전 선호도에 더 잘 맞출 수 있도록 합니다. 실험 결과는 다양한 데이터 세트에서 안전성-효과 균형이 개선되었으며, 모델 성능을 유지하여 배포 가능한 MLLM 안전 정렬을 위한 실용적인 솔루션을 제공합니다.

시사점, 한계점

시사점:
단일 모델 내에서 다양한 가치관을 수용하고 안전 선호도에 맞춰 LLM의 안전성을 향상시키는 새로운 프레임워크 제안 (Magic Image).
매개변수 업데이트 없이 이미지 프롬프트 최적화를 통해 MLLM의 과도한 거부 문제를 해결.
다양한 데이터 세트에서 안전성과 효과의 균형을 개선.
배포 가능한 MLLM 안전 정렬을 위한 실용적인 솔루션 제시.
한계점:
구체적인 한계점은 논문 요약에 명시되지 않음.
👍