대규모 언어 모델(LLM)은 다양한 분야에서 뛰어나지만, 탈옥 공격에 취약하여 유해 콘텐츠를 생성하거나, 안전 메커니즘으로 인해 무해한 쿼리를 과도하게 거부하는 문제에 직면해 있습니다. 이러한 문제는 서로 다른 가치관을 수용하고 주어진 안전 선호도에 정확하게 맞춰야 하는 필요성으로 더욱 복잡해집니다. 특히, 멀티모달 LLM(MLLM)에서 이러한 문제는 더욱 두드러지며, 횡단 모달 작업에서 과도한 거부가 증가하고 확장된 공격 표면으로 인해 새로운 보안 위험이 발생합니다. 본 논문에서는 최적화 기반 시각적 프롬프트 프레임워크인 Magic Image를 제안하여 안전성을 향상시키고 과도한 거부를 줄입니다. Magic Image는 유해/무해 샘플을 사용하여 이미지 프롬프트를 최적화함으로써 단일 모델이 매개변수 업데이트 없이도 다양한 가치관에 적응하고 주어진 안전 선호도에 더 잘 맞출 수 있도록 합니다. 실험 결과는 다양한 데이터 세트에서 안전성-효과 균형이 개선되었으며, 모델 성능을 유지하여 배포 가능한 MLLM 안전 정렬을 위한 실용적인 솔루션을 제공합니다.