Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Value-Aligned Prompt Moderation via Zero-Shot Agentic Rewriting for Safe Image Generation

Created by
  • Haebom
Category
Empty

저자

Xin Zhao, Xiaojun Chen, Bingshan Liu, Zeyao Liu, Zhendong Zhao, Xiaoyan Gu

개요

VALOR(Value-Aligned LLM-Overseen Rewriter)는 안전하고 유용한 텍스트-이미지 생성을 위한 모듈형, 제로샷 에이전트 프레임워크입니다. VALOR는 다단계 NSFW 감지기, 문화적 가치 정렬 모듈, 의도 모호성 제거기를 통해 계층화된 프롬프트 분석과 인간 중심 가치 기반 추론을 통합합니다. 안전하지 않은 내용이 감지되면 LLM을 사용하여 사용자 의도를 보존하면서 정렬을 시행하도록 설계된 동적, 역할별 지침에 따라 프롬프트를 선택적으로 다시 작성합니다. 생성된 이미지가 안전 검사를 통과하지 못하면 VALOR는 선택적으로 스타일 재생성을 수행하여 핵심 의미론을 변경하지 않고 출력을 더 안전한 시각적 영역으로 안내합니다. VALOR은 적대적, 모호한 및 가치 민감한 프롬프트에서 안전하지 않은 출력을 최대 100.00%까지 유의미하게 줄이면서 프롬프트 유용성과 창의성을 유지합니다.

시사점, 한계점

시사점:
안전하고 유용한 이미지 생성 시스템 구축을 위한 확장 가능하고 효과적인 접근 방식 제시.
적대적, 모호한, 가치 민감한 프롬프트에 대한 안전성 향상.
프롬프트의 유용성과 창의성 유지.
한계점:
명시적으로 언급되지 않음.
👍