Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TRAP: Targeted Redirecting of Agentic Preferences

Created by
  • Haebom

저자

Hangoo Kang, Jehyeok Yeon, Gagandeep Singh

개요

본 논문은 시각-언어 모델(VLMs) 기반의 자율 에이전트 AI 시스템의 실세계 배치가 가까워짐에 따라, 모달 간 의미 추론을 악용하는 새로운 적대적 조작 공격에 대한 취약성을 제기한다. 기존의 적대적 공격은 가시적인 픽셀 변화에 의존하거나 모델 또는 환경에 대한 특권적인 접근 권한을 필요로 하지만, TRAP은 확산 기반의 의미 주입을 사용하여 에이전트의 의사결정을 조작하는 생성적 적대적 프레임워크를 제시한다. 네거티브 프롬프트 기반의 저하와 시아미즈 의미 네트워크 및 레이아웃 인식 공간 마스킹으로 안내되는 긍정적 의미 최적화를 결합하여, 모델 내부에 접근하지 않고도 시각적으로 자연스러운 이미지를 생성하면서 에이전트 AI 시스템에서 일관된 선택 편향을 유도한다. COCO 데이터셋을 사용하여 다중 후보 의사결정 시나리오에서 LLaVA-34B, Gemma3, Mistral-3.1 등 주요 모델에 대해 100%의 공격 성공률을 달성, SPSA, Bandit, 표준 확산 접근 방식 등 기존 방식을 능가함을 보여준다. 이는 인간이 인지할 수 없는 모달 간 조작을 통해 자율 에이전트를 일관되게 오도할 수 있음을 보여주는 중요한 취약성을 드러낸다.

시사점, 한계점

시사점:
시각-언어 모델 기반 자율 에이전트 AI 시스템의 새로운 유형의 적대적 공격 가능성을 제시한다.
기존의 픽셀 기반 공격보다 더욱 은밀하고 효과적인 의미 기반 공격의 위험성을 보여준다.
모델 내부 접근 없이도 높은 성공률로 공격이 가능함을 증명한다.
모달 간 의미 추론에 대한 방어 전략의 필요성을 강조한다.
픽셀 수준의 강건성을 넘어서는 새로운 방어 메커니즘 개발의 중요성을 시사한다.
한계점:
현재 COCO 데이터셋에 대한 평가 결과만 제시되어 다른 데이터셋이나 더 복잡한 시나리오에 대한 일반화 가능성은 추가 연구가 필요하다.
TRAP의 효과적인 방어 전략에 대한 논의는 부족하다.
실제 세계 환경에서의 실험 결과가 제시되지 않았다.
👍