Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Disrupting Vision-Language Model-Driven Navigation Services via Adversarial Object Fusion

Created by
  • Haebom

저자

Chunlong Xie, Jialing He, Shangwei Guo, Jiacheng Wang, Shudong Zhang, Tianwei Zhang, Tao Xiang

개요

본 논문은 서비스 지향 환경에서 비전-언어 탐색(VLN) 에이전트를 표적으로 하는 새로운 공격 프레임워크인 적대적 객체 융합(AdvOF)을 제시합니다. 대규모 언어 모델(LLM) 및 비전 언어 모델(VLM)과 같은 기본 모델은 향상된 인식 및 의사결정을 통해 서비스 지향 탐색 시스템을 강화했지만, 이러한 통합은 중요한 서비스 워크플로우에 취약성을 도입합니다. 기존의 적대적 공격은 신뢰성과 서비스 품질(QoS)이 가장 중요한 서비스 컴퓨팅 컨텍스트를 다루지 못합니다. 본 연구는 AdvOF를 사용하여 적대적 환경이 VLN 에이전트의 VLM 기반 인식 모듈에 미치는 영향을 조사하고 탐구합니다. 특히 AdvOF는 먼저 2D 및 3D 공간에서 피해 객체 위치를 정확하게 집계하고 정렬하여 적대적 객체를 정의하고 렌더링합니다. 그런 다음 물리적 속성과 VLM 인식에 걸쳐 적대적 객체와 피해 객체 간의 규제를 통해 적대적 객체를 공동으로 최적화합니다. 다양한 뷰에 중요도 가중치를 할당함으로써 최적화는 지역 업데이트와 정당화로부터 반복적인 융합을 통해 안정적이고 다중 뷰 방식으로 처리됩니다. 광범위한 평가를 통해 AdvOF가 정상적인 탐색 작업에 대한 최소한의 간섭을 유지하면서 적대적 조건에서 에이전트 성능을 효과적으로 저하시킬 수 있음을 보여줍니다. 이 연구는 VLM 기반 탐색 시스템의 서비스 보안에 대한 이해를 높이고 물리적 세계 배포에서 강력한 서비스 구성을 위한 계산적 기반을 제공합니다.

시사점, 한계점

시사점:
서비스 지향 환경에서 VLN 에이전트에 대한 새로운 적대적 공격 프레임워크(AdvOF) 제시.
VLM 기반 인식 모듈의 취약성에 대한 이해 증진.
물리적 세계 배포에서 강력한 서비스 구성을 위한 계산적 기반 제공.
적대적 환경에서 VLN 에이전트 성능 저하 가능성 입증.
한계점:
현재는 특정 유형의 VLN 에이전트 및 서비스 환경에 대한 공격에 국한될 수 있음.
다양한 적대적 객체 및 공격 전략에 대한 일반화 가능성에 대한 추가 연구 필요.
실제 세계 적용 시 발생할 수 있는 예측 불가능한 요소에 대한 고려 부족.
AdvOF의 효율성 및 확장성에 대한 추가 분석 필요.
👍