Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VIPER: Visual Perception and Explainable Reasoning for Sequential Decision-Making

Created by
  • Haebom
Category
Empty

저자

Mohamed Salim Aissi, Clemence Grislain, Mohamed Chetouani, Olivier Sigaud, Laure Soulier, Nicolas Thome

개요

본 논문은 시각적 지시에 기반한 계획을 위한 새로운 프레임워크인 VIPER를 제시합니다. VIPER는 VLM(Vision-Language Model) 기반의 지각과 LLM(Large Language Model) 기반의 추론을 통합하여 작동합니다. 고정된 VLM이 이미지 관찰에 대한 텍스트 설명을 생성하고, 이를 LLM 정책이 작업 목표에 기반하여 행동을 예측하는 데 사용합니다. 행동 복제 및 강화 학습을 통해 추론 모듈을 미세 조정하여 에이전트의 의사 결정 능력을 향상시켰습니다. ALFWorld 벤치마크 실험 결과, VIPER는 최첨단 시각적 지시 기반 계획보다 성능이 훨씬 우수하며, 순수 텍스트 기반 오라클과의 성능 차이를 줄였습니다. 텍스트를 중간 표현으로 활용하여 설명 가능성을 높였고, 지각 및 추론 구성 요소에 대한 세분화된 분석을 가능하게 합니다.

시사점, 한계점

시사점:
VLM과 LLM을 통합하여 시각적 지시 기반 계획 문제에 대한 새로운 접근 방식 제시.
ALFWorld 벤치마크에서 최첨단 성능 달성.
텍스트 중간 표현을 활용하여 설명 가능성 향상 및 지각/추론 구성 요소 분석 용이.
행동 복제 및 강화 학습을 통한 에이전트 의사 결정 능력 향상.
한계점:
본 논문에서는 구체적인 한계점이 명시적으로 언급되지 않음. 추가적인 연구를 통해 알 수 있을 것으로 예상됨. (예: 특정 유형의 시각적 지시에 대한 취약성, 계산 비용, 데이터셋 의존성 등)
👍