Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ViPlan: A Benchmark for Visual Planning with Symbolic Predicates and Vision-Language Models

Created by
  • Haebom

저자

Matteo Merler, Nicola Dainese, Minttu Alakuijala, Giovanni Bonetta, Pietro Ferrazzi, Yu Tian, Bernardo Magnini, Pekka Marttinen

개요

본 논문은 시각적 계획(Visual Planning)을 위한 최초의 오픈소스 벤치마크인 ViPlan을 소개합니다. ViPlan은 기존의 블록 월드 문제의 시각적 변형과 시뮬레이션된 가정용 로봇 환경의 두 영역에서 점점 어려워지는 일련의 작업들을 제공합니다. 여러 크기의 9개 오픈소스 VLM(Vision-Language Model) 패밀리와 선택된 클로즈드 모델들을 벤치마킹하여 VLM 기반 심볼릭 계획과 모델을 직접 사용하여 액션을 제안하는 방법을 평가합니다. 블록 월드에서는 정확한 이미지 기반화가 중요하기 때문에 심볼릭 계획이 VLM 직접 계획보다 성능이 뛰어나지만, 상식적 지식과 오류 복구 능력이 유용한 가정용 로봇 작업에서는 그 반대가 사실임을 보여줍니다. 마지막으로, 대부분의 모델과 방법에서 Chain-of-Thought 프롬프팅을 사용하는 것에 큰 이점이 없음을 보여주며, 현재 VLM이 시각적 추론에 어려움을 겪고 있음을 시사합니다.

시사점, 한계점

시사점:
시각적 계획을 위한 최초의 오픈소스 벤치마크인 ViPlan을 제공하여 연구를 가속화합니다.
VLM 기반 심볼릭 계획과 VLM 직접 계획의 성능을 비교 분석하여 각 방법의 강점과 약점을 밝힙니다.
Chain-of-Thought 프롬프팅의 효과성에 대한 분석을 통해 현재 VLM의 시각적 추론 능력의 한계를 보여줍니다.
블록 월드와 가정용 로봇 환경이라는 두 가지 다른 도메인에서의 비교 분석을 통해 다양한 상황에서의 계획 방법의 적합성을 평가합니다.
한계점:
ViPlan은 아직 초기 단계의 벤치마크이며, 향후 더 많은 작업과 모델들이 추가될 필요가 있습니다.
평가에 사용된 VLM의 종류와 크기가 제한적일 수 있습니다.
Chain-of-Thought 프롬프팅 외 다른 프롬프팅 기법에 대한 분석이 부족합니다.
실제 환경이 아닌 시뮬레이션 환경에서의 평가 결과이므로 실제 적용 가능성에 대한 추가 연구가 필요합니다.
👍