Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Synthesizing Visual Concepts as Vision-Language Programs

Created by
  • Haebom
Category
Empty

저자

Antonia Wust, Wolfgang Stammer, Hikaru Shindo, Lukas Helff, Devendra Singh Dhami, Kristian Kersting

Vision-Language Programs (VLP)

개요

Vision-Language 모델(VLM)은 멀티모달 태스크에서 강력한 성능을 보이지만, 체계적인 시각적 추론 작업에서는 일관성이 없거나 비논리적인 출력을 내는 경우가 많습니다. 본 논문에서는 VLM의 지각 유연성과 프로그램 합성을 통한 체계적인 추론을 결합한 Vision-Language Programs (VLP)를 제안합니다. VLP는 VLM 내부에 추론을 내장하는 대신, 모델을 활용하여 구조화된 시각적 설명을 생성하고 이를 신경 기호 프로그램으로 컴파일합니다. 결과 프로그램은 이미지에서 직접 실행되며, 작업 제약 조건과 일치하고, 인간이 이해할 수 있는 설명을 제공하여 지름길 사용을 쉽게 완화할 수 있습니다. 합성 및 실제 데이터셋 실험 결과, VLP는 복잡한 논리적 추론을 요구하는 작업에서 직접 및 구조화된 프롬프트보다 우수한 성능을 보였습니다.

시사점, 한계점

VLM의 지각 유연성과 프로그램 합성을 결합하여 체계적인 시각적 추론을 가능하게 함.
인간이 이해할 수 있는 설명을 제공하여 지름길 사용 완화 가능.
복잡한 논리적 추론을 요구하는 작업에서 기존 방법보다 우수한 성능을 보임.
(한계점은 논문에 명시되지 않음)
👍