Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Explain Before You Answer: A Survey on Compositional Visual Reasoning

Created by
  • Haebom

저자

Fucai Ke, Joy Hsu, Zhixi Cai, Zixian Ma, Xin Zheng, Xindi Wu, Sukai Huang, Weiqing Wang, Pari Delir Haghighi, Gholamreza Haffari, Ranjay Krishna, Jiajun Wu, Hamid Rezatofighi

개요

본 논문은 2023년부터 2025년까지 발표된 260편 이상의 논문을 분석하여 구성적인 시각적 추론(Compositional Visual Reasoning) 분야를 종합적으로 조망한 설문 조사 논문입니다. 구성적인 시각적 추론이란, 인간처럼 시각적 장면을 분해하고 중간 개념을 기반으로 다단계 논리적 추론을 수행하는 능력을 기계에 부여하는 것을 목표로 합니다. 논문에서는 구성적 접근 방식의 장점(인지적 정렬, 의미적 충실도, 강건성, 해석력, 데이터 효율성)을 정의하고, 프롬프트 기반 언어 중심 파이프라인에서 도구 기반 LLM 및 VLM, 사고 연쇄 추론, 통합 에이전트 VLM에 이르는 5단계의 패러다임 변화를 추적합니다. 또한 60개 이상의 벤치마크와 지표를 제시하고, 주요 통찰력, 미해결 과제(LLM 기반 추론의 한계, 환각, 연역적 추론에 대한 편향, 확장 가능한 감독, 도구 통합, 벤치마크 한계 등) 및 미래 방향(세계 모델 통합, 인간-AI 협력적 추론, 더욱 풍부한 평가 프로토콜 등)을 제시합니다.

시사점, 한계점

시사점:
구성적인 시각적 추론 분야의 체계적인 검토 및 종합적 분석 제공
5단계 패러다임 변화를 통한 연구 동향 파악
다양한 벤치마크 및 지표 제시
구성적 접근 방식의 장점 및 한계 명확히 제시
향후 연구 방향 제시
한계점:
LLM 기반 추론의 한계
환각 문제
연역적 추론에 대한 편향
확장 가능한 감독의 부재
도구 통합의 어려움
벤치마크의 한계
👍