Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Forgotten Polygons: Multimodal Large Language Models are Shape-Blind

Created by
  • Haebom

저자

William Rudman, Michal Golovanesky, Amir Bar, Vedant Palit, Yann LeCun, Carsten Eickhoff, Ritambhara Singh

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 수학적 문제 해결 능력, 특히 시각-수학적 추론 능력의 한계를 탐구한다. 연구진은 MLLM의 기하학적 기본 개념 이해, 다단계 추론 능력을 평가하고 시각적 추론 능력 향상을 위한 잠재적 해결책을 제시한다. 실험 결과, 최첨단 모델조차도 규칙적인 다각형 식별에서 50% 미만의 정확도를 보이는 등 기본적인 도형 인식에 심각한 결함을 드러냈다. 이러한 실패는 이중 과정 이론(dual-process theory)의 관점에서 분석되었으며, MLLM이 System 2(의도적인 추론) 대신 System 1(직관적이고 기억된 연상)에 의존하는 것으로 나타났다. 결론적으로 MLLM은 익숙한 도형과 새로운 도형 모두에서 변의 개수를 세는 데 실패하며, 변의 개념을 학습하지 못했거나 시각적 입력을 효과적으로 처리하지 못함을 시사한다. 마지막으로, 도형의 시각적 주석을 명시적으로 참조하여 다단계 수학적 추론을 향상시키는 Visually Cued Chain-of-Thought (VC-CoT) 프롬프팅 기법을 제안하며, 이를 통해 GPT-4o의 불규칙 다각형 변 세기 작업 정확도를 7%에서 93%로 향상시켰다.

시사점, 한계점

시사점:
MLLM의 시각-수학적 추론 능력의 심각한 한계를 밝힘.
MLLM이 System 1에 의존하여 시각 정보를 처리하는 경향을 규명.
시각적 정보를 명시적으로 활용하는 VC-CoT 프롬프팅 기법의 효과성을 제시.
MLLM의 System 2 추론 능력 향상의 필요성을 강조.
한계점:
VC-CoT 프롬프팅 기법의 일반화 가능성에 대한 추가 연구 필요.
제한된 데이터셋과 특정 과제에 대한 평가 결과의 일반화 가능성에 대한 검토 필요.
MLLM의 System 2 추론 능력 향상을 위한 보다 근본적인 해결책 모색 필요.
👍