Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint

Created by
  • Haebom

저자

Heekyung Lee, Jiaxin Ge, Tsung-Han Wu, Minwoo Kang, Trevor Darrell, David M. Chan

개요

본 논문은 시각적 수수께끼인 rebus 퍼즐을 해결하는 능력을 통해 최신 시각-언어 모델(VLMs)의 한계를 탐구합니다. rebus 퍼즐은 이미지, 공간 배열, 상징적 대체를 통해 언어를 암호화하여 다중 모드 추상화, 상징적 추론, 문화적, 음성적, 언어적 말장난에 대한 이해를 필요로 합니다. 연구팀은 다양한 영어 rebus 퍼즐로 구성된 수동 생성 및 주석이 달린 벤치마크를 구축하여 현대 VLMs의 성능을 분석했습니다. 단순한 그림 대체부터 공간 의존적 단서까지 다양한 난이도의 퍼즐이 포함되었습니다.

시사점, 한계점

시사점: VLMs가 단순한 시각적 단서 해독에는 놀라운 능력을 보이지만, 추상적 추론, 측면 사고, 시각적 은유 이해가 필요한 작업에서는 어려움을 겪는다는 것을 밝혔습니다. rebus 퍼즐 벤치마크는 VLMs의 성능 평가 및 향상을 위한 유용한 도구가 될 수 있습니다.
한계점: 수동으로 생성된 벤치마크의 규모가 제한적일 수 있습니다. 다양한 언어와 문화적 배경을 고려한 rebus 퍼즐 데이터셋 확장이 필요합니다. VLMs의 추상적 추론 및 시각적 은유 이해 능력 향상에 대한 추가 연구가 필요합니다.
👍