Limits of Spatial Imagery Reasoning in Frontier LLM Models

Author

Haebom

저자

Sergio Y. Hayashi, Nina S. T. Hirata

💡 개요

본 연구는 거대 언어 모델(LLM)이 3D 모델 회전과 같은 공간적 추론 작업에 어려움을 겪는 문제를 해결하기 위해 외부 "이미지 모듈"을 LLM에 통합하는 "인지 보조기"로서의 가능성을 탐구합니다. 실험 결과, 제안된 듀얼 모듈 아키텍처는 62.5%의 낮은 정확도를 보였으며, 이는 LLM이 3D 공간 상태를 외부 모듈에 위임하더라도 근본적인 시각-공간적 원형질의 부족으로 인해 실패함을 시사합니다.

🔑 시사점 및 한계

•

LLM은 3D 모델 회전과 같은 복잡한 공간 추론 작업에서 외부 도구의 도움을 받더라도 여전히 성능에 한계가 있습니다.

•

현재 LLM은 깊이, 움직임, 단기 동적 예측과 같은 낮은 수준의 공간 신호를 추출하거나, 이미지에 대해 동적으로 시각적 초점을 전환하며 추론하는 능력이 부족합니다.

•

향후 연구는 LLM이 이러한 기본적인 시각-공간적 원형질을 학습하고, 이미지와 상징적/연상적 정보를 균형 있게 통합하여 추론할 수 있도록 하는 방법을 모색해야 합니다.

PDF 보기

Made with Slashpage