본 논문은 다중 모달 대규모 언어 모델(MLLM)의 affordance 인식 능력을 평가하기 위한 새로운 벤치마크인 A4Bench를 제시합니다. A4Bench는 구성적 affordance(물체의 고유한 속성 이해)와 변형적 affordance(상황적, 문화적, 개인적 요소에 따른 affordance 이해)의 두 가지 측면을 평가하며, 1,282개의 질의응답 쌍과 718개의 질의응답 쌍으로 구성됩니다. 17개의 MLLM(독점 모델 9개, 오픈소스 모델 8개)을 사람의 성능과 비교 평가한 결과, 독점 모델이 오픈소스 모델보다 성능이 우수하지만, 모든 모델이 affordance 인식, 특히 변형적 affordance 인식에 제한된 능력을 보이는 것으로 나타났습니다. 최고 성능 모델인 Gemini-2.0-Pro조차도 사람의 성능에는 크게 못 미치는 것으로 확인되었습니다. 이 연구는 MLLM의 환경 이해에 대한 중요한 한계를 강조하며, 더욱 견고하고 상황 인식적인 AI 시스템 개발을 위한 기반을 제공합니다. 데이터셋은 GitHub에서 공개됩니다.