본 논문은 객체 상태 인식에 대한 Vision-Language Model(VLM)의 성능을 평가하기 위한 새로운 벤치마크인 STATUS Bench를 소개합니다. STATUS Bench는 객체 상태 식별(OSI), 이미지 검색(IR), 상태 변화 식별(SCI)의 세 가지 과제를 동시에 수행하도록 요구하여 VLM이 객체 상태의 미묘한 차이를 얼마나 정확하게 이해하는지 평가합니다. 또한 1300만 개의 설명을 포함하는 대규모 학습 데이터 세트인 STATUS Train을 제공하여 연구를 지원합니다. 실험 결과, 현존하는 VLM들이 STATUS Bench에서 어려움을 겪는 것을 확인했으며, STATUS Train을 통해 Qwen2.5-VL 모델이 Gemini 2.0 Flash와 유사한 성능을 달성함을 보였습니다.