본 논문은 자율적인 인공지능이 실제 환경과 상호 작용하는 능력을 평가하기 위해 개발된 벤치마크인 SWITCH (Semantic World Interface Tasks for Control and Handling)를 소개합니다. SWITCH는 시각적 입력, 부분적인 관찰, 그리고 사후 검증 능력을 요구하며, 일상 생활에서 흔히 접하는 제어 인터페이스 (예: 스위치, 가전제품 패널)를 대상으로 합니다. SWITCH-Basic은 task-aware VQA, semantic UI grounding, action generation, state-transition prediction, result verification 등 5가지 능력을 평가하며, 98개의 실제 장치와 가전제품을 포함하는 351개의 작업을 제시합니다. 실험 결과, 현재의 대규모 언어 모델 (LMMMs)은 단일 단계 상호 작용에서도 일관되지 않은 성능을 보였으며, 텍스트 단서에 과도하게 의존하고 시각적 또는 비디오 증거를 충분히 활용하지 못하는 경향을 보였습니다. 벤치마크는 재현 가능한 평가와 더 어려운 미래 반복 및 훈련 데이터 세트 생성을 위한 데이터, 코드 및 분할을 제공합니다.