본 연구는 대규모 멀티모달 모델(LMM)이 실제 시각적 입력에 의미론적 이해를 얼마나 잘 기반하는지 탐구합니다. 특히, 손과 물체의 상호작용 시퀀스를 대상으로 모델이 상호작용의 시작과 끝을 감지할 수 있는지 평가했습니다. 이를 위해, Something-Something-V2 데이터셋의 비디오에 2만 개 이상의 주석이 달린 상호작용을 포함하는 대규모 데이터셋을 구축했습니다. Qwen-2.5VL과 GPT-4o 두 LMM을 사용하여 상호작용 시작 및 종료 프레임을 찾도록 했지만, 모델들은 대상 객체, 액션 식별 및 추론 능력과는 달리 상호작용의 시점 및 위치를 정확하게 파악하지 못했습니다.