Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

While recognizing actions, LMMs struggle to detect core interaction events

Created by
  • Haebom
Category
Empty

저자

Daniel Harari, Michael Sidorov, Liel David, Chen Shterental, Abrham Kahsay Gebreselasie, Muhammad Haris Khan

개요

본 연구는 대규모 멀티모달 모델(LMM)이 실제 시각적 입력에 의미론적 이해를 얼마나 잘 기반하는지 탐구합니다. 특히, 손과 물체의 상호작용 시퀀스를 대상으로 모델이 상호작용의 시작과 끝을 감지할 수 있는지 평가했습니다. 이를 위해, Something-Something-V2 데이터셋의 비디오에 2만 개 이상의 주석이 달린 상호작용을 포함하는 대규모 데이터셋을 구축했습니다. Qwen-2.5VL과 GPT-4o 두 LMM을 사용하여 상호작용 시작 및 종료 프레임을 찾도록 했지만, 모델들은 대상 객체, 액션 식별 및 추론 능력과는 달리 상호작용의 시점 및 위치를 정확하게 파악하지 못했습니다.

시사점, 한계점

시사점:
LMM이 객체 인식, 액션 이해, 추론 능력은 뛰어나지만, 물리적 상호작용의 시간 및 위치를 정확하게 파악하는 데 어려움을 겪음.
LMM의 동적 장면 이해에 필요한 지각적 기반 부족을 시사함.
손-객체 상호작용 분석을 위한 대규모 데이터셋 구축 및 공개.
한계점:
단일 이벤트가 포함된 짧은 비디오에 국한하여 평가.
두 개의 LMM에 대한 제한적인 실험.
모델의 실패 원인에 대한 깊이 있는 분석 부족.
👍