Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Grounding Foundational Vision Models with 3D Human Poses for Robust Action Recognition

Created by
  • Haebom
Category
Empty

저자

Nicholas Babey, Tiffany Gu, Yiheng Li, Cristian Meo, Kevin Zhu

개요

신체화된 에이전트가 주변 세계를 효과적으로 이해하고 상호 작용하려면 물리적 공간에 기반한 인간 행동에 대한 미묘한 이해가 필요하다. 기존의 행동 인식 모델은 RGB 비디오에 의존하여 패턴과 행동 레이블 간의 피상적인 상관 관계를 학습하므로 복잡한 장면에서 근본적인 물리적 상호 작용 역학과 인간 자세를 포착하는 데 어려움을 겪는다. 본 논문은 V-JEPA 2의 맥락적이고 예측적인 세계 역학과 CoMotion의 명시적이고 폐색 허용적인 인간 자세 데이터를 융합하여 행동 인식을 물리적 공간에 기반을 두는 모델 아키텍처를 제안한다. 제안된 모델은 일반적인 행동 인식과 높은 폐색 행동 인식을 위해 InHARD 및 UCF-19-Y-OCC 벤치마크에서 검증되었다. 모델은 세 가지 다른 baseline보다 우수한 성능을 보였으며, 특히 복잡하고 폐색된 장면에서 두드러졌다. 본 연구 결과는 통계적 패턴 인식이 아닌 공간적 이해를 통해 행동 인식을 지원해야 함을 강조한다.

시사점, 한계점

시사점:
물리적 공간 이해를 기반으로 하는 행동 인식 모델의 중요성을 강조한다.
V-JEPA 2와 CoMotion의 융합을 통한 새로운 모델 아키텍처를 제안하고, 이를 통해 기존 모델보다 우수한 성능을 달성했다.
특히 폐색이 심한 복잡한 환경에서 모델의 강점을 입증했다.
한계점:
구체적인 모델 아키텍처의 세부 사항이나 성능 개선 정도에 대한 자세한 정보가 부족하다.
제안된 모델이 다른 벤치마크나 실제 환경에서 얼마나 잘 작동하는지에 대한 추가적인 검증이 필요하다.
모델의 일반화 가능성과 확장성에 대한 추가적인 연구가 필요하다.
👍