Grounding Foundational Vision Models with 3D Human Poses for Robust Action Recognition
Created by
Haebom
Category
Empty
저자
Nicholas Babey, Tiffany Gu, Yiheng Li, Cristian Meo, Kevin Zhu
개요
신체화된 에이전트가 주변 세계를 효과적으로 이해하고 상호 작용하려면 물리적 공간에 기반한 인간 행동에 대한 미묘한 이해가 필요하다. 기존의 행동 인식 모델은 RGB 비디오에 의존하여 패턴과 행동 레이블 간의 피상적인 상관 관계를 학습하므로 복잡한 장면에서 근본적인 물리적 상호 작용 역학과 인간 자세를 포착하는 데 어려움을 겪는다. 본 논문은 V-JEPA 2의 맥락적이고 예측적인 세계 역학과 CoMotion의 명시적이고 폐색 허용적인 인간 자세 데이터를 융합하여 행동 인식을 물리적 공간에 기반을 두는 모델 아키텍처를 제안한다. 제안된 모델은 일반적인 행동 인식과 높은 폐색 행동 인식을 위해 InHARD 및 UCF-19-Y-OCC 벤치마크에서 검증되었다. 모델은 세 가지 다른 baseline보다 우수한 성능을 보였으며, 특히 복잡하고 폐색된 장면에서 두드러졌다. 본 연구 결과는 통계적 패턴 인식이 아닌 공간적 이해를 통해 행동 인식을 지원해야 함을 강조한다.
시사점, 한계점
•
시사점:
◦
물리적 공간 이해를 기반으로 하는 행동 인식 모델의 중요성을 강조한다.
◦
V-JEPA 2와 CoMotion의 융합을 통한 새로운 모델 아키텍처를 제안하고, 이를 통해 기존 모델보다 우수한 성능을 달성했다.
◦
특히 폐색이 심한 복잡한 환경에서 모델의 강점을 입증했다.
•
한계점:
◦
구체적인 모델 아키텍처의 세부 사항이나 성능 개선 정도에 대한 자세한 정보가 부족하다.
◦
제안된 모델이 다른 벤치마크나 실제 환경에서 얼마나 잘 작동하는지에 대한 추가적인 검증이 필요하다.