Sign In

Enhancing Action Recognition by Leveraging the Hierarchical Structure of Actions and Textual Context

Created by
  • Haebom
Category
Empty

저자

Manuel Benavent-Lledo, David Mulero-Perez, David Ortiz-Perez, Jose Garcia-Rodriguez, Antonis Argyros

개요

본 논문은 행동의 계층적 구조를 활용하고 위치 및 이전 행동을 포함한 상황별 텍스트 정보를 통합하여 행동 인식을 개선하는 새로운 접근 방식을 제안합니다. 이를 위해 시각적 및 텍스트적 특징을 모두 사용하는 변환기 아키텍처를 도입합니다. 시각적 특징은 RGB 및 광학 흐름 데이터에서 얻고, 텍스트 임베딩은 상황 정보를 나타냅니다. 또한, 거친 및 세분화된 행동 인식을 위해 모델을 동시에 훈련시키기 위한 결합 손실 함수를 정의하여 행동의 계층적 특성을 효과적으로 활용합니다. 제안된 방법의 효과를 입증하기 위해, 행동 계층을 통합하여 Toyota Smarthome Untrimmed (TSU) 데이터 세트를 확장하여 가정 환경에서 노인의 활동을 모니터링하기 위해 설계된 계층적 데이터 세트인 Hierarchical TSU 데이터 세트를 생성했습니다. 또한, 상황적 및 계층적 데이터를 통합하기 위한 다양한 전략의 성능 영향을 평가하는 소실 연구를 수행했습니다. 실험 결과는 제안된 방법이 Hierarchical TSU, Assembly101 및 IkeaASM 데이터 세트에서 SOTA(State-of-the-Art) 방법을 일관되게 능가하며, top-1 정확도에서 17% 이상의 향상을 달성함을 보여줍니다.

시사점, 한계점

시사점:
행동 인식에서 계층적 구조와 상황 정보를 통합하는 새로운 접근 방식 제시.
시각 및 텍스트 특징을 모두 활용하는 변환기 아키텍처 개발.
계층적 행동 인식을 위한 결합 손실 함수 정의.
Hierarchical TSU 데이터 세트 구축 및 SOTA 방법보다 우수한 성능 달성.
상황적 및 계층적 데이터 통합 전략의 효과를 입증하는 소실 연구 수행.
한계점:
논문에 구체적인 한계점 언급 없음. (하지만 논문 자체의 내용 요약이므로, 원본 논문을 참고해야 함.)
👍