본 논문은 행동의 계층적 구조를 활용하고 위치 및 이전 행동을 포함한 상황별 텍스트 정보를 통합하여 행동 인식을 개선하는 새로운 접근 방식을 제안합니다. 이를 위해 시각적 및 텍스트적 특징을 모두 사용하는 변환기 아키텍처를 도입합니다. 시각적 특징은 RGB 및 광학 흐름 데이터에서 얻고, 텍스트 임베딩은 상황 정보를 나타냅니다. 또한, 거친 및 세분화된 행동 인식을 위해 모델을 동시에 훈련시키기 위한 결합 손실 함수를 정의하여 행동의 계층적 특성을 효과적으로 활용합니다. 제안된 방법의 효과를 입증하기 위해, 행동 계층을 통합하여 Toyota Smarthome Untrimmed (TSU) 데이터 세트를 확장하여 가정 환경에서 노인의 활동을 모니터링하기 위해 설계된 계층적 데이터 세트인 Hierarchical TSU 데이터 세트를 생성했습니다. 또한, 상황적 및 계층적 데이터를 통합하기 위한 다양한 전략의 성능 영향을 평가하는 소실 연구를 수행했습니다. 실험 결과는 제안된 방법이 Hierarchical TSU, Assembly101 및 IkeaASM 데이터 세트에서 SOTA(State-of-the-Art) 방법을 일관되게 능가하며, top-1 정확도에서 17% 이상의 향상을 달성함을 보여줍니다.