본 논문은 Ego4D 장기 행동 예측(LTA) 과제를 위한 새로운 3단계 프레임워크를 제시합니다. 기초 모델의 최근 발전에서 영감을 얻어, 시각적 특징 추출, 행동 인식, 장기 행동 예측의 세 단계로 구성됩니다. 고성능 시각 인코더를 사용하여 시각적 특징을 추출하고, 변환기를 사용하여 동사와 명사를 예측하며, 동사-명사 공동 출현 행렬을 통합하여 인식 정확도를 높입니다. 마지막으로, 예측된 동사-명사 쌍을 텍스트 프롬프트로 변환하여 미세 조정된 거대 언어 모델(LLM)에 입력하여 미래 행동 순서를 예측합니다. 본 프레임워크는 CVPR 2025에서 해당 과제 1위를 달성하여 장기 행동 예측 분야의 새로운 최첨단 기술을 수립했습니다. 코드는 https://github.com/CorrineQiu/Ego4D-LTA-Challenge-2025 에서 공개될 예정입니다.