Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Technical Report for Ego4D Long-Term Action Anticipation Challenge 2025

Created by
  • Haebom

저자

Qiaohui Chu, Haoyu Zhang, Yisen Feng, Meng Liu, Weili Guan, Yaowei Wang, Liqiang Nie

개요

본 논문은 Ego4D 장기 행동 예측(LTA) 과제를 위한 새로운 3단계 프레임워크를 제시합니다. 기초 모델의 최근 발전에서 영감을 얻어, 시각적 특징 추출, 행동 인식, 장기 행동 예측의 세 단계로 구성됩니다. 고성능 시각 인코더를 사용하여 시각적 특징을 추출하고, 변환기를 사용하여 동사와 명사를 예측하며, 동사-명사 공동 출현 행렬을 통합하여 인식 정확도를 높입니다. 마지막으로, 예측된 동사-명사 쌍을 텍스트 프롬프트로 변환하여 미세 조정된 거대 언어 모델(LLM)에 입력하여 미래 행동 순서를 예측합니다. 본 프레임워크는 CVPR 2025에서 해당 과제 1위를 달성하여 장기 행동 예측 분야의 새로운 최첨단 기술을 수립했습니다. 코드는 https://github.com/CorrineQiu/Ego4D-LTA-Challenge-2025 에서 공개될 예정입니다.

시사점, 한계점

시사점:
Ego4D LTA 과제에서 최첨단 성능 달성
기초 모델을 활용한 새로운 3단계 프레임워크 제시
시각적 특징과 언어 모델의 효과적인 결합
공개된 코드를 통한 재현성 확보
한계점:
구체적인 LLM의 종류 및 미세조정 방법에 대한 자세한 설명 부족
다양한 데이터셋에 대한 일반화 성능 검증 부족
장기 예측의 시간적 범위 및 정확도 한계에 대한 분석 부족
👍