본 논문은 비디오 캡셔닝 모델의 성능 향상을 위해 모션 기반 디코딩을 활용하는 새로운 생성 프레임워크인 Motion-Augmented Caption Model (M-ACM)을 제안합니다. M-ACM은 인간 메쉬 복구에서 파생된 모션 표현을 활용하여 인간 신체 역학을 명시적으로 강조함으로써 캡션의 품질을 향상시킵니다. 또한, 인간 동작에 초점을 맞춘 Human Motion Insight (HMI) 데이터세트와 HMI-Bench 벤치마크를 개발하여 모션 중심 비디오 캡셔닝 연구를 지원합니다. 실험 결과는 M-ACM이 복잡한 인간 동작과 미묘한 시간적 변화를 정확하게 설명하는 데 있어 기존 방법들을 능가함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
인간 동작의 미세한 디테일을 정확하게 캡셔닝하는 새로운 접근 방식을 제시함.
◦
모션 인식 디코딩을 통해 캡션의 의미적 충실도와 공간적 정렬을 향상시킴.
◦
모션 중심 비디오 캡셔닝 연구를 위한 새로운 데이터세트(HMI) 및 벤치마크(HMI-Bench)를 제공함.
◦
복잡한 인간 동작 및 미묘한 시간적 변화를 정확하게 설명하는 데 있어 기존 방법보다 우수한 성능을 보임.