본 논문은 기존의 다중 모달 대규모 언어 모델(MLLM)이 비디오 콘텐츠 이해에는 뛰어나지만 세밀한 동작 이해에는 어려움을 겪는다는 점을 지적하며, 이를 평가하기 위한 새로운 벤치마크인 FAVOR-Bench를 제안합니다. FAVOR-Bench는 다양한 동작에 대한 구조화된 수동 주석이 포함된 1,776개의 비디오로 구성되며, 닫힌형 및 열린형 평가 과제를 모두 포함합니다. 닫힌형 평가를 위해 6가지 하위 과제에 걸쳐 8,184개의 객관식 질문-답변 쌍을 설계했고, 열린형 평가를 위해서는 새로운 비용 효율적인 LLM-free 방식과 GPT 지원 자막 평가 방식을 개발했습니다. 21개의 최첨단 MLLM을 대상으로 실험한 결과, 비디오 동작의 세부적인 시간적 역동성을 이해하고 설명하는 능력에 상당한 한계가 있음을 보여줍니다. 이러한 한계를 완화하기 위해, 세밀한 동작 주석이 포함된 17,152개의 비디오로 구성된 FAVOR-Train 데이터셋을 추가로 구축했습니다. Qwen2.5-VL을 FAVOR-Train으로 미세 조정한 결과, TVBench, MotionBench 및 FAVOR-Bench의 동작 관련 과제에서 성능이 향상되었습니다. 제안된 FAVOR-Bench와 FAVOR-Train은 더욱 강력한 비디오 이해 모델을 개발하는 데 유용한 도구임을 보여줍니다.