본 논문은 텍스트 조건 비디오 생성 모델(VGMs)의 발전에도 불구하고 생성된 비디오가 사실적 오류를 포함하고 물리 법칙을 이해하지 못하는 문제점을 해결하기 위해, VACT라는 자동화된 프레임워크를 제안합니다. VACT는 인공지능의 인과 추론 능력을 평가하고 측정하기 위해 인과 분석 기법과 대규모 언어 모델을 결합하여 다양한 시나리오에서 모델의 인과적 행동을 평가합니다. 이는 수동 분석의 한계를 극복하고 일반화 및 확장성을 제공합니다. 또한 다단계 인과 평가 지표를 도입하여 VGMs의 인과적 성능에 대한 상세한 분석을 제공하고, 여러 VGMs를 벤치마킹하여 그들의 인과 추론 능력에 대한 통찰력을 제공합니다. 이는 VGMs의 신뢰성과 현실 세계 적용 가능성을 향상시키는 데 기여합니다.
시사점, 한계점
•
시사점:
◦
VGMs의 인과적 이해 부족 문제를 자동화된 방식으로 해결할 수 있는 VACT 프레임워크 제시.