본 논문은 미래의 시각적 콘텐츠를 관찰하지 않고 객체 간의 관계를 예측하는 Visual Relationship Forecasting (VRF)를 다룬다. 기존 VRF 데이터셋의 문제점과 기존 방법론의 한계를 지적하며, 객체 상호 작용의 의미론적 일관성을 강조하는 SemCoBench 벤치마크를 제안한다. 또한, Relationship Augmented Module (RAM)과 Coherence Reasoning Module (CRM)을 갖춘 Semantic Coherent Transformer (SemCoFormer) 방법을 제시하여 의미론적 일관성을 모델링한다.