본 논문은 객체를 탐지하고 시변적 상호 작용을 구조화된 그래프로 모델링하여 동적 시각 콘텐츠를 표현하는 VidSGG(Video Scene Graph Generation)를 다룬다. 기존 연구가 상자 수준 또는 픽셀 수준 VidSGG에 초점을 맞춘 것과 달리, 본 논문은 단일 단계, 통합 프레임워크인 UNO(UNified Object-centric VidSGG)를 제안하여 두 작업을 end-to-end 방식으로 공동으로 해결한다. UNO는 작업별 수정을 최소화하고 매개변수 공유를 최대화하여 다양한 시각적 세분성 수준에서 일반화를 가능하게 한다. 핵심은 확장된 슬롯 어텐션 메커니즘으로, 시각적 특징을 객체 및 관계 슬롯으로 분해한다. 견고한 시간적 모델링을 위해, 명시적인 추적 모듈에 의존하지 않고 프레임 간 일관된 객체 표현을 적용하는 객체 시간 일관성 학습을 도입했다. 또한, 동적 삼중항 예측 모듈은 관계 슬롯을 해당 객체 쌍에 연결하여 시간에 따른 진화하는 상호 작용을 포착한다.