본 논문은 비디오 내 객체 관계의 시간적 변화를 모델링하는 Dynamic Scene Graph Generation (DSGG) 모델의 성능 향상을 위한 Relation Scoring Network (RS-Net)을 제안한다. 기존 DSGG 모델이 주석 처리된 객체 쌍에만 의존하여 의미 있는 관계 식별에 어려움을 겪는 문제를 해결하기 위해, RS-Net은 공간적 상호 작용과 장기적인 시간적 맥락을 사용하여 객체 쌍의 맥락적 중요성을 평가한다. RS-Net은 공간적 컨텍스트 인코더와 비디오 수준 정보를 집계하는 시간적 인코더로 구성되며, 생성된 관계 점수를 통합된 삼중항 채점 메커니즘에 통합하여 관계 예측을 향상시킨다. Action Genome 데이터셋에 대한 실험 결과는 RS-Net이 다양한 기반 모델에 대해 Recall과 Precision을 일관되게 향상시키고, 특히 평균 Recall에서 괄목할 만한 성과를 거두어 관계의 긴 꼬리 분포 문제를 해결하는 데 기여함을 보여준다.